Méga-panne OVH : 3 millions de sites potentiellement touchés, l’incident en cours de résolution [MAJ 2]

Article mis à jour à 14h30 : L’incident est « clos », affirme OVH qui précise que la panne a duré 2h33. Retrouvez les explications techniques ici.

La panne est majeure mais la communication est robuste. Depuis ce matin 7h, Octave Klaba, patron d’OVH, communique en toute transparence sur Twitter autour de cet incident majeur qui a plongé dans le noihr potentiellement plus de 3 millions de sites Web français, dont des grands noms comme BFM ou Nexity. 

 

La panne de grande ampleur est intervenue ce jeudi matin 7h dans le datacenter de Strasbourg (SBG) : « Nous avons un souci d’alimentation de SBG1/SBG4. Les 2 arrivées électriques EDF sont down (!!) et les 2 chaines de groupes électrogènes se sont mis en défaut (!!!). L’ensemble de 4 arrivées elec n’alimentent plus la salle de routage. Nous sommes tous sur le problème ».

Et d’ajouter un peu plus tard : « En plus de souci sur SBG [Strasbourg, NDLR], nous avons le souci sur le réseau optique en Europe qui interconnecte RBX [Roubaix, NDLR] et GRA [Gravelines, NDLR] avec les POP. Il est down (!!) ». Visiblement, les deux incidents ne sont pas liés.

Panne EDF et panne des groupes électrogènes (soit 4 sources d’énergie down), backbone en carafe, l’effet domino est fatal.

A 11h30, l’incident semblait en cours de résolution et de nombreuses entreprises ou sites Web touchés témoignent d’un certain retour à la normale, mais d’autres sont encore inaccessibles. Ainsi, un des liens EDF a été réparé et le datacenter de Strasbourg semble reprendre peu à peu vie.

À 12h40, un rapport d’incident a été publié sur le site travaux.ovh.net destiné à informer les utilisateurs sur les pannes et dérangements touchant le service de OVH. Octave Klaba assure que les incidents sont en voie de résolution et promet de revenir sur les causes précises des deux incidents simultanés ayant touché le service dans un post de blog plus détaillé.

A Strasbourg : « L’alimentation a été rétablie et les services sont en cours de redémarrage. Certains clients sont UP et d’autres pas encore. Si votre service n’est pas encore UP, le délai de rétablissement est compris entre 5 minutes et 3-4 heures. Notre système de monitoring nous permet de savoir quel client est encore impacté et nous nous travaillons pour les fixer ».

A Roubaix : « Nous avons eu un problème sur le réseau optique qui permet à RBX d’être connecté avec les points d’interconnexion que nous avons à Paris, Francfort, Amsterdam, London, Bruxelles. L’origine du problème est un bug software sur les équipements optiques qui a provoqué la perte de la configuration et la coupure de la connexion avec notre site de RBX. Nous avons remis le backup de la configuration software dés que nous avons diagnostiqué l’origine du problème et le DC est à nouveau joignable. L’incident sur RBX est clos. Avec le constructeur, nous cherchons l’origine du bug software et aussi comment ne plus subir ce genre d’incident critique ».

« Nous sommes sincèrement désolés. Nous venons de vivre 2 évènements simultanés et indépendants qui ont impactés tous les clients de RBX entre 8h15 et 10h37 et tous les clients de SBG entre 7h15 et 11h15. Nous continuons à travailler sur les clients qui ne sont pas encore UP à SBG ».

A 14h30, OVH publiait un nouveau billet indiquait que l’incident est clos et livrait quelques explications techniques.

ZDNet