Méga-panne d’OVH : ça saigne encore à J+1 [MAJ]

Article mis à jour à 16h : OVH indique que 99% de son infrastructure est opérationnelle, « toute l’équipe reste mobilisée pour résoudre les problèmes isolés ».

Le chemin de croix d’OVH n’est pas complètement terminé. L’hébergeur continue à subir les effets de bord de la méga-panne qu’il a subi depuis jeudi, d’ailleurs sur sa page dédiée aux travaux en cours, le statut de la panne est repassé en « In progress » alors qu’il était « clos » hier en fin d’après midi.

 

Rappelons que la panne de grande ampleur est intervenue ce jeudi matin 7h dans le datacenter de Strasbourg (SBG) avec deux arrivées EDF en rade et le non fonctionnement des groupes électrogènes. Le groupe a du subir dans le même temps un problème sur le réseau optique en Europe qui interconnecte Roubaix et Gravelines. Panne EDF et panne des groupes électrogènes (soit 4 sources d’énergie down), backbone en carafe, l’effet domino est fatal. Visiblement, les deux incidents ne sont pas liés. Cet incident majeur a plongé dans le noir un très grand nombre de sites Web, dont des grands noms des médias, du e-commerce, de la banque… 

Pendant l’après-midi, Octave Klaba revenait en détails sur la méga-panne qui aurait selon l’hébergeur duré au total 2 heures et 33 minutes. Et assume la responsabilité de l’hébergeur. Jeudi soir, le p-dg indiquait : « Les équipes vont se relayer cette nuit. Une partie de l’équipe continuent les travaux de remise en route de services jusqu’à 6h00 pendant que d’autres équipes sont parties dormir dans un hôtel proche de SBG afin de reprendre les opérations demain à 6h00. De cette manière, nous allons pouvoir tout terminer pour demain matin avant 8h00 ». Mais des problèmes continuent à subsister.

La réception des emails pour les clients d’OVH subit encore des dysfonctionnements : « On constate à nouveau un retard dans la distribution des emails entrants ».  MAJ : ce midi, on constate que le service de mail est opérationnel.

Par ailleurs, toujours selon le tableau de bord de l’hébergeur, à 3h du matin ce vendredi, il restait encore 710 serveurs dédiés, 903 instances PCI, 2400 VPS et 170 hosts PCC en rade. Sur Twitter, les messages de clients encore dans le noir sont encore nombreux. 

Investissement immédiat de 4/5 millions d’euros 

Pour autant, OVH planche désormais sur la suite à donner et la prise en compte de certaines erreurs assumées. « Le réseau électrique de SBG [Strasbourg, NDLR] a hérité des imperfections de design liées à la faible ambition initialement prévue pour le site », écrit Octave Klaba.

« En 2011, nous avons planifié le déploiement de nouveaux datacentres en Europe. Pour tester l’appétence de chaque marché, avec de nouvelles villes et de nouveaux pays, nous avons imaginé une nouvelle technologie de déploiement de datacentres, basée sur les containers maritimes. Grâce à cette technologie, développée en interne, nous avons voulu avoir la souplesse de déployer un datacentre sans les contraintes de temps liées aux permis de construire. A l’origine, nous voulions avoir la possibilité de valider nos hypothèses avant d’investir durablement dans un site ». 

« Le problème est qu’en déployant SBG1 avec la technologie basée sur les containers maritimes, nous n’avons pas préparé le site au large scale. Nous avons fait 2 erreurs : 1) nous n’avons pas remis le site SBG aux normes internes qui prévoient 2 arrivées électriques indépendantes de 20KV, comme tous nos sites de DCs qui possèdent plusieurs doubles arrivées électriques. Il s’agit d’un investissement important d’environ 2 à 3 millions d’euros par arrivée électrique, mais nous estimons que cela fait partie de notre norme interne. 2) nous avons construit le réseau électrique de SBG2 en le posant sur le réseau électrique de SBG1, au lieu de les rendre indépendant l’un de l’autre, comme dans tous nos datacentres. Chez OVH, chaque numéro de datacentre veut dire que le réseau électrique est indépendant d’un autre datacentre. Partout sauf sur le site de SBG ».

« Même si l’incident de ce matin a été causé par un automate tiers, nous ne pouvons nous dédouaner de la responsabilité de la panne. A cause du déploiement initial basé sur les containers maritimes, nous avons un historique à rattraper sur SBG pour atteindre le même niveau de normes que sur les autres sites d’OVH ». 

L’hébergeur a donc mis en place certaines mesures techniques pour « rattraper cet historique » et notamment  la fermeture de SBG1/SBG4 et la désinstallation des containers maritimes. « Il s’agit d’un plan d’investissement de 4-5 millions d’euros, que nous mettons en route dès demain, et qui, nous l’espérons, nous permettra de restaurer la confiance de nos clients envers SBG et plus largement OVH ».

ZDNet