Panne de Facebook : une succession d'événements malheureux

Une commande mal écrite, un outil d'audit bugé un système DNS qui entrave les efforts de restauration du réseau et une sécurité renforcée du datacenter, voilà la série d'évènements à l'origine de la panne de sept heures de Facebook.

Selon Facebook, la cause première de la panne de lundi est la conséquence d’une opération de maintenance de routine qui a mal tourné, provoquant l’inaccessibilité de ses serveurs DNS. Mais c'est d'abord l'ensemble du backbone de Facebook qui s'est effondré. Pour ne rien arranger, la perte du DNS a empêché les ingénieurs de Facebook d'accéder à distance aux dispositifs dont ils avaient besoin pour rétablir le réseau. Ils ont donc dû se rendre physiquement dans les datacenters pour redémarrer manuellement les systèmes.

L'incident semble indiquer que l'architecture de Facebook ne respectait pas les meilleures pratiques en matière de réseau. « Pourquoi le DNS a-t-il effectivement été le point de défaillance unique ? », s’interroge Angélique Medina. « Si la défaillance résulte uniquement du DNS et qu’il n’y a pas de DNS de secours, alors on peut effectivement craindre une panne prolongée. C’est pourquoi, la redondance du DNS est une des leçons importantes à retenir de la panne de Facebook », a conclu Mme Medina. Cette dernière fait également une observation générale à propos d'autres pannes de fournisseurs de services.

« Souvent, ces pannes sont dues à un nombre élevé d'interdépendances au sein du réseau, si bien qu'un petit problème dans une partie de l'architecture du service peut se répercuter en cascade dans toute l’architecture », a-t-elle expliqué. « La plupart des entreprises exécutent un grand nombre de services internes, ce qui peut avoir des conséquences imprévues. Cet aspect concerne peut-être davantage les techniciens, mais je pense qu’il mérite d'être souligné ».

Post a Comment

0 Comments
* Please Don't Spam Here. All the Comments are Reviewed by Admin.