Pendant six heures, Facebook et ses filiales ont été inaccessibles. Du jamais vu ! Futura fait l’autopsie de cette mésaventure.


au sommaire


    4 octobre, 15 h 40 UTCUTC. Cloudflare, une des plus grosses sociétés permettant d'optimiser et sécuriser le trafic sur Internet, constate que FacebookFacebook a cessé d'associer son nom de domaine à ses adresses IP. Sur les ordinateurs du monde entier, une page blanche affichant une erreur de connexion apparait et les applicationsapplications Facebook, Instagram, WhatsApp, Facebook Messenger se figent sur les smartphones.

    Facebook et ses divers services ont totalement disparu de la surface du Web. Un bol d'airair pour certains, fustigeant l'ambiance anxiogène du réseau en raison de sa tendance à laisser filer la désinformation et ceux qui la font. Une catastrophe, pour des centaines de millions d'utilisateurs démunis sans les outils et services du réseau social.

    Pour les internautes, c'est alors la ruée vers les autres réseaux sociauxréseaux sociaux et, en premier lieu, TwitterTwitter pour savoir ce qu'il s'est passé. Des réseaux qui ont brusquement croulés sur les connexions au point de saturer. C'est d'ailleurs via Twitter que Facebook a annoncé qu'un vrai problème était en cours de traitement. Et cette panne mondiale a duré six heures ! Un record. Une cyberattaque géante ? Non, plutôt une erreur de manipulation lors d'une opération de configuration des serveursserveurs. Alors, que s'est-il vraiment passé ?

    Les serveurs DNS accusés à tort

    DNSDNS, IP, BGP... Ces acronymes ont été massivement employés dans la soirée pour décrire la source du souci rencontrée par Facebook. Chacun d'eux fait effectivement partie du scénario catastrophe mais celui qui a été le premier incriminé, à tort, a été le DNS. Le DNS, Domain Name Service, c'est ce qui permet d'associer une adresse Web, par exemple facebook.com, à une page internet. Cette page est identifiée par une adresse IP, une suite de chiffres que l'on peut comparer à un numéro de téléphone unique. Pour prendre une image, c'est l'équivalent de passer un appel depuis un mobile en saisissant simplement le nom du correspondant dans le carnet d'adresses. Le nom est relié à un numéro de téléphone que le réseau saura gérer. Étant donné sa taille, le réseau social dispose de ses propres serveurs DNS. Mais, durant la panne d'hier, ils fonctionnaient toujours, même s'ils tournaient dans le vide et ne dialoguaient plus avec le reste du réseau. Le souci ne venait donc pas d'eux.

    Un duo BGP et AS qui ne se parle plus

    Le vrai trublion, ce ne sont pas ces serveurs DNS, mais un protocoleprotocole baptisé BGP, pour Border GatewayGateway Protocol. Lors de la transmission de données, c'est lui qui va évaluer les meilleures routes pour acheminer à destination les paquetspaquets de données sur la totalité du réseau. Au lieu de devoir parcourir l'ensemble des serveurs DNS pour faire correspondre une adresse à un numéro pour la livraison des données, ce protocole se contente d'interroger de gros serveurs appelés AS (Autonomous Systems) qui sont gérés par les opérateurs Internet. Ce sont eux qui disposent des plus gros annuaires d'adresses IP. Ils viennent donner la cartographie du réseau au protocole BGP pour qu'il fasse aboutir les paquets de données rapidement. Les serveur DNS font partie des adresses IP qui dialoguent avec ces serveur AS.

    Image du site Futura Sciences

    Chez les gros serveurs AS, la mise à jour de la cartographie du réseau est très rare. Vers 15 h 40, on peut constater la présence d’un gros pic qui montre que la base d’adresses IP pour le protocole BGP a été effacée. © Cloudflare

    Et là, encore Facebook dispose de ses propres serveurs AS mémorisant l'adresse IP de tous les services et également celles de ses serveurs DNS. Et c'est justement sur ces serveurs que s'est porté le souci. Lors d'une opération de mise à jour, les techniciens ont supprimé la base de donnéesbase de données d'adresses IP du protocole BGP de façon accidentelle. À partir de ce moment, les serveurs AS n'avaient plus aucune instruction pour envoyer les paquets de données. Plus de route, plus de trafic, Facebook et l'ensemble de ses services se sont retrouvés débranchés.

    Et, comme les ennuis volent bien souvent en escadrille, la panne s'est éternisée en raison de plusieurs facteurs supplémentaires. Les adresses IP de Facebook étant coupées du réseau, par conséquent, le personnel de la firme ne pouvait plus accéder aux serveurs à distance pour rétablir le réseau. Un phénomène accentué par la mise en place massive du télétravail depuis le début de la pandémie. Pire encore, sur le lieu physiquephysique des datacenters, les employés restaient bloqués aux portesportes car leurs badges d'accès ne fonctionnaient pas en raison de cette panne. Enfin, dès lors que les « câbles ont été rebranchés », il fallait également compter sur un tsunamitsunami de requêtesrequêtes provenant des utilisateurs tentant tous de se connecter au même moment.

    Finalement, cette grosse mésaventure montre encore qu'Internet est d'une complexité incroyable et qu'une petite erreur peut avoir des conséquences mondiales.