Aunque para muchos se hizo eterno, lo cierto es que ayer la caída de WhatsApp, Facebook e Instagram “solo” duró seis horas. Aún ha sido ha sido suficiente para convertirla la de ayer en una de las mayores caída que ha sufrido la compañía de Mark Zuckerberg, lo que ha supuesto que Facebook ha sufrido el desplome de un 4,9% en el valor de sus acciones en Wall Street, al tiempo que deja ver la fragilidad tecnológica incluso de gigantes de su calado.
A pesar que Facebook no tardo en reconocer el problema en Twitter, lo cierto es que de momento no ha brindado información detallada del motivo de la caída. Sin embargo los indicios hacen que diversos expertos señalen a un claro culpable: el sistema de enrutamiento BGP.
El sistema “Protocolo de puerta de enlace” o BGP por sus siglas en inglés (Border Gateway Protocol) se encarga de comunicar entre si los distintos componentes de una red autónoma, como es Facebook, y en conjunto con las DNS que permite que se encuentre la dirección de una web de esa red cuando escribimos su nombre en el navegador o cuando un determinado servicio hace una llamada al dominio. Según un responsable de Cloudflare las rutas BGP de Facebook fueron retiradas de internet, por lo que era imposible acceder a los servidores de DNS de la compañía y por ende que no se pudiera redirigir a las IPs finales.
El problema de esto es que no solo se impide el acceso a los usuarios, si no también al personal que en remoto podría tratar de solucionar el problema, lo que ralentizó el dar una solución rápida al fallo. Básicamente se les desconecto del resto de Internet.
La causa principal .. fue un cambio de configuración defectuoso
Facebook ha confirmado que los datos de los usuarios no han corrido ningún riesgo ni se ha visto comprometida la seguridad de los mismos, dando como única información sobre el fallo un post en su blog donde aunque no confirman específicamente esta teoría del origen del problema si dan datos que lo apoyan ya que afirman que el error se produjo por “un cambio de configuración defectuoso“.
Hemos estado trabajando tan duro como hemos podido para restaurar el acceso, y nuestros sistemas ahora están funcionando nuevamente. La causa subyacente de esta interrupción también afectó a muchas de las herramientas y sistemas internos que utilizamos en nuestras operaciones diarias, lo que complicó nuestros intentos de diagnosticar y resolver rápidamente el problema.
Nuestros equipos de ingeniería han aprendido que los cambios de configuración en los enrutadores troncales que coordinan el tráfico de red entre nuestros centros de datos causaron problemas que interrumpieron esta comunicación. Esta interrupción del tráfico de la red tuvo un efecto en cascada en la forma en que se comunican nuestros centros de datos, lo que paralizó nuestros servicios.
Parece que alguien tocó donde no debía o simplemente se equivoco al cambiar algo en la configuración de las redes que ha dejado fuera de escena al gigante tecnológico. Aun con todo permaneceremos atentos a cualquier nueva información que aclare lo que ha pasado.
Imagen de Gerd Altmann en Pixabay