Todo sobre el gravísimo fallo por el que se han caído WhatsApp, Facebook e Instagram durante 7 horas

La caída de WhatsApp, Instagram y Facebook ha sido una de las más importantes de la historia de la compañía fundada por Mark Zuckerberg.  Cerca de siete horas han estado fuera de servicio las principales plataformas de la red social y todo apunta a un fallo relacionado con el protocolo BGP. 

Los servidores de Facebook han dejado de ser accesibles hoy 4 de octubre a las 17:40 hora de España hasta prácticamente la 1 de la madrugada. Facebook, WhatsApp e Instagram han reconocido la existencia de problemas poco más de media hora después, afirmando que estaban trabajando en solucionarlo. Sin embargo, la solución se ha hecho esperar y el servicio no ha restablecido a nivel mundial hasta siete horas después de la incidencia técnica.

El error que aparece al entrar en las páginas web es «DNS_PROBE_FINISHED_NXDOMAIN«. Ese error significa que el navegador web no ha conseguido resolver la solicitud de DNS que hemos hecho, a través de la cual la URL que escribimos en el navegador nos lleva a Facebook. Los expertos en ciberseguridad han empezado a indagar al respecto, y han encontrado información muy preocupante.

facebook error dns

La explicación más probable es la que ha dado el experto Brian Krebs, que lleva el blog krebsonsecurity.com. El fallo consiste en el registro de DNS que permite resolver las direcciones de Facebook, Instagram, WhatsApp y Oculus ha desaparecido de las tablas de enrutamiento a nivel mundial, llamadas BGP (Border Gateway Protocol). Esto ha provocado que todo lo relacionado con Facebook sea inaccesible, tanto desde dentro de la empresa como desde fuera. Los servidores de Facebook están operativos, pero no son accesibles por parte de los usuarios porque los navegadores web no tienen manera de encontrarlos.

El motivo por el que ha ocurrido este fallo se desconoce de momento. La causa más probable es la que ocurre con más frecuencia: un error humano a la hora de hacer un cambio en el sistema a nivel interno o al lanzar una actualización.

Al no existir el dominio en los registros, los registradores que permiten comprar dominios web muestran «Facebook.com» como disponible para comprar, aunque se trata claramente de un error y no se puede comprar.

whois facebook

¿Cuál es la solución?

Al no poder acceder a ningún servicio de Facebook debido a que el enrutado falla, es necesario tener acceso físico a los servidores para poder implementar la solución. El problema es que quienes tienen conocimiento para arreglarlo se encuentran alejados de los servidores, y quienes se encuentran físicamente no tienen los conocimientos técnicos para hacerlo, y probablemente tampoco los permisos para acceder a ello y arreglarlo.

Además, hay pocos trabajadores en los centros de datos de Facebook debido a las medidas de protección por la pandemia. A eso se le suma el hecho de que probablemente usen herramientas de comunicación interna como Facebook for Business, el cual está caído, al igual que su propio servicio de correo electrónico interno que ellos mismos se alojan también. Y a la hora de buscar el teléfono o datos de contacto de un trabajador tampoco podrán acceder porque toda esa información está en sus servidores, y éstos no son accesibles actualmente.

El fallo, por tanto, tiene solución, pero tiene pinta de que van a pasar muchas horas hasta que puedan solucionarlo de manera definitiva. Facebook aloja sus propios servidores de DNS para resolver sus direcciones, y al desaparecer éstos, no pueden acceder a ellos.

El caos interno en Facebook ha llegado hasta tal punto que, según afirma Sheera Frenkel, periodista de tecnología para el New York Times, los trabajadores no pueden entrar a los edificios. El sistema de entrada de los edificios utiliza tarjetas con NFC, y al pasarlas por el lector, éste no las reconoce porque no puede verificar la identidad con los datos almacenados en los servidores. Por ello, algunos empleados que pueden solucionar el fallo no pueden acceder a la empresa.

Mike Schroepfer, CTO de Facebook, ha publicado un tweet a las 21:52 en el que ha confirmado que el problema se debe a un fallo de red, y que ya tienen equipos que están analizando lo ocurrido y así poder restaurar el servicio lo antes posible. En horario de España, todo apunta a que esta noche no vamos a poder utilizar los servicios de la compañía por lo menos hasta mañana.

Según apunta el New York Times, un pequeño equipo de empleados de Facebook ha sido enviado al centro de datos de Facebook en Santa Clara (California), donde van a intentar realizar un reseteo manual de los servidores.

Otras plataformas, afectadas de manera indirecta

Facebook, Instagram y WhatsApp son usados por miles de millones de personas en todo el mundo para compartir contenido en redes sociales y para enviar mensajes. Al caerse, los usuarios están yéndose a Twitter y a Telegram como alternativas, lo que está provocando problemas puntuales de saturación en ambas plataformas.

En Telegram, los mensajes tardan unos segundos en mandarse, y las fotos pueden llegar a tardar decenas de segundos en llegar. En el caso de Twitter, hay veces que el feed no carga con normalidad.

Otro servicio que tampoco funciona es el de loguearse en un servicio usando la cuenta de Facebook. Todo ese sistema de tokens funciona a través de Facebook, por lo que si por ejemplo accedes a Spotify usando el token de la cuenta de Facebook, tampoco puedes acceder. Lo mismo ocurre con muchos juegos para móviles.

Otra de las grandes afectadas ha sido Cloudflare, la mayor empresa de CDN de Internet. Un CDN (Red de distribución de contenidos por sus siglas en inglés) actúa como una caché que almacena el contenido original de una web y lo sirve por todo el mundo. Gracias a ello, el contenido es accesible a una mayor velocidad, y sin saturar el servidor original.

Sin embargo, John Graham-Cumming, CTO de Cloudflare, apunta a que esto está generando muchos problemas hoy en su empresa. La empresa tiene su propio resolutor de DNS (1.1.1.1), y al caerse Facebook y no resolver la dirección DNS, la gente vuelve a intentar resolver la dirección, mientras que las apps lo hacen incluso de manera automática. Todo ello ha generado un enorme tráfico de solicitudes de DNS, equivalente a un ataque DDoS.

Por tanto, ya conocemos cuál es el motivo por el que Facebook está dando problemas hoy tras analizar sus efectos en la red. Para conocer qué es lo que ha causado este fallo tendremos que esperar a que la compañía lo detalle de manera oficial. Para aquellos lectores que seáis más técnicos nuestros compañeros de RedesZone.net lo explican con más precisión.

Actualización a las 23:26: las solicitudes de DNS ya responden y las webs ya resuelven, aunque dan error de servidor al estar estos todavía reiniciándose. Este es un primer paso para resolver el fallo, el cual debería estar solucionado dentro de la próxima hora.

Actualización a las 23:44: efectivamente, WhatsApp e Instagram están empezando a volver poco a poco a la normalidad y a enviar y recibir mensajes. Instagram y Facebook todavía no cargan bien del todo todavía, pero empezarán a hacerlo próximamente. Todos los servicios estarán recibiendo muchas solicitudes, lo que hará que tarden más en estar disponible. WhatsApp va y viene.

Facebook ha publicado un comunicado en el que afirman que un cambio en la red troncal de routers, que coordinan el tráfico de red entre sus centros de datos, ha sido el causante del fallo.

6 Comentarios