Un simple comando mal escrito causó la caída de miles de webs de Amazon S3

Software

El pasado martes, muchas de las páginas web más populares de la red empezaron a tener problemas de acceso, cargando muy lentamente al principio, y luego quedando totalmente inaccesibles. Lo que inicialmente tenía toda la pinta de ser un ataque DDoS contra los servidores de Amazon S3 tuvo finalmente un origen mucho más inocuo: un fallo al teclear.

Caída de decenas de miles de webs alojadas en el servicio Amazon S3

La caída del servidor Amazon S3 de Amazon Web Services provocó que miles de páginas web quedarán totalmente inaccesibles durante buena parte de la tarde del pasado 28 de febrero, entre las que se encontraban Giphy, Imgur, Soundcloud, Slack, Quora, Medium, Trello, Airbnb, Pinterest, Bitmoji de Snapchat, Expedia o Signal. Incluso se vieron afectados al mismo tiempo los servidores de iCloud, iTunes y la App Store en Estados Unidos, aunque Apple no especificó si el problema tuvo que ver con los servicios de Amazon. Fue difícil hacer un seguimiento de los servicios caídos, porque las webs que generalmente se utilizan para esto como DownDetector, IsItDownNow o DetectorDeFallos estaban caídas a consecuencia de este fallo.

amazon-s3-web-services-aws

Ayer, Amazon explicó cuál fue el origen de los problemas: un simple fallo a la hora de escribir un comando durante una depuración de programas rutinaria. En lugar de apagar los pocos servidores que se pretendían en un principio, se apagaron muchos más de manera conjunta. Ese simple fallo provocó problemas de acceso durante algo más de 5 horas a las webs que hemos comentado, entre otras. Incluso el propio panel que informaba del estado de los servidores de Amazon estaba caído, lo cual llevó a la empresa a tener que informar del estado de los mismos y de la evolución de la reparación a través de su cuenta de Twitter.

Inicialmente, consiguieron solventar el error fácilmente. El problema vino cuando tuvieron que reiniciar todos los servidores, que, en palabras de Amazon, llevaban sin hacerlo varios años. Y tal y como hemos comentado alguna vez, reiniciar todos los servidores es una tarea que lleva horas, razón por la cual suele ser mejor utilizar Linux en superordenadores y servidores, ya que se pueden aplicar actualizaciones del sistema sin reiniciarlos.

Cambios para evitar que esto vuelva a ocurrir

El sistema S3 de Amazon ha crecido exponencialmente en los últimos años, y debido a la gran cantidad de servidores que hay tuvieron que revisar correctamente la integridad de los metadatos antes de levantar los servidores.

bsc-marenostrum-e

Amazon pidió perdón por los problemas que causó a sus clientes y a los millones de usuarios a los que afectó este fallo, dejando inutilizadas páginas como Reddit, en la que no se pudo visualizar ninguna foto durante horas, ya que depende de Imgur para ello. Desde Amazon aseguran que ya han puesto medidas de seguridad para evitar que este tipo de fallos se vuelvan a repetir en el futuro, como poner pasos previos de comprobación antes de introducir un comando que pueda tener una repercusión tan grave como la que tuvo este. Además, también cambiará el panel en el que informa del estado de sus servidores para que funcione en varias regiones a la vez, y que no dependa de una única zona.

Escrito por Alberto García

Fuente > The Hacker News