Home Técnica Explicación de las interrupciones de AWS: por qué Internet se rompió mientras...

Explicación de las interrupciones de AWS: por qué Internet se rompió mientras dormía

2

Internet comienza la semana como lo hacemos muchos de nosotros: negándonos a ir a trabajar. Una interrupción en los servicios web de Amazon hizo que grandes extensiones de Internet no estuvieran disponibles el lunes por la mañana, lo que provocó brevemente que sitios y servicios no estuvieran disponibles, incluidos Snapchat, Fortnite, Venmo, PlayStation Network y, como era de esperar, Amazon.

La interrupción comenzó poco después de la medianoche (hora del Pacífico) y Amazon tardó aproximadamente 3,5 horas en resolverse por completo. Las redes sociales y los servicios de streaming se vieron afectados en más de 1.000 empresas, y también cayeron servicios críticos como la banca online. Es probable que la mayoría de los sitios y servicios funcionen normalmente esta mañana, pero es probable que se observen algunos efectos en cadena a lo largo del día.

AWS, un proveedor de servicios en la nube propiedad de Amazon, impulsa gran parte de Internet. Entonces, cuando dejó de funcionar, se llevó muchos de los servicios que conocemos y amamos. como con rápidamente Y Multitud Las interrupciones de los últimos años, las interrupciones de AWS, muestran cuánto depende Internet de la misma infraestructura y con qué rapidez puede revocarse nuestro acceso a los sitios y servicios de los que dependemos si algo sale mal. Depender de un pequeño número de grandes empresas para sustentar la red es como poner todos los huevos en un pequeño puñado de cestas.

Cuando funciona, es genial, pero todo lo que se necesita es un pequeño error para que Internet se derrumbe en cuestión de minutos.

¿Qué tan extendida fue la interrupción de AWS?

Justo después de la medianoche PT del 20 de octubre, AWS registró por primera vez un problema Página de estado del serviciodijo que estaba “investigando mayores tasas de error y latencia para múltiples servicios de AWS en la región US-EAST-1”. Alrededor de las 2 a.m., hora del Pacífico, dijo que había identificado una posible causa raíz del problema y, en media hora, había comenzado a implementar mitigaciones que están mostrando signos significativos de recuperación.

“El problema subyacente del DNS se ha mitigado por completo y la mayoría de las operaciones de servicios de AWS ahora están teniendo éxito con normalidad”, dijo AWS a las 3:35 a.m., hora del Pacífico. La compañía no respondió a una solicitud de más comentarios más allá de indicarnos el panel de AWS Health.

Alrededor del momento en que AWS dijo que comenzó a notar tasas de error, Downdetector vio que los informes comenzaban a aumentar en muchos servicios en línea, incluidos bancos, aerolíneas y compañías telefónicas. A medida que AWS resolvió el problema, algunos de estos informes disminuyeron, mientras que otros aún no han vuelto a la normalidad (Divulgación: Downdetector es propiedad de la misma empresa matriz que CNET, Jeff Davis).

A las 4 a. m. PT, Reddit todavía estaba inactivo, mientras que servicios como Ring, Verizon y YouTube seguían experimentando una cantidad significativa de problemas reportados. Reddit finalmente volvió a estar en línea alrededor de las 4:30 a.m. PT, según su página de estado, que fue verificada por nosotros.

En total, Downdetector recibió más de 6,5 millones de informes, de los cuales 1,4 millones procedían de EE. UU., 800.000 del Reino Unido y el resto repartidos principalmente por Australia, Japón, Países Bajos, Alemania y Francia. Más de 1.000 empresas se vieron afectadas en total, añadió Downdetector.

“Este tipo de cortes, en los que un servicio fundamental de Internet interrumpe una gran parte de los servicios en línea, ocurren sólo unas pocas veces al año”, dijo a CNET Daniel Ramírez, director de producto de Downdetector Okler. “Probablemente se estén volviendo un poco más frecuentes a medida que se alienta a las empresas a depender completamente de los servicios en la nube y sus arquitecturas de datos están diseñadas para aprovechar al máximo una plataforma en la nube en particular”.

¿Qué causa las interrupciones de AWS?

AWS no ha compartido todos los detalles de lo que causó que Internet se cayera por el precipicio esta mañana. Lo más probable es que ahora que se ha implementado una solución, el siguiente paso sea investigar qué salió mal.

Hasta ahora esto se ha atribuido a una interrupción por “problema de DNS”. DNS significa Sistema de nombres de dominio y se refiere al servicio que traduce direcciones de Internet legibles por humanos (por ejemplo, CNET.com) en direcciones IP legibles por máquinas que conectan los navegadores con los sitios web.

Cuando se produce un error de DNS, el proceso de traducción no puede realizarse, lo que interrumpe la conectividad. Los errores de DNS son obstáculos comunes en Internet, pero generalmente ocurren a pequeña escala y afectan sitios o servicios individuales. Pero debido a que AWS se usa tan ampliamente, un error de DNS puede tener consecuencias igualmente generalizadas.

Según Amazon, el problema tiene sus raíces geográficas en su región US-EAST-1, que se refiere a un área en el norte de Virginia donde se encuentran muchos de sus centros de datos. Es una ubicación importante para Amazon, así como para muchas otras empresas de Internet, y admite una amplia gama de servicios en Estados Unidos y Europa.

“La lección aquí es la resiliencia”, dijo Luke Kehoe, analista de la industria de Okla. “Muchas organizaciones todavía concentran cargas de trabajo críticas en una sola región de la nube. Distribuir aplicaciones y datos críticos en múltiples regiones y zonas de disponibilidad puede reducir materialmente el radio de explosión de futuros incidentes”.

¿La interrupción de AWS fue causada por un ciberataque?

Los problemas de DNS pueden ser causados ​​por actores maliciosos, pero no hay evidencia en este momento de que este sea el caso con la interrupción de AWS.

Si bien las fallas técnicas pueden allanar el camino para que los piratas informáticos encuentren vulnerabilidades cuando la empresa está de espaldas y las defensas están bajas, según Marijas Bridis, CTO NordVPN. “Este es un problema de ciberseguridad tanto como técnico”, dijo en un comunicado. “La verdadera seguridad en línea no se trata sólo de mantener alejados a los piratas informáticos, sino de asegurarse de permanecer conectado y protegido cuando los sistemas fallan”.

En las próximas horas, la gente debería estar atenta a los estafadores que esperan aprovechar la conciencia pública sobre la interrupción, añadió Brydis. Debe tener mucho cuidado con los ataques de phishing y los correos electrónicos que le piden que cambie su contraseña para mantener su cuenta segura.

Enlace fuente