Home Técnica Una interrupción de AWS interrumpió Internet mientras dormías y los problemas continúan

Una interrupción de AWS interrumpió Internet mientras dormías y los problemas continúan

2

Internet comienza la semana como lo hacemos muchos de nosotros: negándonos a ir a trabajar. Una interrupción en los servicios web de Amazon dejó grandes extensiones de Internet sin disponibilidad el lunes por la mañana. Los sitios y servicios, incluidos Snapchat, Fortnite, Venmo, PlayStation Network y, como era de esperar, Amazon, estuvieron inactivos más temprano ese día.

La interrupción comenzó poco después de la medianoche (hora del Pacífico) y Amazon tardó aproximadamente 3,5 horas en resolverse por completo. Las redes sociales y los servicios de streaming se vieron afectados en más de 1.000 empresas, y también cayeron servicios críticos como la banca online.

Los problemas parecieron resolverse en gran medida cuando la costa este de EE. UU. entró en funcionamiento, pero volvieron a aumentar dramáticamente después de las 8 a. m. hora del Pacífico cuando se reanudaron los trabajos en la costa oeste.

AWS, un proveedor de servicios en la nube propiedad de Amazon, impulsa gran parte de Internet. Entonces, cuando dejó de funcionar, se llevó muchos de los servicios que conocemos y amamos. como con rápidamente Y Multitud Las interrupciones de los últimos años, las interrupciones de AWS, muestran cuánto depende Internet de la misma infraestructura y con qué rapidez puede revocarse nuestro acceso a los sitios y servicios de los que dependemos si algo sale mal.

Depender de un pequeño número de grandes empresas para sustentar la red es como poner todos los huevos en un pequeño puñado de cestas. Cuando funciona, es genial, pero todo lo que se necesita es un pequeño error para que Internet se derrumbe en cuestión de minutos.

¿Qué tan extendida fue la interrupción de AWS?

Justo después de la medianoche PT del 20 de octubre, AWS registró por primera vez un problema Página de estado del serviciodijo que estaba “investigando mayores tasas de error y latencia para múltiples servicios de AWS en la región US-East-1”. Alrededor de las 2 a.m. hora del Pacífico, dijo que había identificado una posible causa raíz del problema. Al cabo de media hora, comenzó a aplicarle sedantes que dieron como resultado importantes signos de recuperación.

“El problema subyacente del DNS se ha mitigado por completo y la mayoría de las operaciones de servicios de AWS ahora están teniendo éxito con normalidad”, dijo AWS a las 3:35 a.m., hora del Pacífico. La compañía no respondió a una solicitud de más comentarios más allá de indicarnos el panel de AWS Health.

Pero a las 8:43 a.m. PT, muchos servicios todavía estaban afectados y la página de estado de AWS mostraba la gravedad como “degradada”. En una publicación de ese momento, AWS señaló: “Estamos acelerando las solicitudes de lanzamiento de nuevas instancias EC2 para ayudar en la recuperación y trabajar de manera proactiva en la mitigación”.

Gráfico que muestra las interrupciones de Amazon Web Services reportadas en Downdetector

Las interrupciones de AWS alcanzaron su punto máximo antes del amanecer del lunes en EE. UU., luego disminuyeron y aumentaron nuevamente alrededor del mediodía.

Downdetector/captura de pantalla de CNET

Alrededor del momento en que AWS dijo que comenzó a notar tasas de error, Downdetector vio que los informes comenzaban a aumentar en muchos servicios en línea, incluidos bancos, aerolíneas y compañías telefónicas. A medida que AWS resolvió el problema, algunos de estos informes disminuyeron, mientras que otros aún no han vuelto a la normalidad (Divulgación: Downdetector es propiedad de la misma empresa matriz que CNET, Jeff Davis).

A las 4 a. m. PT, Reddit todavía estaba inactivo, mientras que servicios como Ring, Verizon y YouTube seguían experimentando una cantidad significativa de problemas reportados. Reddit finalmente volvió a estar en línea alrededor de las 4:30 a.m. PT, según su página de estado, que fue verificada por nosotros.

En total, Downdetector recibió más de 6,5 millones de informes, de los cuales 1,4 millones procedían de EE. UU., 800.000 del Reino Unido y el resto repartidos principalmente por Australia, Japón, Países Bajos, Alemania y Francia. Más de 1.000 empresas se vieron afectadas en total, añadió Downdetector.

“Este tipo de cortes, en los que un servicio fundamental de Internet interrumpe una gran parte de los servicios en línea, ocurren sólo unas pocas veces al año”, dijo a CNET Daniel Ramírez, director de producto de Downdetector Okler. “Probablemente se estén volviendo un poco más frecuentes a medida que se alienta a las empresas a depender completamente de los servicios en la nube y sus arquitecturas de datos están diseñadas para aprovechar al máximo una plataforma en la nube en particular”.

¿Qué causa las interrupciones de AWS?

AWS no compartió de inmediato todos los detalles sobre lo que causó que Internet se cayera por un precipicio esta mañana. Luego, a las 8:43 am PT, ofreció este resumen: “La causa raíz es un subsistema interno subyacente responsable de monitorear el estado de nuestros balanceadores de carga de red”.

Horas antes, atribuyó la interrupción a un “problema de DNS”. DNS significa Sistema de nombres de dominio y se refiere al servicio que traduce direcciones de Internet legibles por humanos (por ejemplo, CNET.com) en direcciones IP legibles por máquinas que conectan los navegadores con los sitios web.

Captura de pantalla de una página de Downdetector que muestra la interrupción de AWS que afecta a sitios y servicios, incluidos Reddit, Snapchat, Ring, Roblox y Fortnite.

Según Downdetector, Internet cayó de rodillas el lunes temprano y muchos sitios informaron cortes.

Downdetector/captura de pantalla de CNET

Cuando se produce un error de DNS, el proceso de traducción no puede realizarse, lo que interrumpe la conectividad. Los errores de DNS son interrupciones comunes de Internet, pero generalmente ocurren a pequeña escala y afectan sitios o servicios individuales. Pero debido a que AWS se usa tan ampliamente, un error de DNS puede tener consecuencias igualmente generalizadas.

Según Amazon, el problema tiene sus raíces geográficas en su región US-East-1, que se refiere a un área en el norte de Virginia donde muchos Centro de información Con sede en Es una ubicación importante para Amazon, así como para muchas otras empresas de Internet, y respalda una amplia gama de servicios en los Estados Unidos y Europa.

“La lección aquí es la resiliencia”, dijo Luke Kehoe, analista de la industria de Okla. “Muchas organizaciones todavía concentran cargas de trabajo críticas en una sola región de la nube. Distribuir aplicaciones y datos críticos en múltiples regiones y zonas de disponibilidad puede reducir materialmente el radio de explosión de futuros incidentes”.

¿La interrupción de AWS fue causada por un ciberataque?

Los problemas de DNS pueden ser causados ​​por actores maliciosos, pero no hay evidencia en este momento de que este sea el caso con la interrupción de AWS.

Si bien las fallas técnicas pueden allanar el camino para que los piratas informáticos encuentren vulnerabilidades cuando la empresa está de espaldas y las defensas están bajas, según Marijas Bridis, CTO NordVPN. “Este es un problema de ciberseguridad tanto como técnico”, dijo en un comunicado. “La verdadera seguridad en línea no se trata sólo de mantener alejados a los piratas informáticos, sino de asegurarse de permanecer conectado y protegido cuando los sistemas fallan”.

En las próximas horas, la gente debería estar atenta a los estafadores que esperan aprovechar la conciencia pública sobre la interrupción, añadió Brydis. Debe tener mucho cuidado con los ataques de phishing y los correos electrónicos que le piden que cambie su contraseña para mantener su cuenta segura.

Enlace fuente