خدمات وب آمازون (AWS) توضیحی در مورد علت قطعی که باعث از کار افتادن بخشهایی از سرویسهای خود و همچنین وبسایتهای شخص ثالث و پلتفرمهای آنلاینی که از AWS استفاده میکنند، ارائه کرده است. در پستی در وبسایت AWS، این شرکت توضیح میدهد که یک فرآیند خودکار باعث قطعی شد که حدود ساعت 10:30 صبح به وقت شرقی در منطقه ویرجینیای شمالی (US-EAST-1) آغاز شد.
افزایش ازدحام باعث شد که تیم عملیاتی شرکت نتوانند از سیستم نظارت بلادرنگ آن استفاده کنند
گزارش آمازون میگوید: «یک فعالیت خودکار برای مقیاسسازی ظرفیت یکی از سرویسهای AWS میزبانی شده در شبکه اصلی AWS، رفتار غیرمنتظرهای را از سوی تعداد زیادی از مشتریان در داخل شبکه داخلی ایجاد کرد». "این منجر به موج گسترده ای از فعالیت های اتصال شد که دستگاه های شبکه بین شبکه داخلی و شبکه اصلی AWS را تحت الشعاع قرار داد و منجر به تاخیر در برقراری ارتباط بین این شبکه ها شد."
بر اساس این گزارش، این مشکل حتی بر توانایی آمازون برای دیدن اینکه دقیقا چه مشکلی در سیستم پیش میرود، تأثیر گذاشته است. این امر مانع از استفاده تیم عملیاتی شرکت از سیستم نظارت بیدرنگ و کنترلهای داخلی میشود که معمولاً به آنها تکیه میکنند و توضیح میدهد که چرا رفع قطعی آنقدر طول کشیده است. آمازون خاطرنشان می کند که خدمات تا ساعت 4:34 بعد از ظهر به وقت شرقی شروع به بهبود نکرد و مشکل در ساعت 5:22 عصر به وقت شرقی به طور کامل حل شد.
از آنجایی که مرکز تماس پشتیبانی آمازون نیز در شبکه AWS اجرا میشود، مشتریان قادر به ایجاد موارد پشتیبانی به مدت هفت ساعت در طول قطع نبودند. داشبورد خدمات سلامت آمازون، که این پلتفرم برای ارائه بهروزرسانیهای وضعیت از آن استفاده میکند، نیز تحت تأثیر قرار گرفت و در نتیجه آمازون با تأخیر این مشکل را تأیید کرد. این شرکت میگوید که در حال کار بر روی راهی برای بهبود واکنش خود به خاموشیها است و قصد دارد نسخه جدیدی از داشبورد سلامت سرویس را منتشر کند که به مشتریان در دریافت بهروزرسانیهای به موقع در صورت بروز قطعی کمک میکند.
علاوه بر از بین بردن خدمات محبوب مانند Venmo، Tinder، Disney Plus و حتی Roomba، قطعی 7 دسامبر همچنین باعث توقف برخی از تحویل های آمازون شد. آمازون آخرین قطعی بزرگ خود را در همین زمان در سال گذشته تجربه کرد که باعث شد تعدادی از سایتها و اپلیکیشنها برای ساعتها از کار بیفتند.
خدمات وب آمازون میگوید دستگاههای تحت شبکه تحت فشار قرار گرفتهاند که باعث قطع شدن آنها شده است