Amazon : une faute de frappe à l’origine de la panne du S3
Amazon vient d'expliquer que la panne observée mardi soir sur son S3 est due à une faute de frappe dans l'exécution d'une commande, laquelle était censée régler un autre problème.
Dans la soirée de mardi, quantité de sites, applications web et services n’ont plus répondu présent, et ce pendant environ trois heures. La faute à une panne de l’Amazon Simple Storage Service, ou Amazon S3, auquel des plates-formes ont recours pour héberger du contenu.
La firme vient de publier un billet pour expliquer plus précisément (en anglais) l’origine de ce blackout. Tout est parti d’un dysfonctionnement observé sur le système de facturation, un problème de lenteur qui a conduit l’équipe S3 à se pencher dessus.
Amazon S3 : un service indisponible plusieurs heures
À un moment donné, un membre de cette équipe a entré une commande “qui était censé retirer un petit nombre de serveurs dans l’un des sous-systèmes S3 utilisé dans le processus de facturation S3”. Une erreur durant l’entrée de la commande a toutefois conduit à un retrait beaucoup plus massif de serveurs.
Amazon ajoute que les serveurs retirés par erreur prenaient en charge deux autres sous-systèmes S3 : le premier, le sous-système d’index, “gère les métadonnées et les informations de localisation de tous les objets S3 de la région”; le second, appelé sous-système de placement, assure quant à lui la gestion de “l’allocation de nouveaux stockages et requiert que le sous-système d’index fonctionne proprement pour fonctionner correctement”.
Des excuses pour l’impact causé
Alors que ce souci d’ampleur semble désormais résolu, l’entreprise américaine affirme vouloir apprendre de ses erreurs : “Pour finir, nous tenons à présenter nos excuses pour l’impact causé par cet événement auprès de nos clients. Bien que nous soyons fiers de notre expérience de longue date en matière de disponibilité avec Amazon S3, nous savons à quel point ce service est essentiel pour nos clients, leurs applications, leurs utilisateurs finaux et leurs affaires. Nous ferons tout notre possible pour apprendre de cet événement et nous en servir pour améliorer encore davantage notre disponibilité.”