2021.02.26
平素はTwilioをご利用いただきありがとうございます。
日本時間 2/26 22:45頃よりTwilioの複数サービスがダウンしております。すでにTwilio社より英文のご案内メールを受領された方もいらっしゃるかと存じますが、現在下記のサービスを始めとし、広範囲でサービスダウンが発生しております。
Console (管理画面)
REST API
Programmable SMS・MMS
Programmable Messaging - Conversations
Programmable Chat
Authy
Flex - TaskRouter
他 12サービス
影響範囲や原因を含め、現在Twilio社で調査・復旧作業を進めております。情報が入り次第、このページを更新して最新の情報をお伝えいたします。
皆様にはご迷惑をお掛けしておりますことを心よりお詫び申し上げます。
■2/27 0:20 追記
現時点で弊社で確認しましたところ、すでに設定済みの Webhook → TwiML による制御を行っている Programmable Voice についてはサービスは動いています。
個別サービスの最新状況につきましては、以下Status Twilioをご参照ください。
https://status.twilio.com/incidents/zmz5c9prz8mm
■2/27 01:00 追記
status.twilio が更新されました。複数サービスに渡る障害は解消いたしました。ただし、Programmable Message でキューイングされたメッセージが配送されるまでまだしばらく時間が掛かる見込みです。コンソール(管理画面)をはじめ、各サービスは復旧しております。PSTN接続(Programmable Voice、SIP Trunking 電話番号宛 Termination) については影響を受けませんでした。
■2/27 02:00 追記
status.twilio が更新されました。すべてのサービス障害が復旧いたしました。引き続き Programmable Message でキューイングされたメッセージについては順次配送されていきます。
■3/1 14:00 追記
2021年2月26日(金)、Twilio は広範囲に及ぶ接続の問題が発生しました。問題が最初に発生したのは午後22時25分頃です。24時15分頃にサービスの復旧が始まり、24時30分頃にはほとんどの新規 API トラフィックが正常に復旧しました。
現在このインシデントの根本原因を調査中です。サービス毎の影響を追加して下記ドキュメントを更新する予定です。なお、Programmable Voice と Elastic SIP Trunking、および Email は影響を受けませんでした。
https://support.twilio.com/hc/en-us/articles/1260803043829-Notice-Incident-Friday-February-26-2021
■3/5 15:30 追記
Twilio 社から原因と再発防止策が公開されたため抄訳をご案内いたします。詳細は下記をご覧ください。
https://www.twilio.com/blog/february-26-service-disruption-update
2021年2月26日(金) 22:00 〜 24:30 の 2.5 時間、 Twilio の多くのプロダクトで障害が発生しました。
担当エンジニアには障害発生から 1 分以内に通知されましたが、Twilio Status Page への告知が 25 分遅れましたこともお詫びいたします。
原因
Twilio 内部の管理機能が高負荷になる障害が発生しました。この管理機能は複数の Twilio サービスが利用しております。
高負荷になった管理機能の切り替えが Twilio サービスで完全に行われない結果として Twilio サービスの負荷も高まり、顧客向け API のエラーや待ち時間の増加を招きました。
再発防止策
・サーバーの増設と、自動スケーリングの見直しを行います
・管理機能の障害時にサーバーを切り離し、管理機能のキャッシュで Twilio サービスを稼働させることでサービスの利用停止を防ぎます
・サービスのリクエストタイムアウトを減らすために API の実装を見直し、スケーラビリティーを改善します
・サービスのフェイルオーバー機能を見直し、障害発生時の回復時間の短縮を図ります
・管理機能のキャッシュを見直し、全体の負荷を下げます
また status.twilio.com を介して障害時に正確で最新の情報をお伝えするように努めます。
そのためにリスクを持つサービスの特定と修正、ベストプラクティスの確立、オンコール時の対応の手動部分を削減して復旧時間の短縮など、組織全体の見直しを行います。
今回のサービス障害を反省とし、プロセス改善、復旧時間の短縮、透明性の向上に努めます。
お客様にはご迷惑をお掛けしましたことを心よりお詫び申し上げます。