2021年のサービス障害を振り返る

今年も年1回のブログ更新の時期がやってまいりました。

[2021-12-31] 年末に起きたニュースを追記

過去分 :

データソースは主にこのへん :

毎度の免責になりますが、

  • 私の観測範囲で拾えたものというだけなので、あまり網羅性があるものではありません。
  • 基本的には通信・サービスプロバイダ・システムインフラ関連のサービス障害について集めています (情報セキュリティ関連の話は含めていません)。
  • 障害発生日を付記していますが、海外のものについてはタイムゾーン等を加味していません。参考情報です。

今年どんなことがあったんだろうというのをざっと振り返るくらいで見てください。

2021年の事例

個人的な所感

印象的なのはみずほ銀行Facebook かなあ。あとは CDN のトラブルによる「インターネットが落ちた」事象とか。

  • みずほ銀行については多数のニュースや解説記事等あるのでそちらを見てもらうとして。機器故障云々の前に運用上のあれこれ、組織編成等にまで及んで多数の課題点があるという話も出ています。
  • 正規フローから外れたオペレーションというのは big tech でも起きていて、salesforce (5月) の障害は正規のワークフローではなく緊急用のフローでショートカットしようとしていた、なんて話も出てきていますね。やっぱり近道を通ろうとしてしまう。
  • そしてオペミスが起こらないようにガードをかけたりチェックや検証をかけたりしていてもやっぱりミスは起きる。自動化されたオペレーションのバグ、特定の条件で発生するバグはいくつか事例が上がっていますがまあこういうのを完全に洗い出すのは難しい。セーフガードだけではなく、問題を早くキャッチして元に戻す方策も必要。
  • 落とし穴になりがちなのがDNSってのはありそうだなあ。上にあげた例だと、Facebook, Salesforce, Akamai, Slack はDNSあるいはDNSが関連した障害を起こしてますね。Salesforce は自社ドメインでのステータス表示すらできなくなっているし、Facebook は復旧に使う運用系のシステムの名前も引けなくなってしまったという話を見た記憶が。システムの大規模化・複雑化に伴って、どこかで「鍵のとじ込み」が発生してしまうケースを見極めきれるんだろうか?

あと気になるのは政治情勢の影響かなあ。ミャンマースーダンの話は上に書いた通り。ロシアについても通信規制の話は前から出てますよね。そのほかにも、政治活動等のターゲットとしてデータセンタが狙われるケースなんかもあり。

AWSの接続障害、人々はクラウド依存を実感 - WSJ って話もあって、生活の中にこういうITシステムとそのサービスが溶け込んでいくんでしょう。同時に、それらが攻撃面として選択されていくし、予想外のところで影響が起きることも増えていくんだろうなあ。

そしてこうしてまとめてみると、「観測される範囲」に入ってくるものはやっぱりエンドユーザ = “目” の数が多いサービスなんだよなあ、と思いますね。直接にせよ間接にせよ。そういう意味ではここに出てきているニュースは偏っていると思われます。……なぜこんな話出したかというと、過去記事眺めてると某サービスもちょいちょい障害起こしてるみたいなんだけど、私の観測範囲だとほとんど聞こえてきてなかったんですよ。サービスプロバイダとしては深刻な障害を起こしても何も非難されない方が恐怖なのではと思ったり……。

2020年のサービス障害を振り返る

2020年も終わりですね。もうこのネタでしかはてなに書いていないものだから、この時期を逃すと次は2021年度末になってしまう。2年分まとめるのはしんどい…というのを昨年は後悔したので今年のぶんは今年のうちにまとめておきます。2020年のサービス障害の振り返りです。基本的には通信・サービスプロバイダ・システムインフラ関連のサービス障害について集めています。

過去分 :

データソースは主にこのへん :

毎度の免責になりますが、私の観測範囲に基づいているものなのであまり正確ではないかもしれません。また、世の中のすべての事象を網羅的に調査しているようなものではありません。今年こういうことがあったね、くらいの参考にしてください。障害発生日時を付記しておきますが、海外のものについてはタイムゾーンとかを加味したものではないので目安程度です。

2020年の事例

個人的な所感

2020年はもうコロナの話題から逃れられないですね。Zoomの急成長やサービス障害など、コロナによるリモートのシフトやそれに伴うサービス障害などいろいろ。サービスの不具合から復旧できずに終了してしまうサービスなんかもありましたしね……。マクロに見た時の変化傾向なんかは Janog なんかで出てきてるはずだし今後も出てくるでしょう。

何かしらのサービスが止まって「もう今日仕事にならねぇな」というのはまあ前からありましたが、コロナによるリモートと Teams などオフィス系オペレーションのクラウド依存が広がるにつれて、その幅が広がって来たなあという気がしますね。Slack がとまったので Teams でとか、あるいはその逆とか。そして今年目についたのは、会社や仕事に関係してじゃなくて、日常生活のなかでのクラウド依存問題でしょうか。

こういうのを見るとIoT的なものが普段の生活の中に入ってきてるんだなあと思いますね。サービスに乗るのは利便性という点ではいいけど、障害が起きた時にどうなるか・ダイレクトに操作できるパスがあるかどうか、というのは考えておかないといけなさそうです。

あと気になったのは、インシデントレスポンスに対する反応かな。

イマドキ、あるサービスがそれ単体で完結していることはまずなくて、外部のベンダーやら他社サービスやらにも依存していたりするわけです。そういうところとどう関係を作るか・それらの障害をどのように受け止めて直接の顧客に相対するか、というのも重要だよな……というのがいろいろと。まあ今に始まったことではないんですが。「止まっちゃってるけどウチのせいじゃないよ」って言いたいのはわかる。でも「そりゃたしかに直接の原因はあなたのせいじゃないんだろうど、そこと付き合うと決めたのはあなたでしょうに」というのをどう考えるか。直接の顧客に対してというのがまずあるのはわかる。でも、それはいま一緒にやっている人たちから見てどう見えるかとか、その外から将来顧客になりうる人・ステークホルダーになりうる人からどう見えるかとかね……。

最後に。ちいさなミスによる障害もやっぱりなくならないですね。本番前の検証やテスト・自動デプロイをするためのシステムに不具合があって変なのが本番に入っちゃった、というのもいくつかありましたが、まあそのあたりは難しいんだろうなと思えます。ただ、ケーブル間違えて抜いちゃったり、証明書の更新を忘れたり、不用意な変更を入れてしまったり、クラウドサービスの契約手続きを忘れたり……。そういうのが大企業とか有名テックカンパニーとかでも起きている、かつニュースになるような障害を引き起こしているわけですよ。こういうのをなくすのがいかに難しいかってことなんだよね。

2018-2019年のサービス障害を振り返る

ときどき思い出したように書いている障害事例まとめです。こういうのをやるならせめて年1回くらいはまとめないとダメだね……。昔の記事だと経緯や内容を覚えていないし、ニュース記事 (特に新聞社の記事や企業の障害に関するリリース記事) が消えてしまっていたりする。年末にまとめてドカッと振り返るのはしんどい。

基本的には自分がブックマーク等でクリップしたものをもとにまとめています。主要なニュースソースはこの辺です。

以下、障害事象の発生日時をベースに並べていますがあまり正確ではありません: 海外事例で正確な発生日時が不明なものについては、ニュース記事の発行日でつけているものがあります。また海外事例については時差表記を統一しておらず、日本時間だったり現地時間だったりまちまちです(目安程度につけているだけなので統一できていません。)

2018年の事例

2019年の事例

2019/6-7月にかけてはこうしたクラウドサービスや通信事業者の大規模な障害が複数起きていてこんな記事も出ました : インターネットにとって最悪の1カ月 | TechCrunch Japan

個人的な所感

  • BGPルート漏洩などによる広域での障害は相変わらずだけど、中国政府がチャイナテレコムを通してBGPハイジャックを実行--研究者が指摘 - CNET Japan みたいな話があって不穏な気配が。
  • 銀行・金融系と、あと地方自治体システムでのトラブルが目立つようになってきた。役所でのクラウドサービス利用などが進行している分影響が目に見えるようになってきたんだろうか。
    • いずれにせよこの辺、バックエンドに SIer がいてやっていると思われるサービスとかについてはとにかく情報が出てない。もうちょっとなんかあってもいいのでは……(まあしがらみがあるのはわかるんだけど)。でも、ほかの会社が報告出してるかというと必ずしもそうでもないんだよな。Facebook他、障害があったことしかわからないのがいくつかあったし。
  • 大規模障害後の余波で 2 次障害 3 次障害と起きるケースがいくつか。システムの大規模化・複雑化が進んでいる・システム全体の挙動が読み切れない (どうしても予期しない事象が起きる) というのがあるんだろう。読み切れないものに対してどこまで被害を抑えられるかが今後の力の入れどころになると思われる。
    • 自動化されていることによる影響拡大というのは前も書いたけど、ソフトウェアによる誤検知 (false positive) が広くなってしまって障害に発展する……みたいな、よりアプリケーションよりの障害が増えてきた印象。
  • 2018-2019は、国内はどうしても災害とは切っても切り離せないですね。大阪北部や北海道胆振東部の地震もあったし大型台風も頻発した。ここではそれらに起因した障害は特にあがっていないけど、サービス運用の人たちは緊張の連続だったんじゃないだろうか。お疲れさまでした。
    • 自分自身が胆振地方出身だし、北海道東部の地震にはいろいろ思うところがありました。
    • 災害対応と今後 :: JANOG43 など。JANOG では災害時の対応報告なんかが上がっているので検索してみるとよいと思います。
  • それにしても、同時期に独立したサービスで障害がかたまって起きるのはなぜなんだろうか。2019/6-7月におきた大手クラウドサービスの障害連発とか、2019/11月の国内 DC サービス電源障害の連発とか。不思議だ。

オマケ

[2020-01-04] どれも情報系サービスってわけじゃないのと、ひとつ追記忘れていたものを見つけたのでちょっとよけます。生物起因の停電みっつ。ネズミはデータセンタとかでも何回か聞いたことがあるけど、ナメクジとかヤモリとかは珍しいね。