2024.07.24

Amazon RDSでフェイルオーバーが発生した際に確認するポイント

maachan

この記事は更新から1年以上経過しています。情報が古い可能性がありますのでご注意下さい。

システムを運用していく中で、数秒から数分ダウンタイムが発生し、原因を特定していく過程でRDSのフェイルオーバーが発生していたみたいなケースに遭遇することがあると思います。

今回はそんなケースにおいてフェイルオーバーが発生した原因を特定する際に確認するポイントを紹介していきます。

Contents

1. CloudWatch メトリクスの確認

特に最初に確認すべきCloudWatchメトリクスは以下の通りです。

フェイルオーバーが発生した前後の時間帯において、DB接続数が急増し、それに伴いCPU使用率かメモリ使用率も急増していた場合、十中八九、負荷の急増が原因によるものと判断することができます。

他にもアプリケーション側の特性によって、ディスクI/Oやネットワーク帯域関連のメトリクスを確認するのも良いと思いますが、基本的にはメトリクス上でスパイクが発生していないかを確認します。

注意点として、上記はインスタンスレベルのメトリクスを指しているため、フェイルオーバー以前に稼働していたプライマリインスタンス（旧プライマリインスタンス）のメトリクスを確認する必要があります。

拡張モニタリングを有効化している場合、CloudWatchメトリクスだけでなく、拡張モニタリングのメトリクスも確認しましょう。

CloudWatchは、DBインスタンスのハイパーバイザーからメトリクスを収集するのに対し、拡張モニタリングは、DBインスタンス上のエージェントからそのメトリクスを収集します。

そのため、CloudWatchメトリクス上ではメモリに余裕があっても、拡張モニタリングのメトリクス上ではメモリに余裕がない、といった事象が発生したりします。

特にOS側でスラッシングなどが発生していた場合は、拡張モニタリングを確認しないと原因を特定することは難しいと思います。

拡張モニタリングでは最低限下記のメトリクスを確認すると良いと思います。

パフォーマンスインサイトも有効化していたら確認しましょう。

パフォーマンスインサイトでは、特定の時間帯におけるDB負荷を確認することができます。データベースロードのグラフでボトルネックが確認できた場合は、該当時間帯に特に負荷をかけているSQLクエリを確認することができます。

どちらかというと、CloudWatchメトリクスで、ある程度負荷が原因だなという目星がついた段階で、より詳細な原因を調査するためにパフォーマンスインサイトを使うことが多いです。

メンテナンスウィンドウは必ず設定されるため、週次で何らかのメンテナンスが発生する可能性があります。そのため、メンテナンスウィンドウ中にフェイルオーバーが発生していたかを確認する必要があります。

具体的には下記のような項目のメンテナンスが発生する可能性があり、それに伴うフェイルオーバーが発生します。

他にも下記のような場面で、メンテナンスウィンドウ中にフェイルオーバーが発生する可能性があります。

マイナーバージョン自動アップグレード: マイナーバージョン自動アップグレードが有効になっている場合、メンテナンスウィンドウ中にアップグレードが実行され、フェイルオーバーが発生することがあります。
エンジンバージョンの廃止: 廃止されるバージョンを実行しているインスタンスは、スケジュールされたメンテナンスウィンドウ内に、サポート対象となっている最新バージョンへの自動アップグレードのスケジュールが設定される可能性があります。
DBインスタンスの変更: 一部の設定では、ダウンタイムを要する変更があります。そのため、DBインスタンスの変更を次のメンテナンスウィンドウ時に適用する設定をしていた場合、フェイルオーバーが発生する可能性があります。