2017.05.12

障害調査に役立つ基礎的なLinuxコマンド集

shimo

この記事は更新から1年以上経過しています。情報が古い可能性がありますのでご注意ください。
特にデロイトトーマツグループ入りする2021年8月より前の記事については、実態と大きく乖離している場合があります。
ご注意ください。

LinuxサーバでのWebアプリケーションの障害調査時に、自分が特によく使っている基礎的なコマンドをまとめてみました。統計などを取ったわけではないですが、今回挙げる基礎的なコマンドで多くの調査を済ませてしまっている気がします。
実際には、パイプで sort や wc コマンドなどと組み合わせたりすることで調査の高速化をしている部分もありますが、実際には基礎的なコマンドだけで障害の原因が判明することも多くあります。

w

マシンの起動時間や、ログインしているユーザなどを調べるコマンドです。
特に、マシンの再起動が障害の原因になることは多々あるので、マシンの起動時間は調査に重要な情報となります。
また、他の人がログインしている場合、調査に影響を与える場合があるため注意します。
これらの情報が一文字で取得できるのですから、まず打っておいて損はありません。

df

ディスク使用量を確認するコマンドです。ディスクの使用率を監視していない場合、障害発生の原因がディスクの枯渇というケースも多いので、このコマンドも最初に打ってみるコマンドの1つです。

$ df -h
Filesystem      Size  Used Avail Use% Mounted on
/dev/xvda1       30G   10G   20G  34% /
devtmpfs        490M   56K  490M   1% /dev
tmpfs           499M     0  499M   0% /dev/shm

du

ディスク容量が枯渇している場合、どのディレクトリが容量を取っているかを調べる際に使うことが多いでしょうか。

例) 現在ディレクトリ直下のディスク容量を調べたい場合:

$ du -sh ./*
22M    ./20151120
280K    ./hogehoge.jpg
308M    ./hogehoge.tar.gz
8.0K    ./bin
28K    ./blog

パイプで sort -rn をつなげると容量ごとにソート可能です。

$ du -sh ./* | sort -rn
620M    ./hogehoge.dump
508M    ./shimojo
496K    ./maeda
355M    ./dump.sql
308M    ./hoge.dump.tar.gz

隠しファイルも対象にしたい場合、以下のようにします。

$ du -scmh ./* ./.[^.]* | sort -rn
620M    ./hogehoge.dump
508M    ./shimojo
496K    ./maeda
355M    ./dump.sql
308M    ./hoge.dump.tar.gz
136K    ./.ssh