Linux サーバでよく見るエラーパターンと初動対応

Linuxサーバのトラブル対応を続けていると、
毎回まったく違う問題に見えても、実は似たような原因に行き着くことが多いと感じる。

ここでは、個人的によく遭遇するエラーパターンと、
そのときにまずやっている初動対応をまとめておく。

サービスが起動しない

設定ファイルの書き間違い、モジュール不足、依存関係エラーなどが多い。

まずはサービスの状態を確認し、起動ログを確認する。
ほとんどの場合、なぜ起動できないのかはログに出ている。

再起動を繰り返す前に、
「何が原因で失敗しているか」を必ず確認するようにしている。

突然サービスが止まったり、設定保存ができなくなったりする。

ディスク使用率を確認すると、ログ肥大や一時ファイルで埋まっていることが多い。
原因を探す前に、まず空き容量を確認するのが習慣になった。

サービスは起動しているのに接続できないときによくある。

別プロセスがすでに同じポートを使用していた、というケースは意外と多い。
ポート確認を入れるだけで、無駄な調査を減らせる。

設定もパスも合っているのに動かない。
そんなときに多いのが権限・所有者・SELinux関連。

アプリケーションエラーに見えて、実はOS側の権限だった、というケースはよくある。

疎通不可、名前解決不可、外部通信不可など。

アプリの設定を疑う前に、
まずOSとして通信できているかを確認するだけで切り分けが早くなる。

トラブルの内容は毎回違っても、
初動で見るポイントはかなり似通っている。

状態確認 → ログ → リソース → 設定 → ネットワーク。
この順番を崩さないことが、結果的に一番早いと感じている。