Linuxサーバのトラブル対応を続けていると、
毎回まったく違う問題に見えても、実は似たような原因に行き着くことが多いと感じる。
ここでは、個人的によく遭遇するエラーパターンと、
そのときにまずやっている初動対応をまとめておく。
サービスが起動しない
設定ファイルの書き間違い、モジュール不足、依存関係エラーなどが多い。
まずはサービスの状態を確認し、起動ログを確認する。
ほとんどの場合、なぜ起動できないのかはログに出ている。
再起動を繰り返す前に、
「何が原因で失敗しているか」を必ず確認するようにしている。
ディスク容量不足
突然サービスが止まったり、設定保存ができなくなったりする。
ディスク使用率を確認すると、ログ肥大や一時ファイルで埋まっていることが多い。
原因を探す前に、まず空き容量を確認するのが習慣になった。
ポート競合
サービスは起動しているのに接続できないときによくある。
別プロセスがすでに同じポートを使用していた、というケースは意外と多い。
ポート確認を入れるだけで、無駄な調査を減らせる。
権限エラー
設定もパスも合っているのに動かない。
そんなときに多いのが権限・所有者・SELinux関連。
アプリケーションエラーに見えて、実はOS側の権限だった、というケースはよくある。
ネットワーク関連
疎通不可、名前解決不可、外部通信不可など。
アプリの設定を疑う前に、
まずOSとして通信できているかを確認するだけで切り分けが早くなる。
まとめ
トラブルの内容は毎回違っても、
初動で見るポイントはかなり似通っている。
状態確認 → ログ → リソース → 設定 → ネットワーク。
この順番を崩さないことが、結果的に一番早いと感じている。


コメント