障害は忘れた頃にやってくる
2022年10月23日、青空広がる爽やかな日曜日。それは家族で昼食をとっていたときのことでした。
インターネット繋がらないんだけど何かしてる?
ボス
食事の直前まで機嫌よくツイッターを眺めていたのでボスのスマホが調子悪いのだろうと思い、私は目の前のソバに一味をタップリ振りかけながらボスにスマホの再起動を促しました。
軽くむせながらソバを食べていたところへ鶴の一声がかかります。
直ってないなんとかして
ボス
自分のスマホを取り出してみると確かにネットが使えません。なんで??
ボスの命令は絶対です。ソバを胃袋に流し込み真っ赤に染まった汁を飲み干し、盛大にむせながら私は調査を開始しました。
全セグメントで障害発生
どうせアクセスポイントの調子が悪いんだろうと思って機器本体を眺めてみると、明らかにアカン感じの色を放っているランプを見つけました。「ほら、きっとこいつのせいだ」とすかさず電源OFF・ONしましたが、再起動後もランプの色は変わりません。
安物だったから壊れちゃったか・・・それにしても短命だったなと、古いアクセスポイントを引っ張り出そうとしたのですが、ちょっと気になったので別セグメントのアクセスポイントへスマホを繋ぎ変えてみました。
「・・・ん?」
ダメです。ボスが使うネットワークと同じ症状。アクセスポイントとはつながるのですがネットが一切使えません。他のセグメントも全部ダメ。重障害です。
ルーターの様子を確認してみた
全セグメント死亡。休日昼下がりのイベントとしてはかなりのハードモードです。夜は旧知のメンバーと数年ぶりに宴の約束があるので、なんとしても夕方までには復旧させねばなりません。とりあえずPCを持ってルーター(RTX1210)の元へ向かいました。
「これが死んでたらワイも死ぬ」
祈りながらルーターにログイン試行・・・すんなり入れました。見える範囲で異常はありません。なんだろう?ルーターから一度抜けて、再度各セグメントのアクセスポイントに接続しルーターへアクセスしてみるとこれもOK。LAN側に問題は無いようです。
念のためRTX1210を再起動させてみましたが変化ありませんでした。
sandambara家のネットワーク構成
以前記事にまとめましたが、我が家のネットワークは元々ホームゲートウェイ+ひかり電話という構成だったところへRTX1210を投入し、その後VLANを作成し現在の構成に至ります。
ここでホームゲートウェイを再起動してみましたがこれも変化なし。電話は普通に使えているのでホームゲートウェイから外の土管も問題無さそうです。
となるとプロバイダがあやしいかもと、OCNについて検索するも障害情報は見当たりません。Twitterでも騒いでいる人はいません。おっかしいなあ・・・
もしかして名前解決できない?
この辺りまできて、以前Cloudflareが死んだことをふと思い出しました。
当時は「ふーん」くらいにしか思っていなかったのですが、夏頃にCloudflareのパブリックDNSが早いらしいという記事を見つけ、RTX1210で各セグメントに配布するDNSの値を1.1.1.1にしていたのです。
「http://IPアドレス」だとアクセスできるかも?と考え、とあるサイトにアクセスしてみると・・・普通に表示されました。原因は分かりませんが結論としてDNSが機能していないことが分かったので、ルーターの設定を変更(1.1.1.1→OCNのDNS)して無事解決に至りました。
試しにDNSを切り替えながらnslookupを試してみるとこんな感じでした。
反省会
後から気付いたことですが、少ないながらも同じ症状の方がおられることが分かりました。
この記事を書いている今も真実は闇なのですが、今回の反省点として「セカンダリDNSを設定していなかったこと」が挙げられます。不死身のサーバーなどこの世に存在しないのです。
善は急げ。早速RTX1210のコンフィグを修正しました。
dhcp scope option VLANID dns=1.1.1.1,202.234.232.6
8.8.8.8でも良かったのですが、まあ、1個は標準値(プロバイダの指定値)にしておこうかと。
復旧報
約1時間程度で復旧し、思っていたより傷が浅かったことに安堵しました。夜の宴も予定通りです。
ボスに復旧を伝えました。
あ、LINEちゃんと使えるようになったわ
ボス
その直後に放ったツイートがこちらです。
電気ガス水道インターネット、使えて当たり前ではないのです。「何も無いこと」を提供するために裏で働く人たちへの敬意と感謝を忘れないようにしたいですね(褒められたい)。
コメント