2015年7月10日金曜日

業務連絡

システム障害情報
2015.07.09/09:30 頃よりサーバダウン
2015.07.10/00:15 頃、復旧完了

[2015.07.10] 追記:経過報告など

昨日の本家システム障害は、主に自宅サーバに対する管理上のトラブルが原因で、ほぼ15時間に渡ってサーバが再起動不能の状態に陥った。

発端は、アップルから提供されるアップデータによるシステム更新。まあ、ネタになるほどのテーマでもないのだが、手間だけは結構かかったし、そのまま闇からゴミに葬るのも悔しいので書いておこう。

午前中、EFI アップデートを含む一連の山猫用アップデートを、外部から ARD で操作していた。ただ、一気に全てをアップするのではなく、あの忌まわしくも鬱陶しいことこの上ない iTunes 12 関連を除いて更新するために、手動による選択で行っていた。その理由は、もちろん iTunes のバージョンを 11.4 (18) に留めるためである。

再起動が必要になる、幾つかの更新プログラムを後回しにして、一通り作業が終った。その後、セキュリティ関連の更新と EFI アップデートをかけたのだが、トラブルは再起動の最中に発生した。

画面共有の再接続が、いつになく時間がかかっていたのだが、さほど気にも留めず接続を終了して、そのまま出掛けた。暫くして、客先のネットから確認のために、このページにアクセスするも繋がらない。

ARD 経由で、サーバコントロールを試みるがそれもだめで、PING も通らない状態である。おそらく、起動途中でなんらかの問題が発生して、ハングした状態であろうと予想される。

仕事が一段落した午後になってから、サーバを設置している実家に寄ってみた。少なくとも、ローカルネット上にはサーバが見えないようなので、電源ボタンの長押しで、強制終了をかけた。

ライオンサーバを山猫までアップして使用している自宅サーバは、普段モニタレスで運用しているので、そのままでは全く状況が掴めない。再起動時に、いつもは繋いでいないキーボードを繋いで、お呪いのごとくオプコマPRだけやって、そのまま次の仕事先に出掛けた。

夜になってから、帰社後に確認するとやはり同じ状態で繋がらない。いよいよ、自体は深刻かと思われたので、復旧用機材を持って再度現地まで赴いた。

Thunderbolt を筆頭に、IEEE1394b、USB3.0 ×4 と、入出力インターフェイスだけはやたらに充実している Mac mini である。そこで、ターゲットモードで再起動してみるが、メンテ用の MacBook Air 11 との接続で、アダプタ類を必要とせず最も面倒がないのは Thunderbolt である。

ショートケーブルを介して繋ぐと、外部ドライブとしては問題なく認識されている。だが、ディスクユーティリティでパーティション修復をかけると、赤字で「ボリュームのフリーブロックカウントが正しくありません」と表示される。

ま、キーが不正ですとか、B ツリーのノードサイズが正しくありませんとか、マスタディレクトリブロックのヘッタクレが云々などという深刻なエラーではなさそうだ。なので即座に修復をかけたが、再度確認しても同様のエラーが表示されることはなかった。

ところが、再起動してもやはり同じような現象で、起動途中で止まっている様子である。どうやら、物理的なハードドライブとしては問題がないが、起動システムのソフトウェア部分が破損しているようだ。

モニタのない現場では、埒が明かないので、会社に持ち帰って復旧作業を継続することにした。無停電電源や多くのデータ用ドライブ、モデムおよびルータ等のネットワーク機器が収まったラックから、バックアップ用の外部ドライブと共に本体を取外してバッグに詰めた。

念のために、モニタやキーボード、マウスなど一通りノーマル状態にした上で、再度ドライブの検証を行うがハード的には何も問題は見つけられない。結局、別の Mac の外部ドライブとしても、起動できないことが判明したので、バックアップからのレストアか、システムの再インストールしかないようである。

元々のトラブルのキッカケになった、今回の更新前のシステムに戻しても、またもやアップデートでコケられても面倒だ。かといって、フルバック取ってから初期化再インストールという、真珠湾からやり直し的な対処も、精神衛生上スッキリして良いのだが、完全復旧までの時間的なことを考えると気合いが入らない。

で、上書き再インストールという姑息な手段に頼ることにして、オプションキーを押しながら、復旧用パーティションの方で起動し、再インストールを行った。時間にして、トータル約30分というところで、起動可能な状態まで戻る事が出来た。

しかし、厄介なのはこの先の、WEB 共有までの復旧である。スノレパまでの、簡易的なパーソナルWEB共有なら話は簡単なんであるが、ライヨン以降廃止されたため、須藤さん頼りの一連の儀式を経なければ元通りなはならない。

だが、そんな厄介事はたとえ以前やったことでも、すぐに忘れて既に記憶の彼方であり、思い出すだけでも数時間を要した。夕方より始めた作業だったが、完全復旧が深夜に及んだのは、ほとんどこちらの設定に関する問題に、多くの時間を取られていたことが原因である。

今回も、下手にアップルの言いなりになってアップデートなんぞするとロクなことはないという、従来からの教訓はまたもや生かされなかったのである。

ぶっちゃけ、根本の原因を究明したところで、後に何かの役に立つわけでもない。ましてや、そんな不毛なことをする気にもなれないので、報告だけに留めておく。やれやれ、疲れたましたがな。


…ということで、ヒトツよろしく。
2015年07月某日 Hexagon/Okayama, Japan

http://www.hexagon-tech.com/
[2015.07.10] 業務連絡 〜より転載&加筆修正

0 件のコメント:

コメントを投稿