PC >障害例 >起動時、 終了時 >RAID OS >RAID 5 サーバ が、起動不可 >
( 2019.11.24. 更新 )
● 現場 ● | |
---|---|
1 | IJ ステンレス 加工 様 : KG市 |
● 機種 ● | |
1 | DELL : PowerEdge 830 |
Windows Srv Std 2003 1-4CPU 5Clt ( SP1 ) | |
● 仕様 ● | |
1 | ↓ 以下のHDD × 4台 |
Maxtor : ATLAS 10K V、3.5 SERIES、 146GB、 Ultra320 SCSI | |
↑ SCA80 ( = ピンに 電源込み ) | |
● 症状 ● | |
1 | 「 LANブート画面 → F1 + F2の選択画面 」 を 繰り返す |
2 | フロント・カバーをはずすと 4 台のHDDスロット中、2 台 ( = 0 + 3 ) が オレンジ点灯 = 異常 |
↑ 残り 2 台 ( = 1 + 2 ) は 緑点灯 = 正常 | |
3 | ユーティリティ画面で見ると 0 + 3 = 「 FAIL 」 |
↑ 正常な 1 + 2 = 「 ONLIN 」 | |
[ 1 ]. 起動時 [ F10 ] | |
[ 2 ]. [ Ctrl ] + [ M ] | |
[ 3 ]. [ Configure ] | |
[ 4 ]. [ Easy Configuration ] | |
4 | HDD × 1台が不能になったあと、短時間で HotSpare も不能になったようだ |
↑ 考えてみれば、使用年数は ピッタリ 同じなのだから、HDD × 2台が ( ほぼ ) 同時の クラッシュ は ありうる障害だ | |
● 処置 ● | |
1 | HDDを 1 台ずつ Regene |
↑ 「 SCA80 → 68ピンSCSI変換アダプタ 」 を 利用して | |
2 | マザーのユーティリティ画面で、HotSpare に 強制マウント |
↑ その現場では HotSpare = フィジカル 3 だった | |
3 | OSディスクで起動し、chkdsk して 復旧 |
● 手順 ● | |
1 | ↓ アラーム が うるさいので、作業中は 消す |
PC >機種別資料 >DELL >PowerEdge 830 > | |
2 | HDDを集合させている基板のコネクタ ( = 通信 + 電源 ) を抜き、他HDDが通電しないように 準備 |
3 | 障害HDDを抜き、「 SCA80 → 68ピンSCSI変換アダプタ 」 を 装着 |
「 RiteUp 製 : RAD07 」 を 使用 | |
↑ ジャンパなしで | |
4 | HDD集合基板と RAID用SCSIボードをつないでいる、68ピン用ケーブルを抜く |
HDD 単品と 単品用 SCSIボードとを 接続 | |
↑ 最初から 単品用SCSIボードが挿さっていて ラッキー ( = 使われていなかったが 保守用 … ? ) | |
5 | HDD Regenerator で 起動 |
↑ RAID の固まりと 単品 HDD の両方が 選択肢に表示する | |
↑ 処置するのは 単品 HDD のほう | |
6 | BADがヒットしなくなるまで、何度も ( 再起動して) 処理を繰り返す |
7 | 念のため 正常HDDも処理 |
↑ その現場では 実際に BADが ヒットした | |
8 | もとの接続に戻して起動しても、障害の HDD は FAIL のまま |
↓ ユーティリティ画面で フィジカル3 ( = HotSpare = 後から不能になった HDD ) を 強制マウント | |
[ 1 ]. 起動時 [ F10 ] | |
[ 2 ]. [ Ctrl ] + [ M ] | |
[ 3 ]. [ Objects ] | |
[ 4 ]. [ Physical Drive ] | |
[ 5 ]. ( 該当HDDを選択 ) | |
[ 6 ]. [ Enter ] | |
[ 7 ]. [ Force Online ] | |
[ 8 ]. [ Yes ] | |
9 | 各コネクタを戻し再起動後、普通のWindowsエラーが表示されるようになったら、添付のOS・CDで起動して CHKDSK |
10 | ( フィジカル 0 を HotSpare にしたら、アラーム設定を 戻す ) |
↓ その現場では 「 サーバに RAID 5 は コリゴリ 」 ということで、RAID 1 サーバ への 切り替えになったが | |
PC >バックアップ + データ移行 >2000 / XP / 2003 >HDDクローン >Server 2003 >HDDクローン ( RAID 5 → RAID 1 ) > |
● 過程 ● | |
---|---|
1 | Regeneをかけるが、B×1のまま、カウントが進む(= リペア不可) |
4台装着でも、1台ずつ装着でも、同じ | |
2 | SCA80を、PATAかSATA変換して、Regeneできたら |
しかし、なかなか、変換アダプタが見つからない | |
あったと思ったら、「SCA80 → 50ピンSCSI、変換」だった | |
↑PATAは、40ピン | |
ないのかも | |
3 | BIOSで、RAIDモードではなく、単品HDDモードにできれば、Regeneも利くような気がする |
しかし、原本筐体の設定は、いじりたくない | |
4 | 筺体をよく見たら、RAID用SCSI基板の他に、単品用SCSI基板も入っている |
使っていないが、保守用か…? | |
インターフェースが、68と50なので、「SCA80 → 68変換」アダプタと68コードで、接続 | |
1台ずつ、Regeneできた | |
↑RAIDの固まりと、単品HDDの両方が、選択肢に表示する | |
↑他HDD + HDD集合基板は、まったく通電していないので、RAID用SCSI基板内の、情報を見ているということか | |
5 | Regeneが終わって電源オンするが、障害の0 + 3は、FAILのまま |
ユーティリティ画面からの、強制マウントが必要ということか | |
先に死亡したHDDには、マウントしたくないが(情報が古いから)、不能になった日時は記録されているのか…? | |
6 | ユーティリティ画面では、不能日時は記録されていない模様 |
CD起動系のOSでは、認識しないか、しても未フォーマット | |
勘でやるしかないのか | |
7 | Regeneでは、0のほうが重症だった |
ユーティリティ画面でも、0のほうが、エラーが多い | |
また、常識的に、もともとは「0 + 1 + 2 = RAID 5動作」で、「3 = HotSpare = 新しいほう」、ではないか | |
8 | 3のみを、強制マウント |
見慣れた感じの、エラー画面が表示 | |
↑「次のファイルが存在しないか〜」 | |
↑「\WINDOWS\SYSTEM32\CONFIG\SYSTEM」 | |
9 | BartPEでは、ドライブが見えない |
↑RAIDドライバが、入っていないから? | |
Ubuntu 10.10では、正常に見られた | |
↑日付が、不能になった日に、近いファイルも多く見られる | |
「フィジカル・ドライブ3の、強制マウント」で、当たりだったようだ | |
↑正常起動できるようになったら、フィジカル0を、HotSpareにすると、しばらく安心 | |
10 | C:\System Volume Information\、にほとんどファイルがない |
↑Srv 2003は、(XPと違い)、レジストリの自動バックアップは、されないらしい | |
11 | 添付のOS・CD = 当然、同じバージョンが見つかったので、chkdsk |
エラーが修復されて、OS起動成功 |