
ハードディスクがいつ故障するかを予測するのは不正確な科学だが、ネブラスカ大学の研究者がそれをより正確にすることに近づいているかもしれない。
エンタープライズストレージアレイは、SAN、NAS、オブジェクト構成のいずれの形態であっても、数十台から数百台のハードディスクを搭載することがあります。どのディスクがすぐに故障する可能性があるかをより正確に把握できれば、たとえ数パーセントの改善であっても、数テラバイト規模のデータを事前にオンライン状態に維持するか、事後対応的にバックアップからデータを取得するかの違いが生じる可能性があります。
コンピュータサイエンスの博士課程に在籍する銭俊傑氏は、故障が近いディスクを予測する彼のアプローチは、複数の機械学習アルゴリズムを用いることで実現できると述べた。既存のアプローチは1つのモデルのみを使用しており、それで十分ではあるものの、誤検知が多すぎると銭氏は指摘する。
NetApp の支援を受けて研究を行っている Qian 氏は、先月ボストンで開催された IEEE のネットワーク、アーキテクチャ、ストレージに関する会議で自身の研究を発表しました。
「私たちの知る限り、これまでの業界および学術的なソリューションは、高い予測率か低い誤検知率のどちらかしか達成できず、両方を同時に達成することはできません」と銭氏は論文「P3:故障間近のディスクに対する優先度ベースのプロアクティブ予測」の中で述べている。誤検知を減らすための彼の手法は予測率がわずかに低下するが、その手法自体は1時間ごとに実行することでその低下を打ち消すように設計されている。この方法であれば、故障間近のディスクを、深刻な状況になる前に検知できると彼は説明した。「私たちが提案するソリューションは、ホストオペレーティングシステムまたはディスクアレイコントローラに搭載されたソフトウェア機能です」と彼は続けた。
銭氏はTechRepublicに対し、このアプローチを商用製品に適用するには、さらなる研究が必要だと語った。より大規模なデータセットでテストと検証を行う必要があり、モデリングの入力段階でより多くのデータを取得する必要があるかどうかを検討する必要があると説明した。
ハードディスクメーカーは、ストレージアレイやストレージ管理ソフトウェアに公開するデータの一貫性を高めることで、予測精度の向上に貢献できると銭氏は付け加えた。「ディスクへのデータ読み取り/書き込み量に関する情報が提供されれば、予測精度の向上に役立つと考えています。ディスクベンダーやディスクモデルにはそれぞればらつきがあり、収集されるデータに影響を与えます。ディスクメーカーから、故障が近いディスクの予測に役立つもう1つの要素は、ディスクの予備モデルやデータセットを提供することです。これにより、モデルを予測に適用する前のモデル構築時間を短縮できます。」
商用ディスク障害予測モデルは、SMART(Self-Monitoring Analysis and Reporting Technology)と呼ばれるデータに基づいて判断を下します。これは1990年代に初めて策定された業界標準です。この標準はT13と呼ばれる国際委員会によって主導されており、そのメンバーは銭氏が挙げたような変動に関する一般的な懸念を認識しています。
東芝の技術業界標準担当ディレクター、ダニエル・コールグローブ氏は、T13の議長を務めています。ストレージ企業や顧客は独自のSMARTパラメータを作成できるものの、それらは標準化されていないとコールグローブ氏は指摘しました。委員会メンバー(基本的にすべての主要ハードディスクおよびコンポーネントメーカー)は、SMARTパラメータだけに頼るのではなく、顧客がデバイス統計ログをより頻繁に利用することを望んでいると、コールグローブ氏は述べました。
T13はディスク障害予測を標準規格の一部に組み込むことに前向きだとコールグローブ氏は述べた。「より優れた予測方法に関する研究は継続的に行われています」と彼は述べた。しかし、「現時点では、一般的な障害予測に関する新たな標準規格の提案はありません」
銭氏がそのアイデアを具体化できる人物かどうかはまだ分からない。今後の展望について尋ねられると、「予測とフォローアップの両方のソリューションを統合した、ストレージシステムの信頼性維持システムの構築に興味があります」と彼は答えた。
注: TechRepublic と ZDNet は CBS Interactive の所有物です。