世界を動かす技術を、日本語で。

ハードドライブは進化しているのか?

概要

  • Backblaze のハードドライブ故障率データから、従来の「バスタブ曲線」理論に疑問を投げかけ
  • 最新のデータでは、 ハードドライブの寿命と信頼性が大幅に向上
  • ドライブの導入・運用方法やデータセンター環境の変化が、故障率に影響
  • バスタブ曲線は「不完全」なモデルであり、現実の運用では多様な要因が絡む
  • Drive Statsデータセットは誰でも利用可能で、今後も定期的に分析を公開予定

バスタブ曲線の再検証:Backblazeのドライブ故障データから見える現実

  • バスタブ曲線 は、初期故障・安定期・老朽化故障という「U字型」の故障率推移を示す従来理論
  • Backblazeの 13年以上・数百万ドライブデータ では、実際の故障率推移はより複雑
    • 初期故障の減少、安定期の延長、故障率ピークの後ろ倒し
  • 最新(2025年Q2)のデータでは、 10年3ヶ月時点で4.25% が故障率ピーク
    • 2013年(3年3ヶ月: 13.73%)、2021年(7年9ヶ月: 14.24%)と比較して大幅に改善
  • 0~1年目の初期故障率も 1.30%未満 と極めて低い水準
  • 年ごとのドライブ数増加・導入方式の変化も、全体の故障率推移に影響

データの背景と変化

  • 2013年 :3.5万台・100PB規模、主に「コンシューマー向け」ドライブを使用
    • ドライブの外装を外して運用する「ドライブファーミング」も実施
  • 2021年 :20万台超、データセンター拡大・クラウドストレージサービス開始
    • ドライブの大量一括購入・運用基準の変更
  • 2025年 :31万台超、より多様なモデル・運用手法
    • 故障前に計画的にドライブを退役させるケースも増加

バスタブ曲線理論の限界と現実

  • バスタブ曲線は「時間」だけを軸にした 単純化モデル
    • 実際は、 ワークロード・製造ばらつき・ファームウェア・運用環境 など多要素が影響
  • データセンターでは極力条件を揃えているが、完全な均一環境は不可能
  • 現実の信頼性評価は「理論」と「実データ」の対話によって深まる

Drive Statsデータの今後と活用

  • ドライブ台数・多様性の増加 により、信頼性評価の精度が向上
  • バスタブ曲線の「故障率ピーク」は今後さらに後ろに移る可能性
  • Drive Statsの全データセットは Backblaze公式サイト で公開
    • 誰でも分析・再現・独自研究が可能
  • 定期的な 四半期レポート や関連コンテンツも随時公開

Drive Statsチーム紹介

  • Stephanie Doyle :BackblazeのWriter/Blog Operations Specialist
    • 複雑な技術トピックをわかりやすく解説
  • Pat Patterson :Chief Technical Evangelist
    • 技術者・開発者向けコンテンツ企画・発信

関連記事

  • Backblaze Computer BackupとJamf Proの連携による顧客体験向上(2025年10月7日)
  • DevOps向け新ストレージソリューション(2025年10月2日)
  • クラウドネイティブ開発者のための専用ストレージレイヤー(2025年9月25日)

要点まとめ

  • バスタブ曲線は現実のデータセンター運用では「完全な説明モデル」ではない
  • ハードドライブの 寿命・信頼性は年々向上
  • Drive Statsデータは、信頼性評価や運用戦略の指針として今後も重要な役割

Hackerたちの意見

個人的な体験だけど、(慎重に)「はい」と言えるかな。WDのハードドライブを3台買ったんだけど(外付け1台、内蔵2台、どれも別の時期に購入)、そのうち2台がちょうど5年の保証期間が終わった後に壊れたんだよね(1ヶ月以内に)。1台は保証期間の数週間前に壊れたから、WDが交換してくれたんだ(そのおかげで、さらに5年使えるHDDをもらった)。これっていいエンジニアリングだよね!それに、今は10年以上使ってる古い500GBの外付けSeagateドライブもあって、これもまだ完璧に動いてるんだ。多分、例外的なケースだけどね。とはいえ、今のSeagate HDDで魅力的なのは、いくつかのモデルが保証期間内に無料でデータ復旧サービスを提供してること。データを失ったことがある人(バックアップを気にしなかったバカな私みたいな人)は、そのサービスがどれだけ高いか知ってるよね。

交換用のHDDがあれば、あと5年使えるんだけど、ドライブ購入からの保証は5年だけだよね?

HDDメーカーがデータ復旧サービスを提供するのは、なんとなく納得できるし、今までなかったのが意外だね。彼らは他の誰よりもデータを復旧するのに適した立場にいるから。

何年もWDのドライブを買ってきたけど、私の経験では、昔は3年持って(3年保証の時代ね)、保証が切れた途端に壊れた。Western Digitalは、保証期間いっぱいまではしっかり持たせるけど、それ以上は持たないって感じだね。

このデータをドライブの製造日でまとめたらどうなるのか気になるな。年齢だけじゃなくて、3Dで追加して見るのも面白いかも。これを「主要な」見方にはしたくないけど、興味深い点が出てくるかもしれない。もしかしたら、どこかのメーカーが質の悪いグリースを大量に使ったのかも?ちょっと質の悪い磁石?質の悪いシリコン?数ヶ月のハードドライブの製造で、ちょっと信頼性が落ちる原因はいろいろ考えられるよね…(それに、「累積電源オン時間、時間:分 37451*:12、2014年の27週目に製造」— これ、交換した方がいいかも :D — * 16ビットでオーバーフローしたと思うし、ほぼ連続で電源入れてたから、65536を足すと11.7年になるね。)

こういうデータを見るときは、統計の帽子をかぶるのが役立つと思う。観測された値といくつかの利用可能な共変量があって、それが観測されたばらつきを説明するのに役立つかもしれない。正当なばらつきの原因(例えば、NFSボックスの冷却に近いかどうか、ハードドライブが子供の頃に落とされたかどうか、宇宙線の影響など)は私たちには隠れているけど、すべてのばらつきを完全に説明することはできない。でも、もっと多くの事例で平均を取ると、説明できないばらつきは、利用可能な共変量を考慮した上での説明の残差として捉えられる。平均を取ることでデータに対するローパスフィルターのような役割を果たし、有意義なトレンドを明らかにするんだ。一方で、データを3つに分けてしまうと、見えるのは説明できないばらつきだけで、すべてのポイントがユニークになっちゃう。ここでPCAが役立つんだ。共変量のセットを考慮して、どの変数の組み合わせがばらつきを最もよく説明するか、残差がどれだけ残るかを見ていく。残差が多いなら、他の共変量を探すべきだし、残差が少ないなら、気にせず既知の主要な軸を最適化すればいい。

そうだね。8年目のトラブルは、8年前の製造不良を反映してるのかな?

同意。こういう分析は、コホート年でグループ化すると効果的だよね。分析の標準的なやり方だし。

ここ数年、複数の業者から材料を買うプロジェクトを副業でやってるんだ。数量が1:1にならないから、最初の注文の材料と新しい業者からの材料を混ぜて使うことがある。それぞれのアイテムにはバッチ番号があって、最終製品に使うと自分のところでバッチ番号がつく。自分の製品の材料のバッチ番号と自分のバッチ番号を記録してる。ソロでやってるから大変だけど、オタクな私はその手間をかけるんだ。ドライブの製造元も、どの業者から来たマグネットやグリース、シリコンのバッチを知ってると思う。こういう記録をフォレンジック調査に使うことがないことを願ってるけど、一度必要になると大きな違いが出るよね。私がやってるような製品を作ってる人たちが、私の話を聞いて首をかしげて、目を大きくしてまるで異星の言語を話してるみたいに見えるのが面白い。

うん、これは製造環境ではかなり標準的だよ。複雑な商品の生産には、材料の構成やロット、シリアル番号レベルまで追跡されてる。

(ちょっと陰謀論的なこと言うけど)Backblazeが意図的にデータを隠したり曖昧にしてると思ってる。そうしないと、Seagateが残りの3つのドライブメーカーの中で常に最悪だってことが簡単に理解できちゃうから。彼らのオンラインでの悪名は、タイの洪水でスピンドルモーターのクリーンルームが汚染された後に始まったんだ。洪水後のST3000DM001がすぐに故障したことで、Backblazeの統計追跡が認知されるきっかけになったんだろうね。でも、同じ問題に影響されたモデルを除いても、Seagateのドライブは常に実際のMTBFが短かった。Backblazeや誰かが自分たちのブランドを傷つけるのは得策じゃないから、明らかな数字を省くようにデータ処理を調整してるんじゃないかな。

そのドライブはそろそろ静かな引退を迎えてもいい頃じゃない?

TFAのチャートによると、いくつかのディスクは全体的に故障が少なく、長い期間後に故障しているみたい。個人的なデータを5年以上安全に保存する方法がまだ分からないんだよね。1- クラウドに預ける、2- Mディスクに焼く、3- 平均して5年ごとに複数のHDDを交換する、のどれかをしないといけない。しかも、ビットロットを定期的にチェックして、良いファイルを壊れたファイルで上書きしないようにしなきゃいけない。基本的で耐久性のあるファイルストレージのための簡単で自己サービス的、コスト効果の高いソリューションは誰が持ってるの?Synology?TrueNAS?Debian?UGreen?(1)と(2)はそれぞれ面倒な点があるから、(3)が「ベスト」な気がするけど、ほとんどの人には「複雑すぎる」感じがする?自分は結構技術的だと思ってるけど、(3)はちょっと大きな趣味にならないようにするのが本当に難しいと思う。

テープは選択肢にならないの?簡単に読み取るのには向いてないけど、それ以外はまあまあなストレージかもしれないね。

2- Mディスクに焼く、または もうそれは買えないよ。試してみたけど。確か、今売られているMDiscは普通のBD-Rディスクだと思う(多分、より高い基準で作られていて、書き込み速度が遅く設定されているかもしれないけど、やっぱり普通のBD-Rだよ)。

ハードドライブの故障は、データ保存の問題というよりは、コストと面倒な問題のように感じる。どんなに信頼性が高くても、家が燃えたらバックアップが必要だし。バックアップシステムがあれば、ドライブの故障はあまり重要じゃないよね。

魅力的な方法があるかも:1. ZFSを使ってraidz 2. 定期的にスクラブしてビットロットをキャッチ 3. 友達の家に小さな低電力のコンピュータを置く — シングルディスクでもraidz1でもいい。TailscaleとかでZFSスナップショットを送る。 (それも定期的にスクラブしてね。)4. 時々ピザでも持って行く。ブランドについては:この方法はブランドやディストリビューションに依存しないよ。

あんまり物がないなら、N+1(分散)ディスクでミラーリングすれば大丈夫かも。Nは自分が安心できる数で。故障や故障前のサインを監視して、早めに交換するのが大事だよ。最初に構築する時は、購入やサービスの開始日をずらすように心がけてね。その後は、故障もずれる可能性が高いから、自然とサービスの開始日もずれるよ。故障まで使えば、5年より長く使えるかもしれないし、あんまりストレージを増やさなければいい感じ。けど、私は最近5年で交換したから、よくわからないな。動いてるディスクを交換するのは、そんなに手間じゃないし。

Xeon搭載のワークステーションを手に入れて、最低でも4つのドライブをサポートするようにしよう。一つはブートシステムドライブで、他の三つ以上はZFSミラーにするんだ。ECC RAM(だからXeon)を使うよ。私はeBayで35ドルでこういうLenovoのワークステーションを買った。三重ミラーのZFSは、故障する可能性がすごく低いよ。データが生き残るのに必要なのは一つのドライブだけ。次に、バックアップサーバー用に全く同じセットアップをもう一つ用意しよう。私はそれにrsnapshotを使ってる。三つ目のコピーには、ブロックデバイスのようにS3を使うことができて、暗号化されたファイルシステムも使えるよ。基本のOSにはFreeBSDを使ってね。

3について何が心配なのか全然わからない。箱を作って、クローゼットに隠して電源を入れとけばいいじゃん。3ヶ月ごとにドライブの状態を見て、修正不可能なエラーが出てないか確認すればいいんだよ。チェックに30分、交換に1時間かかるとしても、年間3時間もかからないでデータを維持できるよ。

オフラインデータストレージは、頻繁にアクセスしないファイルにはいい選択肢だよ。湿気が少なくて、温度も適度で、振動があまりない環境で棚に置いておけば、ハードドライブはすごく長持ちする。SSDはそうはいかなくて、1年か2年で保存したデータが消えちゃうからね。

13年前のNASがあって、4つの1TBの消費者用ドライブが入ってるんだけど、ヘッドの飛行時間が10年以上で、60万回のヘッドアンロードがあるんだ。7年くらいで1つだけ故障したけど、残りの3つはまだ動いてて、長時間のセルフテストも通過してる。hdparm -Bと-Sを手動で設定して、ヘッドの飛行とアンロードのバランスを取ってるし、NASは地下に置いてるから温度も涼しいんだ。もう一つのドライブが故障して新しいNASが手に入ることを期待してるけど、まだその運は来てないな :-(

「使えるまで使う」ライフスタイル、めっちゃいいよね。俺のNASはもう7年使ってるけど、アップグレードする予定は全然ないよ!

それってBackblazeと比べて高使用率なの?10年のヘッドフライングは各ヘッドごと?実際に読み書きしてるヘッドのためなのか、それとも回転してるドライブや浮いてるヘッドのためなのか?チャートはざっと見ただけだけど、時間や年数を測ってるだけで、ドライブの使用状況を測ってるわけじゃなさそうだった。

俺は2017年に自宅用のNASを作ったんだけど、最初の2つのドライブは不良ブロックが出て交換した(それぞれ4年と5年で)。拡張した2つのドライブ(2018年、2021年)はまだ問題ないよ。クライアントのために作ったNASは、今22台のドライブが入ってて(年々少しずつ増えてる)、2018年からはたったの3台しか故障してないんだ。

一度FreeNASを作ったら、結婚式の写真を全部失っちゃった。相手は全然笑えなくて、バックアップをたくさん取ることを誓ったよ。NetGearからQnap、Synologyまで、古いNASをたくさん持ってる。仕事の特権だね。でも最近は、Synology DS2412をSHR RAID6構成で使ってる。今のところ12台のドライブのうち1台だけが故障したけど、たぶんほとんどの時間電源オフにしてWakeOnLanで起動してるからだと思う。普段は古いノートパソコンに2つのSATA 1TBディスクをDebian構成で使ってる。ドキュメントや写真は頻繁に大きなNASにバックアップしてて、その大きなNASはHyperbackupを使ってHetznerのストレージにバックアップしてる。月に約5ドルかかるかな。だから今は3つのシステム、2つの異なるメディア、1つの別の場所に保存されてる。家が燃えたら復元するのは大変だけど、なんとかなるかな。それを考えると、復元プロセスをどこかに記録しておくべきだね。今は他の家族がこれをうまくできるとは思えないし。

最近、電源切った?中には一度電源を切ったら二度と起動しないやつもいるからね。

価格を予測する時、消費者向けハードドライブの寿命は5年くらいだと思ってる。Backblazeのデータと購入傾向を見てると、エンタープライズクラスのドライブは、もし9年くらい持つならその分の価格差を埋めるかもしれないなって思う。TBあたり20%の追加コストで、寿命は30%以上長いんだから。消費電力も少し多いし、音も大きいけどね。ドライブが長持ちする理由についてもっとデータがあればいいのに。もしパレットでの購入が影響してるなら、どうしようもないけど、エンタープライズドライブがNASや一般消費者向けドライブよりずっと優れてるなら、コスト面で比較できるよね。

「問題はバスタブ曲線が間違っていることではなく、不完全であることだ。」そうだね。バスタブ曲線は簡略化されたモデルで「間違ってる」部分もあるけど、故障までの時間に関しては非常に役立つ概念だよ(いくつかの大きな注意点があるけど)。製造された多くのものに広く適用できる。光速に近づくとニュートン物理学が崩れるように、ファームウェアを導入したり、ユニット間に依存関係を作るとバスタブ曲線も崩れるんだ。この記事でも言及されてるけど、細かいことを言うのは嫌だけど、バスタブ曲線は今でも有用な構造で、ちゃんと使えばいいんだよ。

医療試験で見るようなグラフが見たいな。x軸に時間、y軸に生存率の%を取って。ドライブを購入年ごとにグループ分けして、異なる年のラインを複数描ければ面白いと思う。

ふと思ったんだけど、ハードドライブって最大で何枚のプラッタがあるんだろう?調べてみたら、Western DigitalのUltrastar® DC HC690が3.5インチのフォームファクターで11枚のプラッタを持ってるみたい。これなら帯域幅はかなり増えるけど、シークタイムにはあんまり影響しないよね(半割り割り当てのトリックを使わない限り)。

これとはちょっと違う話だけど、長期的に写真を保存する方法について考えてるんだ(クラウドは除外ね)。HDDがまだ一番いい解決策っぽいけど、どれくらいの頻度で書き換えればいいのか分からない。

好きな写真を印刷してアルバムに入れたり、壁に飾ったりするといいよ。家族の中でそんな写真がどれだけあるか考えてみて。ほかの写真はみんな壊れたスマホやパソコンの中で消えちゃってるのに。

M-DISC。サイズあたりの値段は高いけど、(プライベート用の)写真にはあんまり関係ないよね。

ハードドライブはどんどん良くなってるけど、それと同じくらい大事なのは、使い方やメンテナンスについて賢くなってきてるってことだね。