ハードドライブは進化しているのか？

2025年10月16日原文(backblaze.com)

概要

Backblaze のハードドライブ故障率データから、従来の「バスタブ曲線」理論に疑問を投げかけ
最新のデータでは、 ハードドライブの寿命と信頼性が大幅に向上
ドライブの導入・運用方法やデータセンター環境の変化が、故障率に影響
バスタブ曲線は「不完全」なモデルであり、現実の運用では多様な要因が絡む
Drive Statsデータセットは誰でも利用可能で、今後も定期的に分析を公開予定

バスタブ曲線の再検証：Backblazeのドライブ故障データから見える現実

バスタブ曲線 は、初期故障・安定期・老朽化故障という「U字型」の故障率推移を示す従来理論
Backblazeの 13年以上・数百万ドライブデータ では、実際の故障率推移はより複雑
- 初期故障の減少、安定期の延長、故障率ピークの後ろ倒し
最新（2025年Q2）のデータでは、 10年3ヶ月時点で4.25% が故障率ピーク
- 2013年（3年3ヶ月: 13.73%）、2021年（7年9ヶ月: 14.24%）と比較して大幅に改善
0～1年目の初期故障率も 1.30%未満 と極めて低い水準
年ごとのドライブ数増加・導入方式の変化も、全体の故障率推移に影響

データの背景と変化

2013年 ：3.5万台・100PB規模、主に「コンシューマー向け」ドライブを使用
- ドライブの外装を外して運用する「ドライブファーミング」も実施
2021年 ：20万台超、データセンター拡大・クラウドストレージサービス開始
- ドライブの大量一括購入・運用基準の変更
2025年 ：31万台超、より多様なモデル・運用手法
- 故障前に計画的にドライブを退役させるケースも増加

バスタブ曲線理論の限界と現実

バスタブ曲線は「時間」だけを軸にした 単純化モデル
- 実際は、 ワークロード・製造ばらつき・ファームウェア・運用環境 など多要素が影響
データセンターでは極力条件を揃えているが、完全な均一環境は不可能
現実の信頼性評価は「理論」と「実データ」の対話によって深まる

Drive Statsデータの今後と活用

ドライブ台数・多様性の増加 により、信頼性評価の精度が向上
バスタブ曲線の「故障率ピーク」は今後さらに後ろに移る可能性
Drive Statsの全データセットは Backblaze公式サイト で公開
- 誰でも分析・再現・独自研究が可能
定期的な 四半期レポート や関連コンテンツも随時公開

Drive Statsチーム紹介

Stephanie Doyle ：BackblazeのWriter/Blog Operations Specialist
- 複雑な技術トピックをわかりやすく解説
Pat Patterson ：Chief Technical Evangelist
- 技術者・開発者向けコンテンツ企画・発信

Backblaze Computer BackupとJamf Proの連携による顧客体験向上（2025年10月7日）
DevOps向け新ストレージソリューション（2025年10月2日）
クラウドネイティブ開発者のための専用ストレージレイヤー（2025年9月25日）

要点まとめ

バスタブ曲線は現実のデータセンター運用では「完全な説明モデル」ではない
ハードドライブの 寿命・信頼性は年々向上
Drive Statsデータは、信頼性評価や運用戦略の指針として今後も重要な役割

Hackerたちの意見

個人的な体験だけど、（慎重に）「はい」と言えるかな。WDのハードドライブを3台買ったんだけど（外付け1台、内蔵2台、どれも別の時期に購入）、そのうち2台がちょうど5年の保証期間が終わった後に壊れたんだよね（1ヶ月以内に）。1台は保証期間の数週間前に壊れたから、WDが交換してくれたんだ（そのおかげで、さらに5年使えるHDDをもらった）。これっていいエンジニアリングだよね！それに、今は10年以上使ってる古い500GBの外付けSeagateドライブもあって、これもまだ完璧に動いてるんだ。多分、例外的なケースだけどね。とはいえ、今のSeagate HDDで魅力的なのは、いくつかのモデルが保証期間内に無料でデータ復旧サービスを提供してること。データを失ったことがある人（バックアップを気にしなかったバカな私みたいな人）は、そのサービスがどれだけ高いか知ってるよね。

└

交換用のHDDがあれば、あと5年使えるんだけど、ドライブ購入からの保証は5年だけだよね？

└

HDDメーカーがデータ復旧サービスを提供するのは、なんとなく納得できるし、今までなかったのが意外だね。彼らは他の誰よりもデータを復旧するのに適した立場にいるから。

└

何年もWDのドライブを買ってきたけど、私の経験では、昔は3年持って（3年保証の時代ね）、保証が切れた途端に壊れた。Western Digitalは、保証期間いっぱいまではしっかり持たせるけど、それ以上は持たないって感じだね。

このデータをドライブの製造日でまとめたらどうなるのか気になるな。年齢だけじゃなくて、3Dで追加して見るのも面白いかも。これを「主要な」見方にはしたくないけど、興味深い点が出てくるかもしれない。もしかしたら、どこかのメーカーが質の悪いグリースを大量に使ったのかも？ちょっと質の悪い磁石？質の悪いシリコン？数ヶ月のハードドライブの製造で、ちょっと信頼性が落ちる原因はいろいろ考えられるよね…（それに、「累積電源オン時間、時間:分 37451*:12、2014年の27週目に製造」— これ、交換した方がいいかも :D — * 16ビットでオーバーフローしたと思うし、ほぼ連続で電源入れてたから、65536を足すと11.7年になるね。）

└

こういうデータを見るときは、統計の帽子をかぶるのが役立つと思う。観測された値といくつかの利用可能な共変量があって、それが観測されたばらつきを説明するのに役立つかもしれない。正当なばらつきの原因（例えば、NFSボックスの冷却に近いかどうか、ハードドライブが子供の頃に落とされたかどうか、宇宙線の影響など）は私たちには隠れているけど、すべてのばらつきを完全に説明することはできない。でも、もっと多くの事例で平均を取ると、説明できないばらつきは、利用可能な共変量を考慮した上での説明の残差として捉えられる。平均を取ることでデータに対するローパスフィルターのような役割を果たし、有意義なトレンドを明らかにするんだ。一方で、データを3つに分けてしまうと、見えるのは説明できないばらつきだけで、すべてのポイントがユニークになっちゃう。ここでPCAが役立つんだ。共変量のセットを考慮して、どの変数の組み合わせがばらつきを最もよく説明するか、残差がどれだけ残るかを見ていく。残差が多いなら、他の共変量を探すべきだし、残差が少ないなら、気にせず既知の主要な軸を最適化すればいい。

└

そうだね。8年目のトラブルは、8年前の製造不良を反映してるのかな？

└

同意。こういう分析は、コホート年でグループ化すると効果的だよね。分析の標準的なやり方だし。

└

ここ数年、複数の業者から材料を買うプロジェクトを副業でやってるんだ。数量が1:1にならないから、最初の注文の材料と新しい業者からの材料を混ぜて使うことがある。それぞれのアイテムにはバッチ番号があって、最終製品に使うと自分のところでバッチ番号がつく。自分の製品の材料のバッチ番号と自分のバッチ番号を記録してる。ソロでやってるから大変だけど、オタクな私はその手間をかけるんだ。ドライブの製造元も、どの業者から来たマグネットやグリース、シリコンのバッチを知ってると思う。こういう記録をフォレンジック調査に使うことがないことを願ってるけど、一度必要になると大きな違いが出るよね。私がやってるような製品を作ってる人たちが、私の話を聞いて首をかしげて、目を大きくしてまるで異星の言語を話してるみたいに見えるのが面白い。

└

うん、これは製造環境ではかなり標準的だよ。複雑な商品の生産には、材料の構成やロット、シリアル番号レベルまで追跡されてる。

└

（ちょっと陰謀論的なこと言うけど）Backblazeが意図的にデータを隠したり曖昧にしてると思ってる。そうしないと、Seagateが残りの3つのドライブメーカーの中で常に最悪だってことが簡単に理解できちゃうから。彼らのオンラインでの悪名は、タイの洪水でスピンドルモーターのクリーンルームが汚染された後に始まったんだ。洪水後のST3000DM001がすぐに故障したことで、Backblazeの統計追跡が認知されるきっかけになったんだろうね。でも、同じ問題に影響されたモデルを除いても、Seagateのドライブは常に実際のMTBFが短かった。Backblazeや誰かが自分たちのブランドを傷つけるのは得策じゃないから、明らかな数字を省くようにデータ処理を調整してるんじゃないかな。

└

そのドライブはそろそろ静かな引退を迎えてもいい頃じゃない？

Hacker Newsで議論の続きを見る

ハクソク