世界を動かす技術を、日本語で。

RAM不足は数年続く可能性がある

2026年4月19日原文(theverge.com)

概要

  • DRAM供給は2027年末までに需要の60%しか満たせない見通し
  • Samsung、SK Hynix、Micronの新工場稼働は2027年以降が中心
  • 2026~2027年に必要な生産増加率は12%、計画は7.5%にとどまる
  • 新工場は主にAI向けHBM生産を優先
  • 一般消費者向けDRAM不足による価格上昇が続く可能性

2027年まで続くDRAM不足の見通し

  • Nikkei Asia によると、 DRAM供給 は2027年末までに 需要の60% しか満たせない見込み
  • SK Group会長 は、 メモリ不足 が2030年まで続く可能性を指摘
  • Samsung、SK Hynix、Micron など大手メーカーは新工場建設中
    • ただし、 新規生産能力 の本格稼働は2027年~2028年が中心
    • 2026年に増産されるのはSK Hynixの Cheongju工場 のみ

生産能力拡大と需要ギャップ

  • Nikkei は、2026年と2027年に 年12%の生産増加 が必要と試算
  • Counterpoint Research によると、計画されている増産率は 年7.5% にとどまる
  • 増産ペースが 需要増加 に追いつかない現状

HBM優先と消費者向けDRAMへの影響

  • 新設工場の多くは AIデータセンター向けHBM 生産を優先
  • 汎用DRAM (PCやスマートフォン向け)の供給改善は不透明
  • RAM不足 による価格上昇が
    • スマートフォン
    • ノートPC
    • VRヘッドセット
    • ポータブルゲーム機 など幅広い消費者製品に波及

今後の展望

  • メモリ市場 は引き続き 供給不足価格高騰 が予想される
  • AI需要拡大 が生産リソースを圧迫
  • 消費者向け電子機器 への影響が長期化する可能性

Hackerたちの意見

記事が26日前に発表されたGoogleのTurboQuantについて全く触れてないのがちょっと驚きだな。TurboQuantはKVキャッシュのメモリ使用量を6倍削減し、速度も最大8倍向上させるから、これがllama.cppにすでに反映されてて、もっと大きなコンテキストを使えるようになってるんだよね。小さいモデルを使わなくてもメモリに収められるってわけ。中にはRAMの状況がかなり改善されると思ってる人もいるけど、俺はちょっと懐疑的かな。需要は多分、TurboQuantの効果を上回ってると思う。

メモリはまだたくさん使えるけど、もっと色々詰め込めるって感じだから、今の市場の大物たちは簡単には手放さないと思うよ。

モデルをメモリに保持する必要があるからね。例えば16GBのRAMがあっても、そんなに大きなメリットはないよ。

結局、同じことを達成するためにメモリ使用量が減るわけじゃないよ。今のメモリ量でより多くのことをするって感じ。企業は提供するサービスのコンテキストウィンドウを広げて、それを使う人も増える。これがメモリの未来の悲しい現実だね。

ところで、いくつか訂正があるよ。TurboQuantの論文は2025年4月にArxivに提出されたんだ: https://arxiv.org/abs/2504.19874 現在の「TurboQuant」実装は圧縮率が約3.8倍から4.9倍で(高い方はGSM8Kのパフォーマンスにかなりの影響が出る)、ベースラインの速度は約80-100%(改善なし、逆行)だよ: https://github.com/vllm-project/vllm/pull/38479 注意してない人には、これとvLLMの進行中の議論を送る価値があるかもね: https://github.com/vllm-project/vllm/issues/38171 それとllama.cppも。TurboQuantは悪くないけど、魔法の弾丸ではないよ。個人的にはDMSを試していて、こっちの方がもっと可能性があると思ってるし、いろんな量子化スキームと組み合わせられると思う。kvcacheの最大の節約は、改善されたモデルアーキテクチャにあるね。Gemma 4のSWA/globalハイブリッドは最大10倍のkvcacheを節約できるし、MLA/DSA(後者はグローバルアテンションの計算を助ける)も同様だし、線形やSSMレイヤーを使うとさらに節約できる。ただ、これらはメモリの需要を減らすわけではない(ジェボンズの逆説など)。今のところ、私のコーディングツールでは、月に約10-15Bのキャッシュトークンを使ってる(数ヶ月前は5-8Bだった)。多分、私は平均より上だと思うけど、特に変なことをしているとは思ってないし、今年はメインストリームの開発者やエージェントが増えているから、消費したいトークンの数に本当に限界はないと思う。

ローカルモデルにかけられている作業は、確実に助けになる低RAM/VRAMをターゲットにしているみたいだね。例えば、Gemma 4の32Bは、オフ-the-shelfのノートパソコンで動かせるけど、2年前のSOTAモデル(例えばgpt-4o)と同じかそれ以上の知能レベルだよ。メモリ価格が下がる頃には、ローカルで動かせるOpus 4.7のような賢いものが出てくるかもしれないね。もちろん、大きなモデルはもっと多くの埋め込まれた知識を持っているけど、ウェブ検索をするためにツールコールをするべきだと知っているだけで、かなりの部分をバイパスできるんだ。

それは、モデルが以前は実現できなかったシナリオで使えるようになるので、RAMの需要をさらに増加させるだけだよ。そして、モデルとコンテキストサイズの上限は今のところ見えないね。ジェボンズの逆説を持ち出すのは嫌だけど、今やそれはクリシェになっているから、まさに教科書のようなシナリオだよ。

TurboQuantは業界全体で最先端ではないことが知られているよ。すべてのビットレートでKV量子化のための優れたスキームがあるからね。例えば、SpectralQuant: https://github.com/Dynamis-Labs/spectralquant など、たくさんの論文があるよ。> 「TurboQuantはKVキャッシュのメモリ使用量を6倍削減する」って言われてるけど、すべてはベースライン次第だよ。「6倍」はBF16 KVキャッシュと比較したスタイル的なもので、最先端の8ビットや4ビットのKVキャッシュスキームではないからね。

最適化の時代がついに来たね。ワクワクする!

中国が台湾に侵攻するまで待ってみて…(まあ、そんなに可能性は高くないけど、もしそうなったら?)

OS開発者はもっと最適化に力を入れるべきだって、何年も言ってきた。もしチップ不足がなければ、チップのスケーリングの進展が遅いのが問題だっただろう。でもソフトウェアの最適化はすべてのハードウェアに役立つし、それが売上を伸ばすわけじゃない。Linuxはその点、心配しなくていいけどね。もしかしたら、Haiku OSの時代が来るのかも。BeOSの霊が蘇るかも!

疑問に思ってるんだけど、俺が使ってるアプリは、a) 最適化する意欲がないくらいロックインされてるか、b) 最適化するためのリソースが足りないかのどっちかなんだよね。要するに、できる最適化ってのは、重いツールを捨てて軽いのに切り替えることくらいで、他の人も同じことをしてくれれば、軽いツールの資金や開発リソースが助けられるかなって思ってる。

Hacker Newsで議論の続きを見る