HNに聞く: GPT-4をローカルで動かせないのに、ChatGPTはどのように7億人のユーザーに対応できるのか?

2025年8月9日

概要

ChatGPTは 7億人規模の週次ユーザー に対応。個人環境では GPT-4クラスのモデル を高速・省リソースで動かすのは困難。大規模サービスでは GPUクラスタ だけでなく多様な 最適化技術 を活用。低遅延・高スループットを両立するための工夫について解説。大規模MLシステム構築経験者の視点を反映。

大規模LLMサービス運用の技術的工夫

モデル圧縮・最適化
- 量子化や蒸留による モデルサイズ削減
- 推論専用の最小限ネットワーク 設計
- 重み共有やパラメータ効率化技術の活用
分散推論・シャーディング
- モデル並列化 による巨大モデルの分割処理
- データ並列化 で複数GPU/サーバーに負荷分散
- シャーディングで 部分的な重みのみロード し、メモリ効率向上
カスタムハードウェア
- NVIDIA H100 など最新GPUの大規模導入
- TPU やFPGAなど専用アクセラレータの活用
- 高速ネットワーク（InfiniBand等）で ノード間通信最適化
バッチ推論・リクエスト集約
- 複数ユーザーのリクエストを バッチ化し同時推論
- GPU占有効率 向上と待ち時間削減
- 適切なバッチサイズで 遅延とスループットのバランス調整
キャッシュとレスポンス最適化
- 頻出プロンプトや出力のキャッシュ
- レスポンス生成の 一部再利用 による高速化
ロードバランシングとオートスケーリング
- トラフィック分散 と障害時の自動リカバリ
- 需要変動に応じた リソース自動調整
ソフトウェア・インフラ最適化
- CUDA/ROCmレベルでのチューニング
- 推論エンジン（TensorRT, ONNX Runtime等）の 最適化
- API Gateway やEdgeサーバーでの負荷分散

個人環境と大規模サービスの違い

GPU規模とネットワーク
- 個人環境は VRAMや帯域の制約 が大きい
- サービス側は 数万GPU規模のクラスタ を運用
推論効率化技術の有無
- 個人利用は フルモデル推論 が基本
- サービス側は 圧縮・並列・バッチ など多層的な最適化
コストとスケーラビリティ
- 個人では コスト効率重視 で妥協が必要
- サービスは 高コストでも最大効率・信頼性重視

実際の運用現場での知見

障害時の自動切替・冗長化
- サービス停止を防ぐ 多重冗長構成
継続的な最適化と監視
- パフォーマンス監視 とリアルタイム最適化の自動化
新技術の迅速導入
- ソフトウェア・ハードウェア両面 での技術刷新サイクルの短縮

これらの工夫により、 ChatGPTのような大規模LLMサービス は、莫大なユーザー数・高負荷・低遅延という要求を満たしながら稼働。個人環境との差は、 単なるGPU数の違い 以上に、 多層的な最適化と運用ノウハウ の蓄積にある。

Hackerたちの意見

私は毎日Googleでこれらのシステムに関わっているんだけど（これはあくまで私の意見で、雇用主の意見じゃないよ）。だから、問題のあらゆる側面について真剣に考えている賢い人たちがいるってことは言えるけど、それ以上のことはあまり言えないかな。ただ、同僚が書いたこれをシェアできるよ！アクセラレータアーキテクチャや、物事を速くするために考慮されていることについての素晴らしい説明があるよ。https://jax-ml.github.io/scaling-book/ 特に、君の質問は推論に関するもので、これはこの章の焦点だよ。https://jax-ml.github.io/scaling-book/inference/ 編集: もう一つの素晴らしいリソースはunslothのガイドだよ。彼らは様々なモデルに深く入り込んで最適化を見つけるのが本当に上手で、書き方もすごくいいんだ。Gemma 3nのガイドがここにあるし、他にも色々あるよ。https://docs.unsloth.ai/basics/gemma-3n-how-to-run-and-fine-...

└

Googleには自社のモデルの推論を、NVIDIAカードを借りるよりもずっと利益の出るTPUがあるんじゃないの？OpenAIは、主にMicrosoftとの関係やパートナーシップに依存してGPUを使って推論してるんじゃないかな？リンクありがとう、面白い本だね！

└

gemma 3nのunslothガイドに「> llama.cppや他の推論エンジンは自動で-を追加する。2つのトークンを追加しないで！」って書いてあるのはどういうこと？モデルをプロンプトする時は無視すべきだって？それを試したくなるのは何でだろう？変だね。

└

もう一つの素晴らしいリソースは、unslothガイドです。それと、LMSysの人たちもね。https://lmsys.org/blog/ Large Model Systems (LMSYS Corp.)は、オープンソースプロジェクトや研究を育成する501(c)(3)の非営利団体です。私たちのミッションは、大規模なAIモデルを誰でも利用できるようにすること。オープンモデル、データセット、システム、評価ツールを共同開発しています。最先端の機械学習研究を行い、オープンソースソフトウェアを開発し、広くアクセス可能な大規模な言語モデルをトレーニングし、トレーニングと推論を最適化するための分散システムを構築しています。

└

同じ説明だけど、もう少し神秘的じゃなくね：推論は（ほとんど）ステートレスなんだ。だから、100k台のマシンでメモリの整合性を保つ必要があるトレーニングとは違って、データを大きなマシンに小分けして送るだけでいい。彼らの推論マシンのスペックは知らないけど、私が働いてたところでは、研究用のマシンは全部8GPUのモンスターだった。モデルが（合計の）VRAMに収まれば、仕事はうまくいくよ。スケールするための秘密の材料は、工業的な金額の現金だった。確かにDGXもあったけど（面白い事実、NVIDIAは金メッキのDGXマシンを送ってきた）、密度は高くなくて、すごく高かった。ほとんどの大企業は堅牢なRPCとオーケストレーションを持っていて、メッセージのルーティングが難しいわけじゃなくて、持っているボックスにモデルを収めるのが大変なんだ。（でも、これは私の専門分野じゃないけどね）

└

だから、私は同時に、彼らが問題のあらゆる側面を本当に考えている賢い人たちだと言えるし、それ以上のことはあまり言えない。「1970年代のメインフレームスタイルのタイムシェアリングをやってる」ってね、これは簡単だった。

└

問題を解決する必要がないのに、すごく頭のいい人たちがたくさん働いているって、市場の配分の面白い側面だよね。

H100は2万ドルのカードで、80GBのvRAMを持ってるんだ。これを使った2Uラックサーバーを想像してみて、100万ドル分のカードが入ってるんだよ。さらに、これらのものがいっぱい詰まったラック全体や、他のコンポーネント（CPU、RAM、パッシブ冷却や水冷）も考えると、ラック1台あたり100万ドルになるんだ。運用コストやメンテナンスに必要なエンジニアの費用は含まれてないけどね。「安い」と言われるものでも、これらの計算ユニットの規模を理解してる人は少ないと思う。AIバブルが弾けると、良いローカルモデルを現実的に動かせるようになるんじゃないかな。10年後には、これらの100万ドルのサーバーがeBayで3000ドルになるかもしれないし、電気工事士が仮設のサーバールームやガレージに新しい240vコネクタを取り付けることになるかもね。

└

2Uラックに4つのH100はあまり印象的に聞こえなかったけど、正確だね：>一般的な1Uまたは2Uサーバーは、シャーシの設計に応じて2-4のH100 PCIe GPUを収容できる。>42Uのラックに20台の2Uサーバー（スイッチやPDUのスペースを考慮）を置くと、約40-80のH100 PCIe GPUを収容できる。

└

AIバブルが弾けなくても、10年後にそのサーバーがeBayに出品されるって予測は当たると思うよ。データセンターはハードウェアをアップグレードして、古いのを第三者に売るだけだから。

└

これに付け加えると、今の時代の企業レベルでは、「どうやって全ユーザーにサービスを提供するか」っていうよりも、投資家が最終的に投資回収が見込めると信じているかどうかが重要なんだよね。必要なインフラを手に入れるためには、いくらでも払うってこと。ジョブスケジューリングの最適化がなくても、必要なユーザーベースに応じて、必要なだけの倉庫を建てて、ラックを詰め込むだけさ。

└

10年後って何言ってるの？今ならeBayでDGX-1が1万ドル以下で買えるよ。256GBのvRAM（しかもHBM2だし）、NVLink対応、512GBのRAM、40コアのCPU、8TBのSSD、100GbitのHBA付き。Nvidiaブランドじゃない同等のマシンは約6千ドルだよ。重いし、信じられないくらい騒音がすごいし、1台で16Aの240V回路をほぼ使い切っちゃう。つまり、1時間あたり13,000 BTUの廃熱を出すってこと。

Hacker Newsで議論の続きを見る

ハクソク

HNに聞く: GPT-4をローカルで動かせないのに、ChatGPTはどのように7億人のユーザーに対応できるのか?

概要

大規模LLMサービス運用の技術的工夫

個人環境と大規模サービスの違い

実際の運用現場での知見

Hackerたちの意見