CerebrasがQwen3-235Bを発表、1.5kトークン毎秒を達成

291日前原文(cerebras.ai)

概要

Cerebras Systems が Qwen3-235B モデルを Inference Cloud で提供開始
従来比30倍の速度 ・ 1/10コスト でのコード生成と推論を実現
131Kトークンの文脈長 で大規模コードベースへの対応強化
Cline との提携で VS Code ユーザー向け機能を拡充
企業向け生成AI市場 での競争力を大幅に向上

Cerebras Inference CloudにおけるQwen3-235Bの提供開始

Qwen3-235B が Cerebras Inference Cloud で利用可能化
131Kトークンの文脈長 に完全対応したフロンティアAIモデル
生産グレードのコード生成 を従来比30倍の速度、1/10のコストで実現
エンタープライズAI導入 の新たな選択肢

フロンティア知能の実現

AlibabaのQwen3-235B は Claude 4 Sonnet、 Gemini 2.5 Flash、 DeepSeek R1 に匹敵する知能を発揮
独立機関 Artificial Analysis によるベンチマークで高評価
Mixture-of-Experts アーキテクチャによる高効率推論
入力100万トークンあたり$0.60、 出力100万トークンあたり$1.20 で提供
クローズドソースモデルの1/10以下の費用 で利用可能

推論速度の革新

Wafer Scale Engine の活用で 1,500トークン/秒 の推論速度を実現
従来1-2分かかっていた応答時間 を 約0.6秒 に短縮
コーディング・推論・Deep-RAGワークフロー をほぼリアルタイムで実行
世界唯一 の 1,000トークン/秒超え フロンティアAIモデル

131Kコンテキストによる生産グレードのコード生成

文脈長32K→131Kトークン へ4倍拡張
大規模コードベース や 複雑な文書 への対応力を強化
- 32Kでは単純なコード生成に限定
- 131Kでは 数十ファイル・数万行の同時処理 が可能
生成AI最大級市場 であるエンタープライズコード生成分野への本格参入

Clineとの戦略的パートナーシップ

Cline は Microsoft VS Code 向けのエージェンティックコーディングエージェント
180万インストール を突破した人気ツール
Clineユーザー は Qwen3-32B（64K文脈長） を無料枠で利用可能
今後 Qwen3-235B（131K文脈長） への展開を予定
DeepSeek R1 等と比較し 10～20倍高速 なコード生成を実現
Cline CEO Saoud Rizwanによる「 開発者の思考速度に追従するAI」への期待

フロンティア知能を30倍の速度・1/10のコストで

OpenAI や Anthropic のクローズドソースに対抗する オープンな選択肢
1,500トークン/秒超 の即時推論で 開発者生産性を10倍向上
GPUソリューション を凌駕するパフォーマンス
リーディングクローズドモデルの1/10コスト で提供

Cerebras Systemsについて

Cerebras Systems は AIスーパーコンピュータ のリーダー企業
CS-3システム は 世界最大・最速のAIプロセッサ （Wafer-Scale Engine-3）を搭載
クラスタ構成 で 超大規模AIスーパーコンピュータ を実現
分散コンピューティングの複雑さを排除 し、モデルの配置が容易
Cerebras Inference は 画期的な推論速度 で先端AIアプリケーションを支援
大手企業・研究機関・政府機関 での採用実績
Cerebras Cloud および オンプレミス で利用可能
詳細は cerebras.ai、 LinkedIn、 X、 Threads で情報発信

Hackerたちの意見

昨日発表された最新のQwen 3 405Bがサポートされるといいな。エージェント的な作業やコーディングにもっと特化したものが欲しい。

このニュース、ちょっと「古い」みたいだね。7月8日の情報だし、昨日のQwen 3コーダー405Bのリリースと混同してるかも。スペックが違うのに。

└

最初はこれが2日前のQwenリリース、Qwen3-235B-A22B-Instruct-2507についてだと思ったんだけど、これは推論なしのモデルで、Cerebrasの発表は推論について話してるから、これは4月のQwenのQwen3-235B-A22Bだって気づいたよ。（このモデル名、ほんと混乱するよね。）

Qwen 3コーダーがCerebrasで使えるのを楽しみにしてるよ。エージェントループをたくさん回してるけど、スピードが時間の「圧縮」に面白い差を生んでる。Claude 4 Sonnetレベルのモデルが1000-1500トークン/秒で動いたら、めっちゃすごいと思う。スピードを実感したいなら、Cerebrasの推論ページで自分で試すか、APIを使ったり、MistralやLe Chatの「Flash Answers」（Cerebrasが提供）で試してみて。1000トークン/秒でコードを反復するのは、さらに魔法のような感覚になるよ。

└

同感だね。ただ、CerebrasはまずAPIをもっとOpenAIに準拠させる必要があると思う。既存のモデルをいくつかのコーディングエージェント（Clineも含めて）で試したけど、400エラーが出たり、ツールコールのフォーマットが正しくなかったりで、全部ダメだった。すごくがっかり。

└

先日Kimi K2でGroqをセットアップしたんだけど、スピードに驚いたよ。Qwen 3とCerebrasに切り替えるべきか考え中。（余談だけど、名前がStarcraftのcerebratesを思い出させる。幼い頃、Zergの指揮階層のストーリーが面白かったな。）

└

これがプログラミング言語のコンパイル時間にもっとプレッシャーをかけるといいね。エージェント的なLLMが十分に速くなって、コンパイル時間が開発プロセスの主な障害になると、コンパイラの性能向上に対する経済的インセンティブが大きくなるだろうね。

└

その通りだね。このスピードがあれば効率がめっちゃ上がるのが見えるよ。エージェントを待ってると、毎回集中力と文脈が失われちゃうんだ。並行してエージェントを動かすとスピードは上がるけど、集中力が犠牲になる。Cursorでのほぼ瞬時の反復ループは魔法みたいに感じるだろうね（もっと魔法っぽいかも）。これが仕事の仕方にも影響するだろうし、CursorみたいなインタラクティブなIDEの方が、ほぼ瞬時に答えが出るから、Claude codeみたいなCLIツールよりも意味があるかも。

Cerebrasは、シリコンバレーがここ10年ほどで生み出した中で、ほんとにすごい技術的成果の一つだよ。7、8年前にアンディに会った時、何かを吸ってるんじゃないかと思ったくらい。直径がディナープレートサイズで、6トンのクランプ力のチップ？それを実現したんだ。振り返ってみると、彼らのやったことはすごく先見の明があったね。

└

コンセプトはめっちゃクールだけど、実際にNvidiaの代わりに使ってる人いるの？

└

ウェハスケール統合は数十年前にやってたことだよ。

└

いや、これはHPCと生のフロップス用に設計されたんだ。LLMの推論にはメモリ帯域幅が必要だよね。

└

古いアイデアの現代版だね。最初に見たのは、ウェハースケールのアナログニューラルネットワークに関するヨーロッパの研究だった。探しているときに別のプロジェクトも見つけたから、両方共有するね。 https://www.kip.uni-heidelberg.de/Veroeffentlichungen/downlo... https://archive.ll.mit.edu/publications/journal/pdf/vol02_no... 2つ目の特許は1989年のものだから、もうとっくに切れてるはず。

これが完全なfp16量子化なら、131kのコンテキストをフルに使うには2TBのメモリが必要だよ。Cerebrasのチップごとに44GBのSRAMがあるから、45個のチップをつなげる必要がある。チップ1つあたり300万ドル、合計1億3500万ドルかかる。比較すると、8つのB200ブラックウェルチップと1.4TBのメモリを搭載したDGX B200が約50万ドルで買える。2台あれば2.8TBのメモリが手に入るから、これには十分だね。つまり、モデルを動かすのに100万ドル対1億3500万ドルってこと。超高速の推論速度が必要な超高価値のタスクがない限り、あまりスケールしないよね。ヘッジファンドとか金融市場の何かかも？ちなみに、AIブームの始まりにいると思う理由は、1500トークン/秒でClaude Opus 4（それ以上でも）と同じくらいのモデルを安価で動かせたら、何ができるか想像できないから。まだ数世代のハードウェアが必要だと思う。

└

ほとんどの人はオープンモデルでLLM推論をfp8で動かしてるよね。fp8未満になるとパフォーマンスが落ちるのが見える。

└

モデル全体がSRAMに入ってる必要があるって思ってるの？

└

Cerebrasチップごとに44GBのSRAMがあるから、45個のチップを繋げる必要があるね。チップ1個あたり300万ドル。合計で1億3500万ドルかかるってこと。Cerebrasではそんなやり方しないよ。44GBはSRAMだから、オンチップメモリであって、ほとんどのパラメータを保存するHBMメモリではない。参考までに、1つのGB200はSRAMが126MBしかないから、L2キャッシュサイズだけ見て2TBモデルに必要なGB200の数を推測しようとしたら、16k GB200、つまり約6億ドルになるけど、明らかに全然違う。CerebrasはNvidiaとは異なるアーキテクチャを使っていて、HBMはチップと直接パッケージされてなくて、別のシステムで処理されるから、メモリと計算を別々にスケールできるんだ。具体的には、MemoryXみたいなものを使ってHBMとして機能させることができて、チップのSRAMに高速で接続されるんだ。私はCerebrasの専門家じゃないけど、確か2PBのメモリを1つのCerebrasチップに接続できるはずだから、FP16モデルの約1000倍だね。

└

つまり、最新のハイエンドLLMツールで、約1500トークンを1秒で生成するには、ハードウェアに約50万ドル必要ってこと？確認してみると、Anthropicは100万出力トークンあたり70ドル請求してる。1500トークン/秒だと、1秒あたり約10セント、1日あたり約8000ドルになるね。50万ドルってのは妥当な感じだね、間違ってなければだけど。

└

モデルを静的fp16で推論する理由はないよ。現代の量子化フォーマットは、必要なレイヤーに動的に精度を割り当てるから、平均6bpwはフル精度からほとんど気づかれないし、もし本当に最後の一滴まで絞りたいなら8bpwでもいいけど（検出される可能性は低いけど）。それは大きなメモリの節約になるよ。

└

「Cerebrasチップごとに44GBのSRAMがあるから、45個のチップをつなげる必要がある。チップ1つあたり300万ドル。合計で1億3500万ドルかかる。オンチップのSRAMメモリは一時的な作業用メモリで、モデルの重み全体を保持する必要はない。このCerebrasチップはスパースウェイト表現で動作し、外部メモリサーバーから非ゼロのデータをストリーミングして、コアはトランスポートトリガーされたデータフロー方式で動作する。」

これは（少し）古いニュースで、7月8日のもので、Qwen 3コーダーの影響で再浮上したんだ。このスレッドの要点は完全に「Qwen 3コーダーにも同じことをやってほしい」ってことだと思う。みんなが期待してるのは、a) Sonnet 3の実行可能な代替 b) 特にもっと速くて安い代替

すごいスピードだね。ちょっと話がそれるけど、QwenやKimiなんかについての現在の評価はどうなってるの？元の国で許可されていないナラティブに関する検閲やバイアスについては。

└

Qwenモデルは、噂によると、オープンウェイトモデルの中ではおそらく最高のものだよ、特にMoEモデルはね。さらに、噂によると、すごく怖いくらい検閲されてる。例えば「天安門広場で何か面白いことがあった？」って聞いて、「目立った抗議は？」と絞り込んで、「タンクに関係する何かかも…」って聞くと、広場が美しい場所で豊かな歴史を持ってるっていう曖昧な言及しか返ってこない。

量子化されたバージョンで私を騙さないでほしい！

「フル131k」コンテキスト、実際にはフルコンテキストはそれの2倍で262144コンテキストだし、8倍のヤーンマルチプライヤーを使うと200万までいけるみたい。フルチップスケールのCerebrasでもコンテキストの長さに苦労してるみたいだね。これはトランスフォーマーアーキテクチャ自体の制限で、メモリ要件はほぼ線形に、計算要件はkvキャッシュの増加に伴っておおよそ二次的にスケールするから。とにかく、フルコンテキストのCerebrasを提供してるわけじゃない、半分しか提供してないよ。それに、具体的に何の量子化なの？顧客は知ることができるの？

前に彼らの営業チームに連絡したことがあるんだけど、その時はCerebrasが月1500ドルからスタートで、制限がめっちゃ小さかったんだよね。今は良くなったのかな？編集: どうやら良くなったみたい。両方とも従量課金制を導入したし、プリペイドの制限も1500ドルであるみたい。従量課金制の並列実行に制限があるか気になるな…

ハクソク