世界を動かす技術を、日本語で。

CerebrasがQwen3-235Bを発表、1.5kトークン毎秒を達成

2025年7月23日原文(cerebras.ai)

概要

  • Cerebras SystemsQwen3-235B モデルを Inference Cloud で提供開始
  • 従来比30倍の速度1/10コスト でのコード生成と推論を実現
  • 131Kトークンの文脈長 で大規模コードベースへの対応強化
  • Cline との提携で VS Code ユーザー向け機能を拡充
  • 企業向け生成AI市場 での競争力を大幅に向上

Cerebras Inference CloudにおけるQwen3-235Bの提供開始

  • Qwen3-235BCerebras Inference Cloud で利用可能化
  • 131Kトークンの文脈長 に完全対応したフロンティアAIモデル
  • 生産グレードのコード生成 を従来比30倍の速度、1/10のコストで実現
  • エンタープライズAI導入 の新たな選択肢

フロンティア知能の実現

  • AlibabaのQwen3-235BClaude 4 SonnetGemini 2.5 FlashDeepSeek R1 に匹敵する知能を発揮
  • 独立機関 Artificial Analysis によるベンチマークで高評価
  • Mixture-of-Experts アーキテクチャによる高効率推論
  • 入力100万トークンあたり$0.60出力100万トークンあたり$1.20 で提供
  • クローズドソースモデルの1/10以下の費用 で利用可能

推論速度の革新

  • Wafer Scale Engine の活用で 1,500トークン/秒 の推論速度を実現
  • 従来1-2分かかっていた応答時間約0.6秒 に短縮
  • コーディング・推論・Deep-RAGワークフロー をほぼリアルタイムで実行
  • 世界唯一1,000トークン/秒超え フロンティアAIモデル

131Kコンテキストによる生産グレードのコード生成

  • 文脈長32K→131Kトークン へ4倍拡張
  • 大規模コードベース複雑な文書 への対応力を強化
    • 32Kでは単純なコード生成に限定
    • 131Kでは 数十ファイル・数万行の同時処理 が可能
  • 生成AI最大級市場 であるエンタープライズコード生成分野への本格参入

Clineとの戦略的パートナーシップ

  • ClineMicrosoft VS Code 向けのエージェンティックコーディングエージェント
  • 180万インストール を突破した人気ツール
  • ClineユーザーQwen3-32B(64K文脈長) を無料枠で利用可能
  • 今後 Qwen3-235B(131K文脈長) への展開を予定
  • DeepSeek R1 等と比較し 10~20倍高速 なコード生成を実現
  • Cline CEO Saoud Rizwanによる「 開発者の思考速度に追従するAI」への期待

フロンティア知能を30倍の速度・1/10のコストで

  • OpenAIAnthropic のクローズドソースに対抗する オープンな選択肢
  • 1,500トークン/秒超 の即時推論で 開発者生産性を10倍向上
  • GPUソリューション を凌駕するパフォーマンス
  • リーディングクローズドモデルの1/10コスト で提供

Cerebras Systemsについて

  • Cerebras SystemsAIスーパーコンピュータ のリーダー企業
  • CS-3システム世界最大・最速のAIプロセッサ (Wafer-Scale Engine-3)を搭載
  • クラスタ構成超大規模AIスーパーコンピュータ を実現
  • 分散コンピューティングの複雑さを排除 し、モデルの配置が容易
  • Cerebras Inference画期的な推論速度 で先端AIアプリケーションを支援
  • 大手企業・研究機関・政府機関 での採用実績
  • Cerebras Cloud および オンプレミス で利用可能
  • 詳細は cerebras.aiLinkedInXThreads で情報発信

Hackerたちの意見

昨日発表された最新のQwen 3 405Bがサポートされるといいな。エージェント的な作業やコーディングにもっと特化したものが欲しい。

このニュース、ちょっと「古い」みたいだね。7月8日の情報だし、昨日のQwen 3コーダー405Bのリリースと混同してるかも。スペックが違うのに。

最初はこれが2日前のQwenリリース、Qwen3-235B-A22B-Instruct-2507についてだと思ったんだけど、これは推論なしのモデルで、Cerebrasの発表は推論について話してるから、これは4月のQwenのQwen3-235B-A22Bだって気づいたよ。(このモデル名、ほんと混乱するよね。)

Qwen 3コーダーがCerebrasで使えるのを楽しみにしてるよ。エージェントループをたくさん回してるけど、スピードが時間の「圧縮」に面白い差を生んでる。Claude 4 Sonnetレベルのモデルが1000-1500トークン/秒で動いたら、めっちゃすごいと思う。スピードを実感したいなら、Cerebrasの推論ページで自分で試すか、APIを使ったり、MistralやLe Chatの「Flash Answers」(Cerebrasが提供)で試してみて。1000トークン/秒でコードを反復するのは、さらに魔法のような感覚になるよ。

同感だね。ただ、CerebrasはまずAPIをもっとOpenAIに準拠させる必要があると思う。既存のモデルをいくつかのコーディングエージェント(Clineも含めて)で試したけど、400エラーが出たり、ツールコールのフォーマットが正しくなかったりで、全部ダメだった。すごくがっかり。

先日Kimi K2でGroqをセットアップしたんだけど、スピードに驚いたよ。Qwen 3とCerebrasに切り替えるべきか考え中。(余談だけど、名前がStarcraftのcerebratesを思い出させる。幼い頃、Zergの指揮階層のストーリーが面白かったな。)

これがプログラミング言語のコンパイル時間にもっとプレッシャーをかけるといいね。エージェント的なLLMが十分に速くなって、コンパイル時間が開発プロセスの主な障害になると、コンパイラの性能向上に対する経済的インセンティブが大きくなるだろうね。

その通りだね。このスピードがあれば効率がめっちゃ上がるのが見えるよ。エージェントを待ってると、毎回集中力と文脈が失われちゃうんだ。並行してエージェントを動かすとスピードは上がるけど、集中力が犠牲になる。Cursorでのほぼ瞬時の反復ループは魔法みたいに感じるだろうね(もっと魔法っぽいかも)。これが仕事の仕方にも影響するだろうし、CursorみたいなインタラクティブなIDEの方が、ほぼ瞬時に答えが出るから、Claude codeみたいなCLIツールよりも意味があるかも。

Cerebrasは、シリコンバレーがここ10年ほどで生み出した中で、ほんとにすごい技術的成果の一つだよ。7、8年前にアンディに会った時、何かを吸ってるんじゃないかと思ったくらい。直径がディナープレートサイズで、6トンのクランプ力のチップ?それを実現したんだ。振り返ってみると、彼らのやったことはすごく先見の明があったね。

コンセプトはめっちゃクールだけど、実際にNvidiaの代わりに使ってる人いるの?

ウェハスケール統合は数十年前にやってたことだよ。

いや、これはHPCと生のフロップス用に設計されたんだ。LLMの推論にはメモリ帯域幅が必要だよね。

Hacker Newsで議論の続きを見る