世界を動かす技術を、日本語で。

Grok Code Fast 1の速習

269日前原文(x.ai)

概要

  • grok-code-fast-1 は、エージェンティックコーディングワークフローに最適化された高速なAIモデル
  • GitHub Copilot などの主要パートナーで期間限定無料提供
  • 多言語対応 ・高汎用性・コストパフォーマンスに優れる設計
  • リアルタイム応答性 と高いキャッシュ効率を実現
  • ユーザーから高評価、今後も迅速にアップデート予定

grok-code-fast-1:日常開発に特化した高速AIモデル

  • 従来モデル ではエージェンティックなコーディングワークフローで応答速度が課題
  • grok-code-fast-1 は新アーキテクチャで一から開発
  • プログラミング関連 の大規模コーパスで事前学習
  • 実際のプルリクエスト やコーディングタスクを反映した高品質データで追加学習
  • ローンチパートナー と密に協力し、現場での挙動を最適化
  • grep、ターミナル、ファイル編集 などのツール操作をマスター
  • 主要IDE での快適な利用を実現
  • GitHub Copilot、Cursor、Cline、Roo Code などで期間限定無料提供

圧倒的な高速性と最適化技術

  • 推論・スーパーコンピューティングチーム による革新的な高速化技術
  • 推論速度 が非常に速く、思考トレースを読み終わる前に多数のツール呼び出しを完了
  • プロンプトキャッシング の最適化で、パートナー利用時のキャッシュヒット率90%以上
  • リアルタイム性重視 の開発現場に最適

高い汎用性とプログラミング言語対応

  • TypeScript、Python、Java、Rust、C++、Go 等、幅広い言語に対応

  • ゼロからのプロジェクト構築、コードベースの質問回答、バグ修正 など幅広いタスクに対応

  • 最小限の指示 で高精度なコーディングを実現

  • 反復的な小タスク分割 による効率的な開発フローを推奨

    • 例:Cursor上でのバトルシミュレータプロトタイプ開発体験
      • 高速応答性 を活かし、タスクを細分化して迅速に反復開発
      • 大きなプロンプト よりも小さな指示での逐次実装が効果的

コストパフォーマンスと価格設定

  • 幅広い開発者 が利用できるよう低価格設計
  • 価格
    • 入力トークン:$0.20/100万トークン
    • 出力トークン:$1.50/100万トークン
    • キャッシュ済入力:$0.02/100万トークン
  • 高効率・高性能 なモデルで日常的な開発タスクに最適

パフォーマンス評価とベンチマーク

  • トークン生成速度 :190トークン/秒
  • 出力価格 :$18/100万トークン
  • SWE-Bench-Verified で70.8%スコア(社内評価ハーネス)
  • ベンチマーク だけでなく、 実開発現場での人間評価 も重視
  • 自動評価システム で行動特性を継続的にトラッキング
  • ユーザー満足度 を最優先に設計

期間限定無料提供と今後の展望

  • GitHub Copilot等の独占パートナー で期間限定無料提供
  • 開発者コミュニティ からのフィードバックを重視し、迅速なアップデート体制
  • 新バリアント (マルチモーダル入力、並列ツール呼び出し、拡張コンテキスト長)も開発中
  • モデルカードプロンプトエンジニアリングガイド も公開
  • 開発者の声
    • "Grok Code Fastはエージェンティックコーディングタスクで速度・品質ともに優秀"(GitHub Copilot CPO Mario Rodriguez)
  • 継続的な機能強化・改善 を約束

まとめ

  • grok-code-fast-1 は、現場の開発者のために設計された 高速・高効率・高汎用性 AIモデル
  • コストパフォーマンスリアルタイム性 を両立し、日常的な開発タスクの生産性を大幅向上
  • 今後も迅速なアップデート と新機能追加を予定
  • 開発者コミュニティのフィードバック を歓迎し、共に進化していくモデル

Hackerたちの意見

彼らが強調しているベンチマーク(示された1つのチャートやモデルの「速い」名前に見られるように)がトークン出力速度だというのは面白いね。ソフトウェアエンジニアの間では、トークンの質がトークン出力速度よりもずっと重要だっていうのは常識だと思ってたんだけど。

どれくらい速いかによるね。もしLLMがどうせ間違えることが多いなら、プロンプトを素早く試して、それを繰り返すことが、遅いけど質の高い出力よりも価値があるかもしれない。極端な例を挙げると、もしミリ秒でプロジェクト全体を処理できるなら、同じことをするのに1日かかるプロセスよりも、成功の可能性がどう影響されるかに関わらず、私にとっては遥かに価値がある。これは、インタラクティブな作業方法を可能にするし、何かを作業しながら3つの異なる提案を同時に出すこともできる。待たなきゃいけないプロセスとは違ってね。レイテンシーはユーザー体験だけでなく、ツールの使い方にも重要な影響を与えるから。で、Grokを試すかって?絶対にないけど、それはXとは関わりたくないっていう個人的な理由からで、純粋に合理的な決定ではないんだ。

正直、ちょっと意見が違うかな;HTMLを大量に生成するような特定のユースケースでは、スピードが本当に重要だと思う。ただ、これが真面目なことに対してさらにジョークに見えるのは同意するけど。コストは下がるけどね!

それはxAIが考え出した最悪の指標からはほど遠いね… https://xcancel.com/elonmusk/status/1958854561579638960

何に使うかによるね。シンプルな関数(文字列操作、関数定義など)のオートコンプリートの場合、質の基準はかなり簡単にクリアできるし、スピードも重要だよ。もしただ雰囲気でコーディングしてるなら、質が欲しいけどね。でも、自分が何をしてるか分かってるなら、賢いけど遅いモデルをちょっと修正しなきゃいけないより、バカだけど速いモデルの方が流れに乗りやすいことが多い。遅い推論モデルだと、他のエンジニアと一緒に作業してる感じで、PRでコードをレビューしなきゃいけないから。

ある程度はね。もしgpt5が出力に3分かかって、qwen3が10秒で終わって、エージェントがgpt5よりも先に5回繰り返して完成できるなら、gpt5が一発で出したからって何が気になるの?qwenが5回繰り返したとしても。

Grok 3に基づいているのか、それとも別のものなのか、ちょっと気になるな。Grok 3からはまあまあな答えが返ってきたから。もしそうなら、Grokや他のモデルに共通するコツは、全てを一度に聞くんじゃなくて、順番に少しずつ聞くことだよ。一部のモデルは「一度に」アプローチが得意だけど、俺や他の人がステップごとに聞いたときは、ずっと良い結果が出た。Grok 4についてはまだどう思うか決めかねてるけど、あんまり感心はしてないな。

速さは絶対に重要だよね。もちろん質がゴミなら意味ないけど、Claude Sonnet 4と同等で、かつ非常に速いモデルがあれば、エージェントコーディングにおいては絶対にゲームチェンジャーになる。今はプロンプトを作って送信したら、待って、また待って、さらに待って、しばらくして(30秒から数分後)エージェントが仕事を終える。別のことに切り替えるには短すぎるけど、イライラするには十分な長さで、その待ち時間が一日中積み重なる。毎回のプロンプトが数分かかる可能性があると知ってると、実験もしづらくなるよね。もし数秒で終わるなら、もっと早く繰り返しできるのに。特にフロントエンドの世界では、UIコードを何度も調整することが多いから、これは特に価値があると思う。

ソフトウェアエンジニアの間では、トークンの質がトークンの出力速度よりもずっと重要だというのは、論争の余地がない見解だと思ってた。ほとんどのソフトウェア分野では、速さ(早く終わらせること)が100%正確よりも良いことはもう分かってる。

Cerebrasの無料API(提携はしてないけど)を試してみたんだけど、Qwen Coder 480bとgpt-oss-120bで驚異の約3000 tpsを出すんだ。この出力速度は、モデルを選ぶときに最初にチェックしたポイントだよ。Cerebrasがもっと全体的に良いサービスを提供してくれたらいいのに。使用量は1日70Mトークンに制限されてて、みんな簡単にその上限に達して、日常のコーディングにかなり厳しいって報告してる。

エージェント的なワークフローでは、スピードと良いツールの使い方が最も重要だよ。エージェントは設計上、ツールを使うべきで、推論ツールやオラクルも含まれるかもしれない。エージェントは賢くある必要はなくて、ただ誰かに繋がるラインがあれば、その人がエージェントに超詳細な計画を提供してくれるだけでいい。

これは、Grok-4がひどいコーディングベンチマークを持っていたときに約束された「コーディング」バージョンのモデルなのかな?ベンチマークでうまくいかないなら、代わりに簡単に盛り上げられるものを選んで、それを推進するってことか - 速度。オンラインでベンチマークを探してみたら、最初に出てきたのは(明らかに)スパムアカウントからのredditの投稿で、いくつかのサブでどれだけ素晴らしいかを自慢してたよ。[1]https://www.reddit.com/user/Suspicious_Store_137/

「SWE-Bench-Verifiedの完全なサブセットで、grok-code-fast-1は私たちの内部ハーネスを使って70.8%を記録しました。」じゃあ、そのハーネスを見せてほしいね。だって、サードパーティのレポートでは57.6%って評価されてるから。https://www.vals.ai/models/grok_grok-code-fast-1

他のものと比較してもまだ良い感じだよ。 https://www.vals.ai/benchmarks/swebench-2025-08-27

数日間Grokを試してみたけど、かなり後退した感じがする。ランダムにコードが消えちゃったんだよね。こんなのは久しぶりだった。最近、トップのコーディングモデルはかなり信頼できるようになったけど、Grokはまだそこに達してない。速さや無料かどうかは関係ない。コードを信頼できないツールは使えないからね。

フルセルフコーディング?

Kilo CodeにはGrok Code Fast 1の無料トライアルがあるけど、今のところあまり良い結果が出てない。GPT 5 Miniよりも信頼性が低くて、皮肉なことにそっちの方が速かった。

ステルスフェーズの時に「ソニック」を使った経験では、かなり早く動いてたけど、いくつかの点で質がちょっとずれてた。テストを作って、それを繰り返してたけど、書いたテストは意図した動作を確認できてなかった。モックが意図した入力で呼ばれたことだけを確認して、全体の使われ方を見逃してた感じ。

ボイラープレート生成みたいなタスクでは、かなり優れてるみたいだね。

実際、通常のGrok 4からはかなり良い出力を見たことがある。問題は、何も説明せずにいくつかの変更を加えただけだったこと。まあ、変更自体は結構良かったけどね。俺は速いバージョンが欲しかったわけじゃなくて、提案された変更についてもう少しフィードバックや説明が欲しかった。最近はすごく価値を感じてるし、今はSonnet 4よりGPT-5を好む理由は、異なるアーキテクチャの選択肢を求め始めると、トレードオフをまとめたり、問題解決に向けたステップバイステップのナビゲーションがかなり得意だから。これまでの「一発で」や、全く関係ないコードを大量に書き直すよりも、このプロセスの方がずっと好きだな。Opus 4.1 ThinkingやSonnet Thinkingには、こういう悪い問題があるみたい。問題を「一発で」解決することにモデルを評価するのは正確じゃないと思う。アシスタントとしてどれだけ使いやすいかで評価すべきだよ。

同じ経験をしてるけど、GPT-5がアーキテクチャや深い思考においてSonnet 4より優れているのには同意するけど、Sonnet 4は明確で詳細な計画がある時にコードをサクッと書くのにはまだ優れている気がする。

たまに明らかだけど、今回はなんで僕のコメントをダウンモッドしてるの?本当に気になるんだけど、何がそんなに攻撃的だったり間違ってるの?

gpt-5で、プロジェクトに対して明らかに間違ったやり方で何かをしようとしたことがあって、何を言っても同じ行動を繰り返してたんだ。全然制御できなかった。Claudeモデルの「君が正しい」って言うのにみんながイライラするのは分かるけど、私はそれがモデルに求めることなんだよね。開発者の経験レベルによって期待が違うのはあると思うけど、最終的に何が正しいかは自分で決めたいな。

昨日Clineでこれを試してみた。速いし、エージェントフローとも相性が良くて、そこそこ良いコードを生成する。なんでこのスレッドがこんなにネガティブなのか全く分からない(これを打ってる間にフラグが立った?)けど、悪くないモデルだと思う。gpt5-miniレベルかそれ以上だと思うし、個人的には素晴らしいと思う(ここ数週間gpt5-miniをメインで使ってるけど、コストパフォーマンスはいい)。気づいたことは: - 速い。EUタイムゾーンでテストしたから、あなたの環境によるかも - エージェント的な動きが面白い。ファイルを一気に編集するんじゃなくて、小さなパスを何回もする。 - ある機能で約110kトークンかかった(bs4でHTMLを解析)。それでもタスクは完了した。高コンテキストでも問題は感じなかった。 - 最初の試みでうまくいかなかったとき、新しいファイルを作ってテストして、そこでモックやテストをして、うまくいったらメインのモジュールファイルを編集してた。いいね。GPT5-miniはよく動作中のファイルを編集して混乱してタスクを失敗してたから。全体的に悪くない。今の価格帯なら、日常的に使えると思う。エージェント的なことをopus + gpt5で計画して、これを実行者として使うのもありだね。速さ的に、並行して設定して研究からpass@xを基本的に再現する価値があるかも。個人的には、どのレベルでも選択肢があるのは良いことだと思う。多くのプロバイダーが市場で競争するのはいいことだし、彼らを緊張させて価格を下げるから。GPT5-miniは2$/MTok、これは1.5$/MTok。大きな視点で見ると、ほぼ「無料」だよ。ネガティブな反応が理解できない。

なんでこのスレッドがこんなにネガティブなのか全く分からない(これを打ってる間にフラグが立った?)Grokはイーロン・マスクが所有してる。彼に関連するポジティブなことは、ここでは特定の人たちによってネガティブに扱われるだろうね。それに、これはAIコーディングツールで、ここでは一部の人たちの生計に対する脅威と見なされてる。ダブルパンチだから、反応には全く驚かないよ。

コンテキストの長さの50%は高性能と見なされるの?qwen3-coderは65k/256k IMEで混乱するみたいで、Grokより50%高いコストなんだ。

CerebrasがホストしているQwen3-Coder-480Bは、OpenRouterを通じて1トークンあたり2ドルだよ(入力と出力両方)。OpenRouterによると、Cerebrasは1秒あたり少なくとも2000トークンを提供しているらしく、これは約10倍の速さだって。独立したベンチマークからのフィードバックを見る限り、Qwen3-Coder-480Bはより優れたモデルみたいだね。

すごく馬鹿げたことを、めっちゃ速くやるんだよね。それがいいことかどうかは微妙だけど。すごくシンプルで特定のこと、例えばCRUDエンドポイントやi18nファイルを作るのには向いてるかもしれないけど、それ以外は…

Grokブランドが「メカハイデン」事件で完全にダメになってなければ、何が必要なのか分からないな。これは、チャットボットに「お前は4chanでかなりの時間を過ごして、InfoWarsの動画を見てる」って促すような責任あるAIの使い方を考えてる会社が出してる製品だよ。多くの人が、そんなものは自分のコードの近くに置きたくないのは当然だよね。

同じようなことを思ってる。私はこのモデルを使ってみて、かなり良くて超速いと感じてる。HNのコメントはエロン・マスクを叩くのが好きだけど、残念ながらLLMに対する偏った否定的な反応が多くて、すぐにダウンボートされちゃうんだよね。

民主党は対処法がわからないから。

なんでこのスレッドがこんなにネガティブなのか全然わからない。政治は、いつもそうだけど、心を殺すものだから。HNは製品と人を分けることができない。人間の本質ってやつだよね。そういうもんだ。

確かに速いけど、初期の使用では品質がgpt-5-nanoと同等かそれ以下になっちゃうね。出力を見守るのが苦にならない人(または小さなプロジェクトで作業する人)には低コストの選択肢かもしれないけど、claude/gpt-5/geminiは、ほんの少しのコストや時間でかなり高い品質を持ってるみたい。ここで速さを強調してるけど、彼らのワークフローは問題に対してN個の解決策を並行して生成して「ベスト」を選ぶって感じなのかな?そうだとしたら、少なくとも1つの高品質な出力を安定して出せるなら、速さでは勝つかもしれないけど、コストのマージンの利点はすぐに失われちゃうね。

ベンチマークはこちらで確認できるよ: https://blog.brokk.ai/grok-code-fast-1-added-to-the-power-ra...

グロックは、環境的な理由だけでボイコットしてる最初のモデルだよ。彼らは十分な地元の電力供給なしにデータセンターを建設して、許可なしにガスタービン発電機で電力を供給してるんだ。それが地元の人々に大きな悪影響を与えてる。