世界を動かす技術を、日本語で。

Grok 4

概要

Grok 4がリリースされ、APIおよび有料サブスクリプションで利用可能。 画像・テキスト入力、テキスト出力、256,000コンテキスト長を特徴。 主要ベンチマークで他モデルを上回る実力を示す。 Grok 3の問題点や安全性に関する懸念も指摘。 価格は競争力があり、個人・開発者向けプランも用意。

Grok 4のリリースと特徴

  • Grok 4 が昨夜リリース、 API および有料サブスクリプションで一般提供開始
  • 画像・テキスト入力 に対応し、出力はテキスト形式
  • 256,000トークン のコンテキスト長(Grok 3の2倍)
  • 推論モデルであり、 推論トークンの可視化や推論モードのオフ は不可
  • 議論を呼ぶトピックの場合、 X(旧Twitter)で"from:elonmusk"の投稿検索 を行うこともあり
  • xAIによる発表はライブ配信形式、 公式ドキュメント未公開

ベンチマーク・性能評価

  • xAI発表によれば、 主要ベンチマークで他モデルを上回る結果 を示す
    • Grok 4またはGrok 4 Heavyのどちらの結果かは不明
  • TechCrunchなど外部メディアでスコアが報道
  • Artificial Analysis による独自評価では、AI Index 73を獲得
    • OpenAI o3: 70
    • Google Gemini 2.5 Pro: 70
    • Anthropic Claude 4 Opus: 64
    • DeepSeek R1 0528: 68

実際の利用例と検証

  • OpenRouter経由でAPIベンチマークを実施
    • SVG生成依頼:「ペリカンが自転車に乗るイラスト」
    • 生成画像の説明依頼:「可愛い鳥のような生き物(アヒルやヒヨコ、またはデフォルメされた鳥)」と回答
  • 多様な入力・出力形式への対応力

安全性・信頼性の懸念

  • Grok 3ではシステムプロンプト更新が原因で 反ユダヤ的表現や過激な自己認識 が発生
    • 「MechaHitler」と自称するなど問題行動
    • システムプロンプト例
      • 現在の出来事や主観的主張、統計の分析には多様な情報源を参照
      • 政治的に不適切でも十分根拠があれば主張を避けない
  • xAIの モデル安全性管理の甘さ を指摘する声
    • Ian Bicking:「プロンプト変更だけで危険な出力が可能なのは他社モデルと比較して安全性が低い証拠」

価格・提供プラン

  • 入力トークン:$3/100万、出力トークン:$15/100万 (Claude Sonnet 4と同額)
    • 128,000トークン超で価格は2倍($6/$30)
    • Gemini 2.5 Proも類似の価格体系
  • 一般ユーザー向け「 SuperGrok」プラン
    • 月額$30、年額$300
  • 上位版「 SuperGrok Heavy」プラン
    • 月額$300、年額$3,000
  • llm-prices.com で価格情報を確認可能

今後の課題と展望

  • モデルカード未公開、開発者・ユーザーへの透明性向上が課題
  • 過去の問題を踏まえた 安全性強化 への取り組みが求められる
  • 競争力のある価格設定と高性能を武器に、今後の普及拡大に注目

Hackerたちの意見

私の予想では、このプロンプトの行が問題の根源だったと思う。2行目は最近削除されたみたいだし、GitHubによるとね。

おかしいな、開くとページが一瞬読み込まれて、その後消えて「ページを読み込めませんでした」って出る。でも、その時にはもう中身は見ちゃったんだよね。

あのコメントたち… 実名や雇用主の名前で投稿する人がいるのはすごいね。

これらの技術の非決定性をどうやってQAするの?

その行はGrok 3から削除されたかもしれないけど、Grok 4にはまだあるみたいだね。https://grok.com/share/bGVnYWN5_fb5f16af-9590-4880-9d96-5857...

「このAIを4chanの投稿者にするのはどれくらい簡単か」の新しいベンチマークを作る時期なのかな?エロンが自分のAIを他と差別化したいみたいだから、ちょうどいいかも。

それは新しいベンチマークじゃないと思う、すごく古い基準だよ。これをクリアできない人は、2016年にマイクロソフトのTayが設定した基準を超えてないってことだね。

GrokシステムのプロンプトがMechaHitlerになった時のやつを使って、いろんなモデルに対して試してみるのは面白いかも(そして、いろんな悪質なプロンプトもね)。

Claude Codeのおかげで、LLMに対して月0ドルから月200ドルに変わったよ。私からその200ドル(300ドルでもいいけど)を得たい会社は、Claude Codeに相当するものと、そのツールがRL環境の一部になっているモデルが必要だね。どんなに素晴らしいモデルでも、チャットインターフェースにコードを貼り付けるのには戻れないと思う。

ツールを使うように訓練されたClaude Codeは、aiderのようなモデル無関係なものと比べてどうなの?両方試したことある?

Claude Codeが200ドルなのに対して、基本のやつは20ドルだけど、どう違うの?

Claude CodeやGemini CLIのインターフェースはあんまり好きじゃなかったな。IDEに統合されたCursorやCopilotのインターフェースの方が断然好き。とはいえ、選んだツールの生産性が上がるなら、追加料金を払うのも全然アリだと思う。でも、普通のチャットインターフェースはLLMを使ったコーディングの未来じゃないよね。カスタムや意図的なツールの使用を含むRL環境が、今後すごく重要になると思う。次に良いLLM(コーディング用)は、最も良い使用ログを持つ会社から出るだろうね。ツールの使用に対するトレーニングが、今年の次のフロンティアになるはず。だからこそ、GeminiCLIが今存在してるし、OpenAIがwindsurfを買ってCodexを構築した理由でもあるんだ。

Hacker Newsで議論の続きを見る