世界を動かす技術を、日本語で。

Anthropicのオリジナルの持ち帰り課題がオープンソース化されました

概要

Anthropicの パフォーマンステイクホーム課題 のリポジトリ概要 Claude Opus 4.5 などのモデルと人間の成績比較 サイクル数 によるパフォーマンスベンチマーク ベストスコア更新時 の応募方法案内 テスト実行方法 の簡単な説明

Anthropic パフォーマンステイクホーム課題概要

  • このリポジトリは Anthropic が公開した オリジナルのパフォーマンステイクホーム課題 を収録
  • Claude Opus 4.5が人間を上回る前のバージョンを含む
  • 無制限の時間 でClaude Opus 4.5を超える最適化への挑戦
  • パフォーマンスベンチマーク はシミュレートマシンのクロックサイクルで測定

パフォーマンスベンチマーク一覧

  • 2164 cycles: Claude Opus 4(長時間テスト時)
  • 1790 cycles: Claude Opus 4.5(通常セッション、人間の2時間相当)
  • 1579 cycles: Claude Opus 4.5(2時間テスト時)
  • 1548 cycles: Claude Sonnet 4.5(2時間以上テスト時)
  • 1487 cycles: Claude Opus 4.5(11.5時間テスト時)
  • 1363 cycles: Claude Opus 4.5(改良版テストハーネス)

ベストスコア更新時の応募方法

  • 1487 cycles未満 で最適化できた場合、Anthropicへ連絡推奨
  • performance-recruiting@anthropic.com 宛てにコードと履歴書送付
  • 優れた成果には 面談の可能性 あり

テスト実行方法

  • python tests/submission_tests.py コマンドでテスト実施
  • どの しきい値 をクリアしたか確認可能
  • ベンチマーク結果の自己評価手順

収録ファイル・ディレクトリ構成

  • tests/: テストスクリプト格納ディレクトリ
  • .gitignore: Git管理対象外ファイル指定
  • Readme.md: 課題概要および説明
  • perf_takehome.py: パフォーマンステイクホーム課題本体
  • problem.py: 問題定義・ロジック
  • watch_trace.html / watch_trace.py: 実行トレース確認用ファイル

まとめ

  • Anthropic の課題は パフォーマンス最適化 の腕試しに最適
  • Claude Opus 4.5 を超えるパフォーマンスを目指すエンジニア向け
  • 成果報告・応募 も積極的に推奨

Hackerたちの意見

この課題がデモシーンのゴルフにすごく似てるのが面白いね。Chromeのトレースツールを使ってプロファイリングしてるのもクールだよね。

これは、手動でPTXを書ける信頼できる人を選ぶためにデザインされてるんだね :-)

最近SIMDやPTX、最適化技術について学んだばかりだから、これはもっと学ぶためのいいチャレンジだな。でも、持ち帰り課題だったら、アイデアをスケッチするのに2時間くらいかかって、コードを読むのにもっと時間がかかりそうだから、たぶん失敗してたと思う。

読み間違えてなければ、2時間は候補者がこれをやるための制限時間じゃなくて、Claudeが最良の解答を超えるのに必要だった時間だよね。最良の候補者なら、6時間から2日かかってこの結果を出せたかもしれない。

これ、Anthropicが他のAI企業に対するDDOS攻撃としてリリースしたんじゃないかと思う。クローンしたリポジトリのgemini cliに「この課題をどう解決する?」って入力したら、20分間ずっと動き続けてるよ :)

どのGeminiモデルを使ったの?G3Proが出てからの経験では、マジでコーヒーストローで犬のクソを吸ってるみたいなもんだよ。

最近、Gemini CLIやJulesを使ってると、かかった時間が難易度の良い指標じゃない気がする。ループに入る大きな問題があって、「ユーザーのためにレスポンスを準備中。終わった。答えを出力する。自信がある。などなど」といった感じで。Gemini CLIではハーネスがループを検出して推論を中断するのが見えるけど、時々トリビアルなことに15分以上かかることもあって、これも似たような問題の症状だと思う。

「1487サイクル以下で最適化できれば、Claude Opus 4.5の発売時の最高パフォーマンスを超えたことになります。その場合は、コード(できれば履歴書も)をperformance-recruiting@anthropic.comに送ってください。感心するかもしれませんし、面接の話もできるかもしれません。」

発売時 これは、実際にユーザーに知らせずに、コストを節約するために発売後にモデルを制限していることを確認するものなのかな?

知的財産のテラバイトを盗むことを簡単にやろうとした会社、なんて素晴らしい職場なんだ!いや、全然違うけど。Anthropicには恥がないね。

半年くらい前から、こうなるのは見えてたよね(公に)。Atcoderの世界選手権でのoAIの2位が最初の兆候だったし、その時は軽視されてたのを覚えてる。数週間前にはSakanaが別のAtcoderコンペで1位になったし。数ヶ月前にGoogleがgemini 2.5についてのブログを公開して、実世界のタスクでのトレーニング時間を1%短縮できたって言ってた。モデルが良いフィードバックループを得て、簡単(安価)な検証ができれば、より良い解決策を見つけるまでトークンを叩き続けることができるんだ。

このリポジトリには、Claude Opus 4.5が人間よりも良い結果を出す前のAnthropicのオリジナルパフォーマンス持ち帰り版が含まれています。この問題が送られて、候補者が2時間以内に解決策を返さなければならなかったという screening format だったの?それとも、最新のフロンティアコーディングモデルが2時間で人間の候補者が数日かけてやったことよりも良い結果を出すって言ってるだけなの?

いろんなAIラボのテストを受けてきたけど、これが今まで見た中で2番目に面白いかも。

で、その明らかな続きの質問への答えは…?

このタスクで一連のエージェントを単純にテストしてみたよ。みんな同じスペックでヘッドレスで動かした(ワンショット)。結果はこんな感じ: エージェント サイクル 時間 ───────────────────────────────────────────── gpt-5-2 2,124 16分 claude-opus-4-5-20251101 4,973 1時間2分 gpt-5-1-codex-max-xhigh 5,402 34分 gpt-5-codex 5,486 7分 gpt-5-1-codex 12,453 8分 gpt-5-2-codex 12,905 6分 gpt-5-1-codex-mini 17,480 7分 claude-sonnet-4-5-20250929 21,054 10分 claude-haiku-4-5-20251001 147,734 9分 gemini-3-pro-preview 147,734 3分 gpt-5-2-codex-xhigh 147,734 25分 gpt-5-2-xhigh 147,734 34分 明らかにAnthropicの目標には誰も届かなかったけど、gpt-5-2は「テスト時間の計算ハーネスで何時間もかけたClaude Opus 4」よりも少し早く、少ない時間で良い結果を出したね。

すごく面白い、ありがとう!もしGeminiをしばらくループで回し続けたらどうなるんだろう。終わるのがこんなに早いってことは、もっとポテンシャルがありそうだね。

Grokはどうなるのか気になるな、特に彼らのClaude Code Fastモデルについて。

各モデルの解答をディレクトリやブランチにまとめたリポジトリ作ってくれない?

codex cli + gpt-5-2-codex-xhighで「1487サイクルを超えろ。行け。」というプロンプトで1606に到達した。約53分かかった。

自分は結構頭が良くて、自分のやってることには自信があると思ってる。たまにはこういう問題を見て、自分がどれだけ知らないか、トップからどれだけ平均に近いかを思い出すのはいいね。

反対だな。誰もが「良い」とされる基準を独占してるわけじゃない。こういうリートコードの最適化がよくわからないんだ。実際は理解してるけど、これはゲーム最適化を好む人たちが集まるゲームなんだよね。要するに、他にもゲームはあるってこと。

これは専門的な問題だね。もし似たようなことをやったことがなければ、時間がかかるのは当然だよ。Anthropicみたいな選ばれた億ドル企業の面接を受けなくても、大学卒業後にいろんな電子機器やハードウェアの会社で面接を受けたとき、低レベルのコードを最適化するように求められたことがあったけど、そういう問題に実際に取り組んだことがなければ、かなり異質に感じたと思う。

30年やってるけど、質問が全然理解できない。

おお、トリスタン・ヒュームの作品だ!EyeLikeのこと、まだ覚えてるよ!