Anthropicのオリジナルの持ち帰り課題がオープンソース化されました

2026年1月21日原文(github.com)

概要

Anthropicの パフォーマンステイクホーム課題 のリポジトリ概要 Claude Opus 4.5 などのモデルと人間の成績比較 サイクル数 によるパフォーマンスベンチマーク ベストスコア更新時 の応募方法案内 テスト実行方法 の簡単な説明

Anthropic パフォーマンステイクホーム課題概要

このリポジトリは Anthropic が公開した オリジナルのパフォーマンステイクホーム課題 を収録
Claude Opus 4.5が人間を上回る前のバージョンを含む
無制限の時間 でClaude Opus 4.5を超える最適化への挑戦
パフォーマンスベンチマーク はシミュレートマシンのクロックサイクルで測定

パフォーマンスベンチマーク一覧

2164 cycles: Claude Opus 4（長時間テスト時）
1790 cycles: Claude Opus 4.5（通常セッション、人間の2時間相当）
1579 cycles: Claude Opus 4.5（2時間テスト時）
1548 cycles: Claude Sonnet 4.5（2時間以上テスト時）
1487 cycles: Claude Opus 4.5（11.5時間テスト時）
1363 cycles: Claude Opus 4.5（改良版テストハーネス）

ベストスコア更新時の応募方法

1487 cycles未満 で最適化できた場合、Anthropicへ連絡推奨
performance-recruiting@anthropic.com 宛てにコードと履歴書送付
優れた成果には 面談の可能性 あり

テスト実行方法

python tests/submission_tests.py コマンドでテスト実施
どの しきい値 をクリアしたか確認可能
ベンチマーク結果の自己評価手順

収録ファイル・ディレクトリ構成

tests/: テストスクリプト格納ディレクトリ
.gitignore: Git管理対象外ファイル指定
Readme.md: 課題概要および説明
perf_takehome.py: パフォーマンステイクホーム課題本体
problem.py: 問題定義・ロジック
watch_trace.html / watch_trace.py: 実行トレース確認用ファイル

まとめ

Anthropic の課題は パフォーマンス最適化 の腕試しに最適
Claude Opus 4.5 を超えるパフォーマンスを目指すエンジニア向け
成果報告・応募 も積極的に推奨

Hackerたちの意見

この課題がデモシーンのゴルフにすごく似てるのが面白いね。Chromeのトレースツールを使ってプロファイリングしてるのもクールだよね。

└

これは、手動でPTXを書ける信頼できる人を選ぶためにデザインされてるんだね :-)

最近SIMDやPTX、最適化技術について学んだばかりだから、これはもっと学ぶためのいいチャレンジだな。でも、持ち帰り課題だったら、アイデアをスケッチするのに2時間くらいかかって、コードを読むのにもっと時間がかかりそうだから、たぶん失敗してたと思う。

└

読み間違えてなければ、2時間は候補者がこれをやるための制限時間じゃなくて、Claudeが最良の解答を超えるのに必要だった時間だよね。最良の候補者なら、6時間から2日かかってこの結果を出せたかもしれない。

これ、Anthropicが他のAI企業に対するDDOS攻撃としてリリースしたんじゃないかと思う。クローンしたリポジトリのgemini cliに「この課題をどう解決する？」って入力したら、20分間ずっと動き続けてるよ :)

└

どのGeminiモデルを使ったの？G3Proが出てからの経験では、マジでコーヒーストローで犬のクソを吸ってるみたいなもんだよ。

└

最近、Gemini CLIやJulesを使ってると、かかった時間が難易度の良い指標じゃない気がする。ループに入る大きな問題があって、「ユーザーのためにレスポンスを準備中。終わった。答えを出力する。自信がある。などなど」といった感じで。Gemini CLIではハーネスがループを検出して推論を中断するのが見えるけど、時々トリビアルなことに15分以上かかることもあって、これも似たような問題の症状だと思う。

「1487サイクル以下で最適化できれば、Claude Opus 4.5の発売時の最高パフォーマンスを超えたことになります。その場合は、コード（できれば履歴書も）をperformance-recruiting@anthropic.comに送ってください。感心するかもしれませんし、面接の話もできるかもしれません。」

└

発売時これは、実際にユーザーに知らせずに、コストを節約するために発売後にモデルを制限していることを確認するものなのかな？

└

知的財産のテラバイトを盗むことを簡単にやろうとした会社、なんて素晴らしい職場なんだ！いや、全然違うけど。Anthropicには恥がないね。

半年くらい前から、こうなるのは見えてたよね（公に）。Atcoderの世界選手権でのoAIの2位が最初の兆候だったし、その時は軽視されてたのを覚えてる。数週間前にはSakanaが別のAtcoderコンペで1位になったし。数ヶ月前にGoogleがgemini 2.5についてのブログを公開して、実世界のタスクでのトレーニング時間を1%短縮できたって言ってた。モデルが良いフィードバックループを得て、簡単（安価）な検証ができれば、より良い解決策を見つけるまでトークンを叩き続けることができるんだ。

このリポジトリには、Claude Opus 4.5が人間よりも良い結果を出す前のAnthropicのオリジナルパフォーマンス持ち帰り版が含まれています。この問題が送られて、候補者が2時間以内に解決策を返さなければならなかったという screening format だったの？それとも、最新のフロンティアコーディングモデルが2時間で人間の候補者が数日かけてやったことよりも良い結果を出すって言ってるだけなの？

Hacker Newsで議論の続きを見る

ハクソク