概要
Anthropicの パフォーマンステイクホーム課題 のリポジトリ概要 Claude Opus 4.5 などのモデルと人間の成績比較 サイクル数 によるパフォーマンスベンチマーク ベストスコア更新時 の応募方法案内 テスト実行方法 の簡単な説明
Anthropic パフォーマンステイクホーム課題概要
- このリポジトリは Anthropic が公開した オリジナルのパフォーマンステイクホーム課題 を収録
- Claude Opus 4.5が人間を上回る前のバージョンを含む
- 無制限の時間 でClaude Opus 4.5を超える最適化への挑戦
- パフォーマンスベンチマーク はシミュレートマシンのクロックサイクルで測定
パフォーマンスベンチマーク一覧
- 2164 cycles: Claude Opus 4(長時間テスト時)
- 1790 cycles: Claude Opus 4.5(通常セッション、人間の2時間相当)
- 1579 cycles: Claude Opus 4.5(2時間テスト時)
- 1548 cycles: Claude Sonnet 4.5(2時間以上テスト時)
- 1487 cycles: Claude Opus 4.5(11.5時間テスト時)
- 1363 cycles: Claude Opus 4.5(改良版テストハーネス)
ベストスコア更新時の応募方法
- 1487 cycles未満 で最適化できた場合、Anthropicへ連絡推奨
- performance-recruiting@anthropic.com 宛てにコードと履歴書送付
- 優れた成果には 面談の可能性 あり
テスト実行方法
- python tests/submission_tests.py コマンドでテスト実施
- どの しきい値 をクリアしたか確認可能
- ベンチマーク結果の自己評価手順
収録ファイル・ディレクトリ構成
- tests/: テストスクリプト格納ディレクトリ
- .gitignore: Git管理対象外ファイル指定
- Readme.md: 課題概要および説明
- perf_takehome.py: パフォーマンステイクホーム課題本体
- problem.py: 問題定義・ロジック
- watch_trace.html / watch_trace.py: 実行トレース確認用ファイル
まとめ
- Anthropic の課題は パフォーマンス最適化 の腕試しに最適
- Claude Opus 4.5 を超えるパフォーマンスを目指すエンジニア向け
- 成果報告・応募 も積極的に推奨