概要
- AIコーディングツール でPantheonをOpenSCADで構築するベンチマーク実施
- ModelRift をはじめ、6つのモデルで精度・速度・ワークフローを比較
- Pantheonは 中程度の難易度 でOpenSCADの特性に合致するベンチマーク対象
- OpenSCAD はテキストベースでLLMとの相性が良い
- Gemini 3.5 Flash 搭載のAntigravityが最も高品質な自律モデルを生成
Pantheonベンチマークの目的と選定理由
- AIコーディングツール の空間的幾何処理能力の比較検証
- Pantheon は「単純な構文テスト」ではなく、建築的・視覚的な複合要素を含む課題
- OpenSCAD の得意分野(放射対称性、繰り返し、ブーリアン操作、パラメトリック形状)に合致
- モデルの評価基準 :ドーム、回廊、ポルティコ、ペディメント、前面ディテールの再現度
OpenSCADを選ぶ理由
- テキストコード でモデルを記述、LLMが構造を論理的に扱いやすい
- パラメトリック設計 や繰り返し処理が容易、修正もパラメータやループの変更で簡単
- 3Dプリント 向けSTLや3MFファイル出力との親和性
- UI操作型ツール (Blender MCP等)よりも、建築的意図を直接コード化できる利点
ベンチマークのプロンプト・参照画像
- プロンプト :「2枚のリファレンス画像を見てPantheonのOpenSCADモデル(.scad)を作成。CLIでプレビューしながら納得いくまで反復」
- 画像1:正面ファサード
- 画像2:上空(俯瞰)ビュー
- ffmpeg で2枚を結合し、全モデルに同一参照画像を提示
主要モデルの比較結果(抜粋)
-
Cursor 3.5 / Composer 2.5
- 速度最速、品質最低(1.4/5)
- ドームとポルティコのみ再現、比率やディテールが不十分
-
Codex 5.5 High
- ディテール密度高め(3.0/5)、エンタブラチュアの碑文も生成
- STL出力の不一致でスコア減
-
Claude Code 2.1 / Opus 4.7
- 構造は改善(3.0/5)、色彩や説得力に難
-
Claude Code 2.1 / Sonnet 4.6
- 質量感や比率が良い(3.4/5)、速度は最遅
-
Google Antigravity 2.0 / Gemini 3.5 Flash High
- 自律モデル最高品質(4.5/5)、速度は遅め
- 実寸に基づくパラメータ、碑文や天井のコファー(格子模様)も再現
- コード内でカットアウェイ(断面表示)モードも実装
-
ModelRift / Gemini Flash 3.0(ヒューマン・イン・ザ・ループ)
- 品質3.8/5、速度はClaude Codeの2倍
- アノテーション付きフィードバックでディテール精度向上
ワークフローとツールごとの特徴
-
Codex Desktop
- 画像・コード・プレビューを同一スレッドで表示、視覚的フィードバックが容易
- 出力STLの問題も追跡しやすい
-
Cursor Agent / Claude Code CLI
- UIは実用的だが、視覚的コンテキストが弱い
- ターミナル中心、プロセスの可視化に課題
-
Antigravity 2.0(Gemini 3.5 Flash High)
- VS Code型IDEからエージェント主導型デスクトップアプリへ移行
- リアルな寸法取得とパラメータ化、建築的な実装計画
- 天井コファーや断面表示など、他モデルにない高度なディテール
-
ModelRift(ヒューマン・イン・ザ・ループ)
- ブラウザ上でレンダリング画像に直接アノテーション
- テキストのみよりも精密な空間的修正指示が可能
コスト・速度・品質のトレードオフ
- Gemini 3.5 Flash は高品質だがAPIコストが高い(Gemini 3.0 Flashの3倍以上)
- 自律モデル は速度重視だが品質に限界
- 人間の介在 で品質向上、フィードバックループの精度がカギ
まとめ・考察
- Pantheonベンチマーク はAIコーディングツールの空間理解・CAD生成力を測る中難易度課題
- OpenSCAD はLLMとの相性が良く、パラメトリックな建築モデル生成に最適
- Gemini 3.5 Flash 搭載のAntigravityは現時点で最高水準の自律生成力
- ModelRiftのアノテーション型ワークフロー は今後のAI×CAD作業の新しい可能性
- コスト・速度・品質 のバランスを取りつつ、今後もモデル・ワークフローの進化が期待される