世界を動かす技術を、日本語で。

「Antigravity 2.0」がOpenSCAD建築3D LLMベンチマークでトップに立つ

概要

  • AIコーディングツール でPantheonをOpenSCADで構築するベンチマーク実施
  • ModelRift をはじめ、6つのモデルで精度・速度・ワークフローを比較
  • Pantheonは 中程度の難易度 でOpenSCADの特性に合致するベンチマーク対象
  • OpenSCAD はテキストベースでLLMとの相性が良い
  • Gemini 3.5 Flash 搭載のAntigravityが最も高品質な自律モデルを生成

Pantheonベンチマークの目的と選定理由

  • AIコーディングツール の空間的幾何処理能力の比較検証
  • Pantheon は「単純な構文テスト」ではなく、建築的・視覚的な複合要素を含む課題
  • OpenSCAD の得意分野(放射対称性、繰り返し、ブーリアン操作、パラメトリック形状)に合致
  • モデルの評価基準 :ドーム、回廊、ポルティコ、ペディメント、前面ディテールの再現度

OpenSCADを選ぶ理由

  • テキストコード でモデルを記述、LLMが構造を論理的に扱いやすい
  • パラメトリック設計 や繰り返し処理が容易、修正もパラメータやループの変更で簡単
  • 3Dプリント 向けSTLや3MFファイル出力との親和性
  • UI操作型ツール (Blender MCP等)よりも、建築的意図を直接コード化できる利点

ベンチマークのプロンプト・参照画像

  • プロンプト :「2枚のリファレンス画像を見てPantheonのOpenSCADモデル(.scad)を作成。CLIでプレビューしながら納得いくまで反復」
    • 画像1:正面ファサード
    • 画像2:上空(俯瞰)ビュー
  • ffmpeg で2枚を結合し、全モデルに同一参照画像を提示

主要モデルの比較結果(抜粋)

  • Cursor 3.5 / Composer 2.5

    • 速度最速、品質最低(1.4/5)
    • ドームとポルティコのみ再現、比率やディテールが不十分
  • Codex 5.5 High

    • ディテール密度高め(3.0/5)、エンタブラチュアの碑文も生成
    • STL出力の不一致でスコア減
  • Claude Code 2.1 / Opus 4.7

    • 構造は改善(3.0/5)、色彩や説得力に難
  • Claude Code 2.1 / Sonnet 4.6

    • 質量感や比率が良い(3.4/5)、速度は最遅
  • Google Antigravity 2.0 / Gemini 3.5 Flash High

    • 自律モデル最高品質(4.5/5)、速度は遅め
    • 実寸に基づくパラメータ、碑文や天井のコファー(格子模様)も再現
    • コード内でカットアウェイ(断面表示)モードも実装
  • ModelRift / Gemini Flash 3.0(ヒューマン・イン・ザ・ループ)

    • 品質3.8/5、速度はClaude Codeの2倍
    • アノテーション付きフィードバックでディテール精度向上

ワークフローとツールごとの特徴

  • Codex Desktop

    • 画像・コード・プレビューを同一スレッドで表示、視覚的フィードバックが容易
    • 出力STLの問題も追跡しやすい
  • Cursor Agent / Claude Code CLI

    • UIは実用的だが、視覚的コンテキストが弱い
    • ターミナル中心、プロセスの可視化に課題
  • Antigravity 2.0(Gemini 3.5 Flash High)

    • VS Code型IDEからエージェント主導型デスクトップアプリへ移行
    • リアルな寸法取得とパラメータ化、建築的な実装計画
    • 天井コファーや断面表示など、他モデルにない高度なディテール
  • ModelRift(ヒューマン・イン・ザ・ループ)

    • ブラウザ上でレンダリング画像に直接アノテーション
    • テキストのみよりも精密な空間的修正指示が可能

コスト・速度・品質のトレードオフ

  • Gemini 3.5 Flash は高品質だがAPIコストが高い(Gemini 3.0 Flashの3倍以上)
  • 自律モデル は速度重視だが品質に限界
  • 人間の介在 で品質向上、フィードバックループの精度がカギ

まとめ・考察

  • Pantheonベンチマーク はAIコーディングツールの空間理解・CAD生成力を測る中難易度課題
  • OpenSCAD はLLMとの相性が良く、パラメトリックな建築モデル生成に最適
  • Gemini 3.5 Flash 搭載のAntigravityは現時点で最高水準の自律生成力
  • ModelRiftのアノテーション型ワークフロー は今後のAI×CAD作業の新しい可能性
  • コスト・速度・品質 のバランスを取りつつ、今後もモデル・ワークフローの進化が期待される

Hackerたちの意見

アンチグラビティは確かに何かの基準を超えるかもしれないけど、私のアンチグラビティ(強制的な)代替品のジェミニCLIは、使うたびにブラウザでログインしなきゃいけないし、アンチグラビティIDEは全く更新されないんだ。だから、もしよければ、まずは受け入れられるレベルの展開を目指してほしいな。何かのトップになることを心配する前にね。追記:実際のタイトルは「OpenSCAD LLMベンチマーク:パルテノンを構築する」だよ。

私はクラウドコードとインテリJを使ってるから、アンチグラビティがVSコードを捨てたことに文句を言ってる人が多い理由がわからない。アンチグラビティCLIとVSコード(または他のIDE)を使うことでカバーできない部分って何?

ワークフローが乱れるのが、アンチグラビティを採用しなかった一番の理由なんだ。好きなのにね。Gが投資してるのは嬉しいけど、年を取るにつれて自分のワークフローを守りたくなるんだよね。

同意するよ。GoogleのAI製品に関する私の主な懸念は、ログインや請求、アップグレード、製品の終了に関する終わりのない苦痛なんだ。でも、彼らのLLMモデルは良いし、アンチグラビティ2.0もそんなに悪くないよ(ただし、アンチグラビティ1.0の設定やプロジェクトを全部失った場合は別だけどね - 多くの人がそうだったみたい)。

クレデンシャルをキャッシュしないのは驚きだね。

ジェミニCLIからの強制アップグレードは、好きだったし、クロードコードよりも良い部分もあったから最悪だった。水曜日に送られてきたメールは、「Google One AI Proに加入してくれてありがとう。今からアカウントに制限を追加するよ。残念だけど、何も得られないよ。」って感じで、ほんとに不快だった。以前は「AI Pro」サブスクリプションを良い価値だと褒めてたのに。

「パンテオン」って、なんでこういう記事を書く人たちは自分に酔ってるんだろうね、ほんとにうんざりする。

オートデスクをショートするにはまだまだ遠いね。ちなみに、オートデスクは12月にフュージョン用のエージェントアシスタントをリリースしたけど、6ヶ月経ってもまだかなりひどいよ。

ほんとにコミカルなくらい悪い。最近、3Dプリント用の簡単な部品をいくつかデザインする必要があって、それで試してみたんだけど(それぞれタイムラインで約4つの操作がある)、フュージョンの命名に従ってステップバイステップで説明しても、やろうとしていることには全然近づかなかった。今のところ、単純なプリミティブソリッドを正しく作れるかも疑問だよ。

先月発表されたFusion MCPはもう試した? https://aps.autodesk.com/blog/bringing-fusion-claude-creativ...

まだまだ道のりは長いけど、いつかはうまくいくと思うよ。

GPT 5.5を使ってビデオゲームを作ってるんだ。ベンチマークはちょうどいい感じだね。アセットやスプライトを十分に生成してくれるし、AAAレベルのゲームに近いよ。今、アンチグラビティをチェックしてみるね。

あなたのワークフローについて少し教えてもらえる?ゲームモデルのためにAI生成を試してみたいと思ってるんだけど、みんながどうやって取り組んでるのか知りたいんだ。

先週末、妻のためにマーケットプレイスで自転車を買ったんだけど、状態は良かったけど内部のケーブルルーティング用のゴムが一つ足りなかったんだ。クロードにそのピル型の穴の写真を、デジタルキャリパーで長さと短さの方向で撮ったのを送ったら、短いプロンプトでパラメータ化されたOpenSCADモデルを作ってくれた。変更なしでTPUで印刷したら、初回でほぼ完璧だったよ。クロードがX/Yの寸法で0.3mmの減算を入れて、俺は0.1に下げたら完璧になった。古代ローマの建築より形はずっと簡単だけど、こんなに簡単にできるのはすごいね。

こういう小さな機能的なプリントは、OpenSCADとLLM生成が光るところだね。

そうだね、CADは「このスキルの参入障壁が高すぎてやらなかったけど、今はなんとか簡単なことができるくらいにはなった」っていう俺の個人的な例だ。OpenSCADとLLMを使って3Dプリンターで簡単な機能部品を作るのも似たような経験がある。モデルがリアクトコード生成よりも劣ってることは分かってるし、俺は熟練したパイロットとは真逆の存在だけど、それでも面白いし、趣味レベルで新しいスキルを学び始めるきっかけになったよ。

サポートなしで最適化されるの?

最近、3Dのフォーチュンクッキーを生成しようとしたんだけど、three.jsのClaudeとopenSCADのGeminiを使ったんだ。どちらもその概念を理解できなかったし、近づくことすらできなかった。意外と複雑な形なんだね。

一つの実世界のオブジェクトを作って、それをベンチマークだと宣言する?そういうのは頑丈なツールには通用しないよ。アイアンシェフみたいに、ギリシャ建築をテーマにしたものを作って、勝者を宣言する審査員が必要だね。これはただ、どのツールが主観的に一番見栄えのいいパンテオンを作れるかを見てるだけだよ。

うん、これはベンチマークというより「これが好き!」って感じだね。評価基準が主観的すぎて、具体的な使用ケースも考えずに一つの曖昧な例を評価するのはどうかと思う。

こういう記事を見ると驚くけど、実際に使ってみるとアンチグラビティはひどい消費者体験だよ。TUIが壊れてるし、モデルがテキストを出力してる間に入力できないから、両方がめちゃくちゃになって、TUIは気持ち悪いテキストの塊になっちゃう。計画モードと実行モードを切り替えるためのショートカットもないし、スキルを直接読み込む方法もない。使用制限も厳しすぎる。ソーシャルからGitHubにリダイレクトするための簡単なDeno Freshのウェブサイトを生成しようとしたら、スキャフォールディングで5時間のトークン制限を使い切っちゃった。CLI開発ツールの開発者として見ると、この製品にはあまり考慮やテストがされてないのが明らかだけど、Googleが以前言ったように、「モデルが製品」なんだよね。

OpenSCADのベンチマークをいろんなモデルやセットアップでたくさんやってみたけど、気づいたことは: - モデルがすごくギザギザしてる(あるタイプの3Dモデルでは優れてるかもしれないけど、別のタイプではそうじゃない) - Geminiモデルは経験上、最もギザギザが少なくて、画像理解が一番優れてる - Geminiモデルは最もクリエイティブでもある(正確なCADパーツが欲しい場合は好ましくないかも) - 全体として、このベンチマークはあまり証明にならない。1つの3Dモデル(と1回の試行)だけじゃ足りないからね。通常は少なくとも12モデルを3回生成してテストしてるけど、もっとやるべきだと思う。ただ、個人開発者には高すぎるんだよね。それでも、これを公開してくれてありがとう。フラッシュ3.5をすぐに試してみるつもり。

それは興味深いね。Claudeでパラメトリックモデリングを試みたんだけど、パフォーマンスがひどかった。

ClaudeやGemini、Codexを使ってbuild123dでパラメトリックなHVACダクトパーツのライブラリを作ったけど、すごく良い体験だったよ。みんなで仕様やコードをレビューし合ってるしね。

写真をモデルに変換するためにopenscadを使いたいと思ったことは一度もないよ。通常は、 enclosedデバイスの仕様書をもとにエンクロージャーを作るとか、機能的な要件があるからね。Claudeのコードがロボトミーされる前の4.6では、PSUの仕様書と、グランドやポートの要件を使って、YAPPとopenscad MCPを使って、印刷可能なエンクロージャーを自動的に構築できたんだ。PSUにぴったりのサイズやネジ穴、マウント、グリル、グランドポートなど、最適な印刷のために配置されてた。この瞬間に、LLMが本当に進化したと感じた。建物の写真?なんで?それはメッシュの問題で、忠実度に関することだよ。技術的な仕様書や図面を使って、機能的なパーツについて賢い選択をした印刷物を作るのが有用なんだ。

それがまた挑戦してみようって思う理由なんだ。過去にLLMを使ってOpenScadに挑戦したおかげで、自分のOpenScadスキルがかなり向上したから。