世界を動かす技術を、日本語で。

LL3M: 大規模言語3Dモデル生成器

概要

University of ChicagoLL3M は、複数の大規模言語モデルを活用し、 Blender で3Dアセットを自動生成・編集する技術 ユーザーのテキスト指示から、複雑かつ表現力豊かな形状や幾何学的操作をPythonコードで実現 従来手法と異なり、制約の少ない3Dアセットの生成・連続的なリファインメントが可能 生成されるコードは可読性が高く、パラメータ編集や構造の理解が容易 自動・ユーザー主導の反復的な編集で、直感的かつ柔軟な3D制作を実現

LL3M: 大規模言語モデルによる3Dモデリング自動化技術

  • LL3M は複数の大規模言語モデル(LLM)を連携させて Blender 用Pythonコードを自動生成・編集するシステム
  • ユーザーの自然言語指示から 新規3D形状作成精密な幾何学操作 を高精度に実現
  • 従来のLLM活用3D生成は 限定的なプロシージャル生成やプリミティブ操作 が主流
  • LL3M は形状、レイアウト、外観を含む 制約のない3Dアセット生成 が可能
  • 3D表現として 高レベルなコード を活用し、 反復的なリファインメントと共創 をネイティブにサポート

反復的な3Dアセット生成パイプライン

  • パイプラインは 初期生成自動リファインメントユーザー主導リファインメント の3段階
  • 各段階で 異なるエージェント が役割を担い、形状の洗練やエラー修正を自動化
  • 初期段階で 不自然な構成単純すぎる形状 を検出・修正
  • ユーザーからの追加指示により 対話的・反復的編集 が可能
  • 単なるエラー修正に留まらず、 粗から精細への段階的生成 を実現

多様な形状生成と編集機能

  • ギャラリー 例:複雑な建築要素(風車)、楽器部品(ピアノ鍵盤、ドラムセット)、外観・材質(スケートボード、光沢ランプ台座)など多様な生成実績
  • 各メッシュは 可読性の高いBlenderコード で生成、編集・再利用が容易
  • 一貫したスタイライズ :異なる初期形状でも同一プロンプト(例:スチームパンク風)で統一感あるスタイル変換
  • マテリアル編集 :特定部位(例:ナイフの刃)のマテリアルを シェーダーノード で詳細に編集
  • 反復編集 :同じ3Dアセットに対し 連続的な編集 が可能、キャラクター性を保持しつつ部分的修正

コードの可読性とパラメータの透明性

  • 生成コードは コメント・変数名・構造が明瞭 で理解・編集が容易
  • 例: key width などのパラメータや アルゴリズムロジック の変更もシンプル
  • Blenderノードや構造 に現れるパラメータが直感的に編集可能
  • ユーザーはBlender上で 色やパターン など視覚属性を直接調整できる

コードの汎用性・再利用性

  • 視覚的に異なる形状も 高レベルなコードパターン (ループ、モディファイア、ノードセットアップ)が共通
  • この構造により、 幅広いプロンプト から多様で編集可能なモジュラーコード生成が可能

シーン生成と階層構造

  • 複数オブジェクトの 空間配置・シーン階層構築 も自動実現
  • インスタンシングペアレンティング など複雑な操作を駆使した階層的シーン生成
  • 単一オブジェクト内でも 親子関係 を明示的に構築可能
  • Blenderの シーングラフ として、人間が読める階層構造・意味的名称を付与
  • 親オブジェクトへの変換が 子オブジェクトに伝播 する構造を実現

参考文献

  • BibTeX:
    • @misc{lu2025ll3m, title={LL3M: Large Language 3D Modelers}, author={Sining Lu and Guan Chen and Nam Anh Dinh and Itai Lang and Ari Holtzman and Rana Hanocka}, year={2025}, eprint={2508.08228}, archivePrefix={arXiv}, primaryClass={cs.GR}, url={https://arxiv.org/abs/2508.08228},

Hackerたちの意見

これは「かわいい」レベルの役立ち感があるね。もう少し進化すれば、面白くなりそう。

楽しそうなおもちゃだね。もうすでに役に立ちそう。プロトタイプ段階から出なくてもいいゲーム、例えばRobloxとか、実際にはより良いプロトタイピングのために考えてる。まだ十分に良いものが作れなくても(ゲームや観客によるけど、Minecraftを見てみて)、いじってて楽しいならそれだけで役立つよね。もし改善されれば、もっとワクワクするけど、今でも役に立ちそうだね。

LLMを使ってFreeCADのPythonコードを書くこともできるよ。ちょっとはうまくいくけど、全プロセスを赤ちゃんステップで教えてあげないとね。

LLMをトレーニングして、標準交換フォーマットを生成させる方がいいと思う。COLLADAやgITFを試してみる価値はあるかも。

先日、Aseprite(ピクセルエディタ)で遊んでたんだ。Luaでスクリプトが書けるから、Claudeに手伝ってもらって、毎回異なる手続き生成キャラクターを作るスクリプトを書いてもらった。シードを使えば再現できて、人に似た感じにはなったけど、私が考える高品質とは程遠かった。楽しい小さなプロジェクトだったし、アクセスも簡単だったよ。 - https://www.aseprite.org

興味があるなら、pixellab.aiの人たちをチェックしてみて。彼らは、プロンプトから結構いい感じのスプライトを生成するAespriteプラグインを持ってるよ。

良いピクセルアートAIを探してるんだけど、今まで試したものはまあまあだけど、特にすごいってわけじゃないんだ。もし、いいAIツールを使った経験がある人がいたら、リンクを教えてくれると嬉しいな。

meshy.aiを使って、友達が欲しい画像から良い3Dモデルを作るワークフローで意外な成功を収めたよ。ワークフローはこうだよ:1. gpt5か、実際にはどんな画像モデルでもいいけど、midjourneyのテクスチャ変更も良い、元の画像をマットレンダリングされたメッシュに近づける、つまり余計なディテールや透明度/他の混乱するボリュメトリック効果を取り除く。2. meshy.aiの画像から3Dモードに放り込む。結果が気に入らなければ、別のシンプルな画像スタイルで1に戻る。3. Blenderに取り込んで、メッシュ編集モードで好きなように修正する。例えば、特定のフィット感やサイズを調整して他のものと組み合わせたり、ほぼ対称なものに非対称を加えたり、AIが生成したメッシュの上にモデリングして、さらに処理しやすいクリーンなものを作ったり。メッシュは構造的にはまあまあ良い感じで、明らかにマーチングキューブか、もしくはNeRFっぽい生成器の上にデュアルコンタリングアプローチが使われてる。私は機械CADのユーザーとしては超速いけど、Blenderアーティストとしては普通なので、AIのスタート地点を得るのは全体の形をブロックアウトするのに便利。例えば、友達が特定の人間の像を再現したいと言ってたけど、Tポーズの一般的な人間モデルを正しいポーズや比率に調整するのには「彼にこれをするためにかける時間よりも多くの時間がかかる」つまり、やらなかっただろうけど、このワークフローを使えばAIで5分、Blenderで1時間いじって、固体モデルから元の像の曲線的なワイヤーフレームスタイルに変えられた。

GPT-5はテキスト専用モデルだよ。ChatGPTはまだ画像には4oを使ってる。

  1. […] 元の画像をマットレンダリングされたメッシュに近いものに変換する […] 面白そうだね。そういう例の画像、何か共有してもらえる? 透明な表面を透明じゃなくするって部分は理解できるけど、その後の全体の画像がどうなるのかはよくわからないな。それに、これを実現するために入力するプロンプトも教えてくれない?

Blenderを約7年使っていて、Blender Stack Exchangeで1000以上の回答をして、総スコアが48,000の私から言わせてもらうと:このツールはPythonを学びたいなら役立つかも、特にBlenderのPython APIの基本を学ぶにはね。他の使い道はあまり見えない。提示された例はすごく簡単にできるし、こんなツールは使わない方がいいよ。プロンプトを取って、可能な限り平凡なバージョンを生成するから。Blenderでこういうモデルを作るのは、チュートリアルをいくつかやれば1日もかからない。単色や基本的なテクスチャでね。あとの何千日も、正しいトポロジーを作ったり、アーマチュアを作ったり、アニメーションを付けたり、もっと高度なシェーダーを作ったり、パラメトリックジオメトリノードのセットアップを作ったりするのに使う時間だよ。でも、こういうシンプルなモデルは楽に作れるし、それが君のモデルになる。君が想像した通り(もちろんざっくりだけど)にね。数週間後には、プロンプトエンジニアリングにかかる時間よりも早くモデルを作れるようになると思う。その頃には、君の想像力、Blenderのスキル、3Dの技術的な理解が向上して、どんどん良くなっていくよ。このAIを使って何を学ぶの?私はmesh.aiの方がずっと期待できると思うけど、写真やレンダリングをテクスチャが適切に配置されたメッシュに変換したいときにだけ使うかもしれない。それからメッシュを彫刻で洗練させるためにね。ちなみに、meshy.aiの使い方を示すテストを作ったよ: https://blender.stackexchange.com/a/319797/60486

でも、このツールは今が最悪の状態だってことを忘れないで。こういう作業はどんどん良くなっていくし、LLM技術のこういうアプリケーションはまだ始まったばかりだからね。

もしBlenderを数週間かけて学びたくないとしたら? たった数時間で十分なものを手に入れたいだけなんだけど。

顧客サービスツールのAIを担当しているデザイナー/開発者として、LLMがクリエイティブじゃないことや会話をうまく進められないことを関係者に何度も伝えなきゃいけないのが大変だよね。もっとAIをツールに組み込んで、作業を早くする方法に焦点を当ててほしいな。全部をこなそうとするのはやめてほしい。まだまだ簡単にできることがたくさんあるし。明らかに必要なもの(IDEなど)を除いて、Fusion360のAI自動制約みたいなツールがもっとあればいいのに。面倒でクリエイティブじゃない作業をかなり時間短縮できるからね。Blenderでも似たような統合があればいいなと思う。正直、OPが投稿した中で一番面白いのは素材を変えることだし、ヌードルをつなげるのにかかる時間をかなり節約できると思う。

ここには面白いポイントがあると思う。モデルが計画や推論ができるとしても、クリエイターのスキルの一部は、正しいことを要求するためにはそのモデルがどのようにアーティファクトを生成しているかを理解する必要があるってこと。3Dの場合、オペレーターとして何を求めるべきかを理解していないとできないんだよね。この特定の部分を将来の柔軟性、アニメーション、レンダリングのために特定の方法でパラメトリックに作ってほしいのか?いつ?なぜ?そして、これらの技術の理解がクリエイティブなアイデアを生むのか?視覚的な結果だけで訓練されたモデルは、そういった制約を追加しないよ。たとえこの技術の将来のバージョンがもっと進化して複雑なモデルを生成できるようになっても、自分の大きなビジョンにどうフィットするかを評価して計画するためのスキルセットを身につける必要があるんだ。そのスキルセットには基本が必要だよ。

他にこの使い方は見当たらないな。私の考えでは、これは高忠実度のプロンプトベースの画像生成の未来であって、拡散モデルではないと思う。サイクル(または他の物理ベースのレンダラー)は、確率的ではないから、ツールに渡す前にLLMを使ってシーンを生成する方が、少なくとも「リアルな」出力に関しては優れた結果をもたらすと思う。

私の趣味の一つはHoudiniで、Blenderに似てるんだ。あなたの言う通り、数日でいい感じのパラメータ化されたモデルを作ることはできるけど、全体のシーンや短編映画を作りたいなら、何百、何千ものモデルが必要になるし、それらはすべてテクスチャやトポロジーが必要で、多くはリグ付けやアニメーション、さらにはシミュレーションも必要なんだ。つまり、2分の短編アニメを作るのはソロアーティストには手が届かないってこと。今のところ、資産パックを買って最善を尽くすしか選択肢がない。でも、そうすると当然、アートはその資産パックに似たものになっちゃう。こういうAIツールは、20以上のステージのうちの1つをソロで作業する人が手の届くものに減らしてくれるんだ。

ここで注目すべきはエージェントのワークフローだと思う。LLM(大規模言語モデル)が3Dの世界理解を深めていくにつれて、いろんな場面で役立つようになるはず。エラーチェックやバグ修正で人間を外すのは、たとえそれがエキスパートのEtherlord87みたいな人がちょっとしたバグ修正や提案を受けるためのバックグラウンドプロセスだとしても、役に立つと思うよ。それに、こういうものをプログラム的に操作できるのはめっちゃ便利だし、どんどん役立つようになるだろうね。

3Dモデルのクオリティを批判する前に、ダンシングベイビーや初期のピクサーのアニメーションを思い出してみて。これ、すごいよね。自分のLLMにほぼ完成形の3Dモデルを生成させて、あとはちょっと調整してテクスチャ貼って焼き付けてエクスポートするだけになるのが待ちきれないよ。

LLMは言語モデルだよ。メッシュは言語じゃない。確かに、シンプルなオブジェクトを作るためのPythonを生成することはできるけど、実際に美しい3Dアートを作るのはそんなやり方じゃない。誰もベクターアートを作るために手書きでSVGファイルを書いたりしないでしょ。LLMだけでは視覚芸術は作れないんだ。他のモデルへのインターフェースを提供することはできるけど、これがその目的じゃないよ。

大きなトークンモデルがすべてに向かってきてる。だって、すべてがトークンにできるから。ここで言語を経由する必要はなくて、これらのモデルはますます流暢にジオメトリを話せるようになってる。

そうだね、word2vecがみんなの頭を吹っ飛ばしたのと同じように、3Dモデルはずっと「ベクタースペース」に存在してきたんだ。

これはすごくいい観察だね。AIが生成したデータに対するネガティブな反応は、言語の限界から来ていることが多い気がする。だから、ユーザーの良いクリエイティブな入力を否定してしまうんだよね。

ほとんどの最先端のLLMがマルチモーダル/ビジョンモデルでもあることを考えると、LLMが視覚的なフィードバックを受け取ることで、より良い結果が得られるんじゃないかな?

自転車でペリカンできるの?