世界を動かす技術を、日本語で。

Moondream 3 プレビュー:フロンティアレベルの推論を驚異的な速度で

概要

  • Moondream 3 は、9B MoEアーキテクチャを採用した新しいビジュアル推論AIモデル。
  • 2Bアクティブパラメータ で、推論速度とコスト効率を両立。
  • 文脈長を 32kトークン に拡大し、複雑なクエリや出力に対応。
  • 物体検出・構造化出力・OCR など、実用的なビジョンタスクで高精度。
  • 強化学習 による効率的な後処理学習と今後の最適化予定。

Moondream 3 プレビュー発表

  • Moondream 3 は2025年9月18日にプレビューリリース
  • 9B MoE(Mixture of Experts)構造、2Bアクティブパラメータ採用
  • フロンティアレベルの視覚推論能力 と高速・省コスト推論の両立
  • 文脈長32kトークン へ拡張、複雑なクエリ・応答生成が可能

新アーキテクチャ導入の背景

  • AIの物理世界での応用拡大 を目指した設計
    • 家庭用ロボット、受付、建物点検など現実世界タスクへの対応
  • 重点分野
    • 視覚推論 :小型モデルでも高い能力維持
    • 学習容易性 :専門タスクへ柔軟に適応可能
    • 高速性 :リアルタイム性が求められる用途への対応
    • 低コスト :大量画像処理時の運用コスト削減

Moondream 3の特徴

  • 9B MoEモデル、2Bアクティブパラメータで高性能・低コスト
  • トレーニング効率向上、特に強化学習(RL)時に効果発揮
  • 文脈長2k→32k へ大幅拡張、長文・複雑タスクに対応

Moondream 3の実用例

  • 物体検出
    • 単純なラベル付けを超え、複雑なクエリにも対応
    • 他のフロンティアモデルと比較しても高精度
  • ポインティング
    • 画像内の特定オブジェクト指示機能をネイティブサポート
  • 構造化出力
    • 長文脈を活かし、最小限のプロンプトでJSONなど構造化データを生成
  • OCR(光学文字認識)
    • 小さいフォントには課題が残るが、現実的な利用が可能な精度へ大幅向上

ベンチマークとパフォーマンス

  • フロンティアモデルとの比較 で同等または優越するケースも確認
    • Moondream 3は 推論速度が圧倒的に速い 点が特徴
  • 今後さらに詳細なベンチマークと推論時間の公開予定

技術ノート

  • 64エキスパートの細粒度スパースMoE、各トークンで8エキスパート活性化
  • Moondream 2(2B denseモデル)からドロップアップサイクリングで初期化
  • 32Kトークン文脈長 を事前学習時からインターリーブサンプルで拡張
  • 学習済み温度スケーリング により長文脈処理能力を強化
  • ハイブリッド推論モデル として、推論・非推論モード両対応
  • 視覚的根拠を明示するグラウンディング機能 を搭載
    • Playground上でテキストに対応する画像部分を可視化可能
  • 強化学習後処理 で能力向上、特に視覚推論例への依存度増加
  • ロードバランシング・ルーター直交性損失 で初期トークン専門化促進
  • 注意機構のチューニング (温度・LSE抑制)で精度・明瞭性向上

注意事項・今後の展望

  • 推論コード最適化は未完了、現時点では想定より遅い
  • モデルは引き続き学習中、今後能力とベンチマークスコア向上予定
  • 量子化版・縮小版などバリエーション展開予定
  • Moondream Playgroundで利用可能、HuggingFaceからダウンロード可
  • 質問・フィードバックはDiscordで受付中

補足

  • フロンティアモデルは物体検出をネイティブサポートしない ため、特定のプロンプトを使用して比較検証

この内容はMoondream 3プレビューリリースの公式発表に基づき、要点を日本語で簡潔にまとめたものです。

Hackerたちの意見

Moondream 2は私にとってすごく役立ってる。新しいクラスの物体検出データセットを自動でラベル付けするのに使ってるし、同じくらい正確だけどサイズが桁違いに小さいCNNを作るのにも役立ってる。ただ、2025-01-09のタグ以降に言われてる改善は見たことがないんだよね。次のリリースではリコールが改善されるけど、精度がかなり落ちちゃう。こういう物体検出のVLMがクラスの信頼度を報告してくれたら、もっとこの問題に対処できると思う。でも、専用の物体検出APIがあるのはすごくいいし、他のモデルやラッパーにはないと思う。Moondream 3の推論後の最適化が楽しみだな。チームにおめでとう!創業者のVikはXでフォローする価値ありだよ。

自動ラベリングにも使ってるけど、マジですごい!

ありがとう!もし精度やリコールの問題についての例があれば、vik@m87.aiに連絡してくれるとめっちゃ助かる。

すごいね!誰かコンピュータやブラウザの操作に使った人いる?グラフやチャートにはどうかな?

「ポイント」スキルはたくさんのUIデータでトレーニングされてる。多くの人がUI自動化のために大きなドライバーモデルと組み合わせて使ってるって聞いたよ。最終リリース前にエージェント的な設定でエンドツーエンドで動くようにポストトレーニングする予定なんだ。これがモデルのコンテキスト長を増やした主な理由の一つだよ。チャートの理解についてだけど、いろんなタイプのチャートがあるけど、結構うまくいってる!ブログにChartQAのベンチマークを載せたけど、GPT5*と同等で、Gemini 2.5 Flashより少し良いくらい。*GPT5に公平を期すと、Moondreamよりも多くのタイプのチャートやグラフにうまく対応できると思う。Moondreamに公平を期すと、コストやレイテンシの関係で多くのビジョンAIアプリケーションにはGPT5はあまり適してないんだよね。

それでデータセットにラベル付けしてるところ。どうなるか見てみよう。

paper.designでユーザーがアップロードした画像を説明するためにMoondream2を使ってる(レイヤーツリーの自動ラベル用)。信じられないくらい速くて正確だよ。3も試すのが楽しみ :)

新しいQwen3-VLモデルに対してはどうなの?

COCOやObject356データセットでのオブジェクト検出のスコアがどうなるか、興味あるなぁ。専用のオブジェクト検出モデルより遅いのは分かってるけどね。

Moondreamクラウドの基本的な料金情報を得るのに5分かけたけど、どうやらそれが存在しないみたい(もしくは実際にサインアップしないと分からないのかな?)。5,000回の無料リクエストはあるけど、アプリに接続する前に、まずは料金が妥当か確認したいんだよね。

ここでのMoEアーキテクチャの選択は特に面白いね。2Bのパラメータだけをアクティブにして8Bモデルのパフォーマンスを維持できるのは、エッジデプロイメントにとって革命的だと思う。レイテンシが重要な生産環境でビジョンモデルをデプロイしてきたけど、このスパースアクティベーションアプローチが、大きなVLMの採用を制限していた推論コストの問題を解決できるかもしれない。自動文書分析ワークフローにおけるチャート理解能力も期待できそうだね。異なる画像品質や照明条件でのモデルの一貫性をテストした人いる?小さいモデルがフロンティアのものに比べて苦戦することが多いから。

これ、すごくいいね!バウンディングボックスの操作に関してはGeminiの大ファンなんだけど、9Bモデルがそれを上回る可能性があるなんて、めっちゃワクワクする!Moondream 2はApache 2ライセンスだったけど、3のプレビューは現在BSLになってるみたい(「契約なしでは、モデルの機能を組織外の誰かに提供できない—例えば、外部APIや顧客向けのマネージドホスティング」)けど、これはライセンス方針の恒久的な変更なの?

https://huggingface.co/moondream/moondream3-preview/blob/mai... で、ライセンスが2年後にApache 2に変更されることに気づいた。

2Bのアクティブパラメータの概念がトークンごとの推論を指しているのか、そしてこれがコンテキストの長さにどうスケールするのか、詳しく教えてもらえる?特に、推論中のアクティベーションに対するMoEの影響や、レイテンシへの実際的な影響について。

Moondreamモデルのパフォーマンスは本当に impressive だけど、大手3つのラボの結果を見ると、ClaudeとOpenAIのパフォーマンスがこんなに悪いのは驚きだね。GeminiはMoondreamほど良くはないけど、ビジョンタスクでは明らかに半分以上はまともな唯一のものだよ。こんなにパフォーマンスの差があるとは思わなかった。