Muse Spark: 個人の超知能に向けたスケーリング

32日前原文(ai.meta.com)

概要

Meta Superintelligence Labs が開発した Muse Spark の発表
マルチモーダル推論 ・ツール利用・複数エージェント協調を特徴
健康・科学・個人利用 など多様な応用例
効率的なスケーリング と安全性評価の実施
今後のモデル拡張と 個人向け超知能 への展望

Muse Spark：Meta Superintelligence Labsによる新AIモデルの概要

Muse Spark はMeta Superintelligence Labsが開発した 最初のMuseファミリーモデル
マルチモーダル推論 をネイティブに実現、ツール利用や視覚的連鎖思考、複数エージェント協調をサポート
meta.ai および Meta AIアプリ で本日より利用可能、選定ユーザー向けに APIプライベートプレビュー も提供
競争力ある性能 をマルチモーダル認識・推論・健康・エージェントタスクで発揮
現状の課題領域（長期的エージェントシステムやコーディングワークフロー）にも継続投資

Muse Sparkの主な機能と応用例

視覚情報統合 によるSTEM分野の質問、エンティティ認識、ローカリゼーションで高い性能
インタラクティブ体験 の実現（例：ミニゲーム作成、家電トラブルシューティング）
健康分野 では1,000人以上の医師と協業し、事実に基づいた包括的な回答を強化
- 栄養情報や運動時の筋肉解説などのインタラクティブ表示
直感的なプロンプト例 ：
- ウェブ上で遊べる数独ゲーム作成
- コーヒーマシンの主要部品識別およびインタラクティブチュートリアル
- 健康状態に基づいた食品推奨マッピング（点の色分け・スコア表示）
- ヨガフォームの筋肉部位・難易度・フォーム修正アドバイス表示

スケーリング戦略と技術的進化

プリトレーニング でマルチモーダル理解・推論・コーディング能力を獲得
- モデル構造・最適化・データ選定など全面刷新
- Llama 4 Maverick 比で1桁以上少ない計算量で同等性能を達成
強化学習（RL） による能力増幅
- 大規模RLでも安定した成長を実現
- パフォーマンス指標（pass@1, pass@16）の向上と汎用性の確保
テスト時推論 の最適化
- 思考時間ペナルティとマルチエージェント協調で効率化
- トークン数を抑えつつ正確性を最大化
- 並列エージェントによるレイテンシー低下と性能向上

安全性評価とリスク管理

Advanced AI Scaling Framework に基づく安全性評価の実施
- 生物・化学兵器等の高リスク領域での拒否行動を確認
- サイバーセキュリティや制御不能リスクも安全域内
Apollo Research による第三者評価で高い評価認識率
- 評価文脈の認識が行動に与える影響は限定的と判断
- 安全性・準備態勢レポートで詳細公開予定

今後の展望

Muse Spark は個人超知能への第一歩
モデル能力の スケーリングと進化 を継続
さらなる高機能モデルのリリースを予告

公式サイト ：meta.ai

Hackerたちの意見

これ、AI競争と19世紀の鉄道マニアがすごく似てるってことを強調してるよね。いろんな会社が同じくらい強力なAIを持つことになるから、囲い込みができなくて、安くなると思う。投資を回収することは絶対無理だね。

└

囲い込みは計算能力とエネルギーアクセスにあるんだよね。さらに先にはチップがあって、だからイーロンは今ファブを作ってるんだ。HuggingFaceにはたくさんの優秀なモデルがあるけど、実行する手段がないんだよね。

└

これがAnthropicが自社製品のサブスクリプションを制限して、APIの価格を他のモデルの数倍にしている本当の理由だと思う。アプリケーションはAPIユーザーよりも粘着性が高く、技術的でないユーザーはプログラマーよりも粘着性が高いからね（つまり、CoworkはCodeよりも粘着性がある）。

└

いや、みんなAIの話ばっかりしてるし、使ってるよね。今のところ、人間が使ってる新しいツールの中で、ダントツで人気だと思う。スマホやスプーンと同じくらい。蒸気機関みたいに、革命的な存在かも。AI企業は地球上で一番大きなソフトウェア企業になりつつあるし、すべてがその方向に向かってる。市場には集められるのを待ってる兆ドルの資金があるんだ。

└

人々が見落としてるのは、投資を人から回収する必要はないってこと。機械から回収するんだよ。

いくつか内部ベンチマークを試してみたけど、全然感心しなかった。これでOAIとAnthropic、Geminiの話には全く入れないと思う。いくつかの技術的な質問に対する返答に大きな分析ミスがあった。

└

もう少し遊んでみたけど、全然良くない。基本的な数学のミスが返答に散らばってる。基本的な敵対的テストをしてみたら、Geminiがその返答を分析して、オプスやGemini、GPTが扱えるような単純な質問に対して基本的な数学のミスを見つけてる。ヤバいね。

これを批判してるコメントが理解できない。もしこれがオプス4.6を少しでも上回るか、同等なら、メタはトップのAI企業と競争できるモデルを作れるってことだよね。確かに、たくさんお金を使ったし、今後もコストがかかるけど、それを人々が試したり（お金を払ったり）するコーディングエージェントにするにはどれだけの労力が必要なんだろう？（ClaudeやCodexなどのエージェントと一緒に使うことを考えると）それに、メタは全製品（IGやWhatsApp、VRを含む）でSATAモデルを使うために他の会社にお金を払う必要がなくなるから、長期的にはバランスシートにも影響が出ると思うよ（常に研究開発にお金を使ってるけど）。

└

これを批判してるコメントは、Llama 4のベンチマックスを覚えてる正当な懐疑派だと思う。このモデルは数ヶ月前にはもう出てたけど、Gemini 2.5プロレベルだったからリリースしなかったんだよね。

└

Opus 4.6を少しでも上回るか、せめて同じくらいにはならないよね。

└

なんでこのコメントが叩かれてるのか理解できない。人々はMetaを嫌うのが好きみたいで、理由があろうとなかろうと関係ないんだよね。正当化されるかどうかは別として、ただ多くの人のデフォルトのバイアスなんだよ。

└

ベンチマークが信じられるなら、まあまあのモデルだと思うけど、プログラミングに関してはOpusには全然敵わないね。残念ながら、これらのベンチマークは日常のコーディングタスクに役立つモデルの要素を完全には捉えてない。追いつくには時間がかかるだろうし、その間にOpusはどんどん進化していくよ。でも、競争が増えるのはいいことだね。

└

ボットや兆ドルのIPO、さらに大きな利害関係があるからだよ。人々は、進行中の操作のレベルをもっと理解する必要がある。ソーシャルメディアは異常な影響力を持ってるし、ボットや人間が投稿やナラティブのアップボート・ダウンボートのためにお金をもらってる。

リンク先のページのヒーロー画像、 muted tealの背景に「Introducing Muse Spark」って書いてあるやつ、3.5MBもあるんだよ。もう、なんで…

└

ビーチの砂について文句を言ってるみたいなもんだね。

└

いつか私たちのロボット支配者たちは、画像を最適化するのに十分賢くなるだろう！(でも、今日はその日じゃない。)

└

しかも、高解像度にも見えないし。

└

笑、実際「ウェブサイト用の画像を最適化する」ってググるのに2秒、アップロードして小さいサイズの画像を得るのに10秒かかったよ。その特定の画像の結果は：500kb。サイズが85%減った。

└

「周辺的なイライラについて文句を言わないでください—例えば、記事やウェブサイトのフォーマット、名前の衝突、バックボタンの不具合など。あまりにも一般的すぎて面白くないです。」 - Hacker News ガイドライン https://news.ycombinator.com/newsguidelines.html

└

いいところに目をつけたね。これはPNG画像で、角が丸い部分にアルファチャンネルがあって、背景には微妙なグラデーションがあるみたい。グラデーションはディザリングでレンダリングされていて、色のバンディングを防いでる。ディザーパターンはランダムだから、ノイズがたくさん入ってる。ノイズはロスレス圧縮できないから、PNGはすごく重くて6.2ビット/ピクセルもある。ウェブベースのグラフィックエディタを作ってるときに、こういう問題のあるPNGアセットをユーザーがたくさんアップロードしてるのに気づいた。原因は今まで追跡できてないけど…最近、グラデーションのディザリングレンダリングに切り替えた人気のラスタ画像エディタってあるのかな？

└

私にとっては213 kBなんだけど、置き換えたのかな？

個人情報っていうのは、Metaがあなたのデータを手に入れて、もっと広告を売るためのものだよ。

└

もし俺がクローだったら、どれだけ広告が来ても構わないよ。

Metaは変な状況にいるね。遅れてゲームに追いついたけど、チャットボットとしてllamaを出す代わりにオープンソースにしたんだ。正直、彼らはシェアを失ったからだと思う。チャットボットは自分たちの製品じゃないと思ってたけど、今は後悔してるだろうね。マークは何かのアンドロイドになりたがってて、メタバースに数十億を注ぎ込んだけど、最初に失敗した。で、llamaをオープンソースにして、LLMのアンドロイドになりたかったんだ。結局groqを可能にしたけど、Metaには全く利益がなかった。LLMからの収益やシェアの道はないのに、数十億を注ぎ続けてる。唯一の1対1のマッピングは眼鏡だけど、プライバシーとセキュリティに非常にアレルギーがある会社には厳しいね。今はこれが何なのか分からない。

└

llamaの重みが漏れたんだ。自らオープンソースにした。君の言う通りだね。MetaはChatGPTの機能をFacebook.comのチャットボットに一緒にリリースすることができたはずだけど、代わりに彼らのFAIR部門は中国企業が先に行く前に研究モデルを公開して、この分野を商品化しようとしてたみたい。Metaがユーザーに提供する結果には一般的に不満があるけど、FAIRにはあまり怒れないな。

└

彼はその後、llamaをオープンソースにして、LLMのアンドロイドになりたかった。元々のllamaがオープンソースLLMの時代を切り開いたのは確かだね。ほとんどのオリジナルのオープンソースLLMはllamaアーキテクチャに基づいてるし、今やOSSモデルはフロンティアにとても近い。Metaにはあまり利益がなかったかもしれないけど、LLMを商品化したのは間違いない。

└

groqを有効にすることになった。早く読んでる人のために言っておくけど、これはSpaceXのGrokのことじゃなくて、Groq.comのことだよ。カスタム推論チップと、https://groq.com/blog/introducing-llama-3-groq-tool-use-mode... や https://console.groq.com/landing/llama-api みたいなサービスがある。

GPT 5.4 / Gemini 3.1 Pro / Opus 4.6にかなり迫ってるね！コーディングやエージェントのベンチマークでは主にOpenAIに後れを取ってて、テキスト推論ではGoogleに、ツールを使った「人類最後の試験」ではAnthropicに遅れを取ってる（驚くことに、現在Anthropicがリードしてる唯一のベンチマーク）。Metaは完全には追いついてないけど、かなり近づいてきたし、再びフロンティアラボだとしっかり主張できると思う。今は3.5の接戦って感じかな。次のモデルが改善されることを願ってる。モデル競争が増えるのはいいことだね！可哀想なGrok 4.2はテーブルから外した方がいいかも。

└

説明されたアプローチでは、推論や長期的な問題に関してはかなり低い印象だね。例えば、16人のエージェントと圧縮があっても、HLEスコアはAnthropicのMythosよりかなり低い。君と同じように、リリースは全体的に良いことだと思うけど、各組織の最新モデルを比べると、Metaは中堅に留まってる感じだね。

Muse Sparkは、[...] 視覚的な思考の連鎖をサポートするネイティブなマルチモーダル推論モデルです。彼らは「思考の連鎖がユーザーに見える」という意味なのか（つまり、ChatGPTのように隠れてない）、それとも「思考の連鎖の媒体がテキストではなく、ビジュアルである」という意味なのか（つまり、画像で考える）。前者だと思うけど、思考のためだけに一時的な画像を生成するのは経済的じゃないからね。でも、そうだとしたら、なんでそれを強調するのか分からない。もし後者なら、めちゃくちゃ興味深い。テキストで考えない初めてのモデルになるね。

もしかしたら間違ってるかもしれないけど、確かにSOTAっぽいね。ただ、ARC-AGI-2のスコアを見ると、推論はあまり良くないみたい。スケールの利点はあるけど、人間の追加要素が欠けてる気がする。彼らがゼロから作ってるって言ってるから、理解できるけどね。良いチームがいれば、時間が経てば改善されるはず。実際には、使うときにオーバーフィッティングを心配するだろうな。（広告の条件に同意してないから、私は使ってないけど。）

Metaチーム、モデルテーブルでモデル#800になったことおめでとう！ https://lifearchitect.ai/models-table/

ハクソク