世界を動かす技術を、日本語で。

MAI-Code-1-フラッシュ

概要

  • 世界トップクラスの才能が集う 俊敏な研究チーム
  • 次世代 GB200クラスタ の運用開始
  • 数十億人規模 のユーザーインパクトを目指す
  • 低エゴ・高志向 の人材を歓迎
  • 新モデル群「MAI」 の公開

MAI Labの魅力とミッション

  • 世界有数の 才能 による少数精鋭チーム
  • 迅速な意思決定 と実験を重視
  • MAI の計算資源ロードマップを推進
  • 新世代 GB200クラスタ の本格稼働
  • 野心的なミッション の実現を目指す組織文化
  • プロダクトチーム との強力なパートナーシップ
    • モデルの グローバル展開 を加速
    • 数十億人 へのリーチと社会的インパクト
  • 謙虚さ向上心 を兼ね備えた人材を歓迎
  • 次世代モデル開発の 最前線 で活躍できる環境

MAIモデル群の公開

参加者へのメッセージ

  • 新しい挑戦 を求めるエンジニア・研究者を歓迎
  • 自己成長グローバルな影響力 を両立できる職場
  • オープンなコラボレーション多様な視点 を重視
  • 次世代AIモデルの 開発・社会実装 に貢献可能

Hackerたちの意見

イントロのブログ記事にはもっと情報が載ってるよ。 https://microsoft.ai/news/introducingmai-code-1-flash/ モデルカードもここにあるよ。 https://microsoft.ai/pdf/MAI-Code-1-Flash-Model-Card.PDF 7つのMAIモデルの広報発表が、タイトルの5Bのアクティブな部分の由来みたいだね。 https://microsoft.ai/news/building-a-hillclimbing-machine-la...

ありがとう!ブログのリンクを一番上に変えて、他のリンクはトップテキストに入れたよ。

ベンチマークがこんなに低いのが不思議なんだけど、モデルは革命的って宣伝されてるよね。低いコーディング能力が問題じゃないって言うなら、トークンの価格上昇や「一般的な使用」のモデル設定についても言ってみてよ。数学エージェントとして売ればいいのに。なんでお互いの作業をチェックするために4つのエージェントを設定しなきゃいけないの?

コストパフォーマンスが大事だよね。5Bパラメータでこのスコアはかなりいいし、ちょっと前までは信じられないレベルだった。小さいモデルはどんどん良くなっていくと思うし、クラウドの最先端モデルも小さくなるだろうね。今の構築が鉄道のように感じる理由の一つだね。

誰か実際にこの小さいモデルをコーディングに使ってる人いる? もしそうなら、どうやって使ってるの? 自分はいつもOpusを使ってるけど。重いモデルで計画・設計・アーキテクトして、その後小さいモデルに構造化されたタスクを任せるのがいいのかな? 両方の方法を試した人の意見を聞きたいな。

自分はGemini 3 Flashを使ってるけど、Claude Codeのセットアップも見たことあるよ。Anthropicの人たちがトークンを押し上げてるけど、自分は少ないお金で結果を出せてる。

Opusを使って計画して、ローカルで実行する。

自分も同じこと考えてた。全体のデザインを作るために重いモデルを使って、作業を分けて小さいモデル(もしかしてローカルのやつ?)にコーディングさせるのが理にかなってると思うんだけど… でも、どうやってそれを実現するの? 自分はClaude Codeを使ってるけど、これをハーネス内でサポートする必要があるのかな?

仕事ではOpus 4.xを使ってて、家ではこの「小型」(20-80億、3-4億アクティブ)モデルを使ってる。残念ながら、まだ比較できないね(私の意見では)。Opusだと、信頼して作業できるし、設計やアーキテクチャの提案、コードの変更も安心して任せられる。複雑なコードベースでもね。小型モデルは「頑張ってる」感じがするけど、小さなタスクには使えるけど、もっと複雑なタスクだと自分でやるよりも手間がかかることが多い。違ってほしいな、もしかしたら1年か2年後には変わるかも。

Claudeのコード自体は、Haikuでたくさんのサブエージェントを回してる。モデルの幻覚率が低いから、探索タスクには最適だと思う。これがこのモデルの一番の目的になるんじゃないかな。トークンがたくさん必要だけど、多くのタスクは計画や修正の前に複数の探索エージェントを回すから、その後はほんの数回のツール呼び出しで済むんだよね。

何とかしようとしてるんだけど、qwen 3.6 35bを具体的な仕様の最終実装に使いたいんだ(主にローカルデータのプライバシーのために)。…でも、修正にかかる時間や、試行錯誤して収束させるためのパイプラインを作るのに、Opusと比べて時間やお金の面でほとんど価値がないことが多いんだよね。

以前はすべてにopusを使ってたけど、マルチエージェントシステムに移行するとそれは選択肢じゃなくなるね。ハイエンドの研究をしてるなら別だけど。普通の開発者としてopusを使ってたら、1日で簡単に3k使っちゃうよ。より良いハーネスとフィードバック/検証者を構築するにつれて、3.5フラッシュに移行してる。中国のモデルも使えると思うけど、今は使えないんだ。一般的には、opusを動かしてるコーディネーターがいて、弱いモデルを使って行動するスキルやサブエージェントが増えてきてる。今の時点で、ほとんどの開発者がやるタスクに必要な知能レベルは超えてると思うし、コードベースのハーネスをより良く構築するにつれて、その傾向は下がっていくと思う。

重いモデルで計画/設計/アーキテクトして、構造化されたタスクを小さいモデルに委任するのが狙い? いつもそうだよ、claude codeはopusplanを使ってる — 計画モードの時はopusを使って、実行時はsonnetに切り替える。 https://code.claude.com/docs/en/model-config#opusplan-model-...

暗黙のうちに、そうだね。多くのハーネスは小さなモデルを使って小さな変更を加えることで、時間とトークンを節約するんだ。

私の経験では、Haïku 4.5のような小さなモデルは、特定のタスクに対してかなり説得力のある結果を出してるよ(それ自体はOpus 4.6のようなもっと能力のあるモデルによって生成されたもの)。私たちはこういうワークフローを生産に使って、スピード、効率、コストを最適化してる。

えーと、そのモデルカードによると、これは137Bのトータルパラメータモデルなんだね。パフォーマンスはあんまり良くないみたい。- MAI-Code-1-Flash (137B-A5B) = SWE-bench proで51% - Qwen3.6-35B-A3B = SWE-bench proで49.5% (https://huggingface.co/Qwen/Qwen3.6-35B-A3B) Claude Haikuと比較してるけど、Haikuは良くないよ。ローカルで動かせる小さいオープンモデルやAPIで10%のコストで動かせるものよりも悪い。

要するに、このモデルはHaikuと競う小型モデルなんだ。次は「Sonnet」みたいな競争モデルが出てくるといいな、その後にOpusも。Microsoftが自社で作ったCopilotのモデルをあまり出さないのは、OpenAIとの契約の一部なのかな?よくわからないけど。

137B-A5B そうだね、前のタイトルが示唆してた5Bパラメータモデルじゃないね!

マーク・ザッカーバーグは危機に瀕してるんじゃないかな。MicrosoftがClaudeのモデルと競うモデルを出してるし。で、マークのモデルについて知ってることと言えば、ハッキングされやすくなる手助けをするってことだけだね。

ちょっと待って…彼はスケールアップできるmoltbookのIPも持ってるはずだよ。マジで、Metaでは何が起こってるんだ?今働いてる人、フロンティア企業としての雰囲気を教えてくれない?

Metaが最近Muse Sparkを発表したんだけど、彼ら自身がClaude Opus 4.6 Maxと比較してる。ここでMicrosoftは、Anthropicの最小で能力の低いモデルであるClaude Haikuと比較してる。 [1] https://ai.meta.com/blog/introducing-muse-spark-msl/

昨日それをリリースしてたら、9xモデルを使ったCopilotの自動モデル選択を避けられたかもしれないのに、一日で月のクォータを静かに消費してしまった。

これは始まりだし、競争は歓迎するけど、Haiku 4.5みたいな小さいクラウドモデルは使ったことないな。可愛いけど、真剣なコーディングには高い時間を無駄にしがちだし。これで昨日キャンセルしたGitHub Copilotには戻らないだろうな。GitHub Copilotは昨日まで競争力のある価格だったのに、リクエスト単位からトークン単位の高額な料金に変わっちゃったから。マジで、彼らの燃えてるサブレディットを見て笑ってみてよ:https://www.reddit.com/r/GithubCopilot それ以来、ほぼ無料でSonnet+レベルのDeekSeek Flashに切り替えたよ。もしもっと賢いモデルが必要だと感じたら、$20/月のCodexにサインアップしてGPT 5.5を使うかも。今のところ、これがアクセスできる中で一番いいと思ってる。

DeepSeek-v4-flash、qwen-3.6-moe、古いgimini-3-flash-previewでいい結果が出てるよ。(最近のgeminisはひどいけど)今のところ、小さいモデルで十分すぎるくらいだね。大きいモデルで計画とレビューをして、小さいモデルに探検と実装を任せる感じ。OpenCode Goはオープンウェイトモデルで$10/月で、いいクォータがついてるよ:https://opencode.ai/go

ほぼ同じ話だね。DeepSeekからはほとんど拒否されることがないし、中国の価値観のおかげで、リバースエンジニアリングや著作権ファイルの発見、怪しいソースコードとのやり取りなんかでもかなりスムーズに進むよ。たとえCopilotが90%値下げしても、戻る気はしないな。

Codexがついてくる月20ドルのChatGPTプランはお得だよ。プレミアムChatGPTだけでもいい感じだし。レート制限はよくかかるけど、それでも大体のことはできるからね。

いつか「財布で投票するのを違法にする」ってことになるのかな。

市場のプレイヤーは似たような価格に収束するんじゃないかな?OpenAIが補助金をやめて真のコストを請求し、最もトークンを消費する顧客がAnthropicや他のところに移ったら、価格モデルの変更もすぐそこだと思う。もちろん、Copilotが他より長期的に高くなるとは考えてないけど、それは合理的な仮定かな?

小さなことにもちゃんと意味があるよね。俺はこのSafariの拡張機能を使ってて、人のチャット履歴にサクッとタイトルを付ける方法が必要だったんだ。俳句は、テキストの塊にそれなりのタイトルを付けるのに手軽で早い方法だと思う。そういう小さなことにモデルが必要な場面が結構ある気がする。Appleのファウンデーションモデルも、そういうのにめっちゃ役立つって感じ。記事を要約するのにも使えるしね。やってることは微妙だけど、読んでみる価値があるって感じに仕上げてくれるから、まだ使えると思う。

Copilotブランドは傷ついてるから、全部MAIの下にまとめるべきかな?

ウェブサイトにMicrosoftデザイン言語がないのはどういうこと? Anthropicのスタイルを真似しようとしてるのが痛いほどわかるし、ダサいよね。

もしかしたらクロードがコーディングしたのかも。

AI生成だと思う。

完全にマイクロソフトっぽい雰囲気だね。壊れたヘッダーとモバイルでのスクロールがその証拠。

ちょっとミニマリストすぎるかな。ページ全体で数百語しかないし!

個人的にはマイクロソフトがあんまり好きじゃないけど、このモデルをリリースしたことにはおめでとうって言いたい。スコアは他のオープンウェイトモデルと比べると良くないけど、重要なのは彼らが主張しているトレーニングデータがとてもクリーンで、合成データセットが含まれていないってことだね。