世界を動かす技術を、日本語で。

MAI-Code-1-フラッシュ

2026年6月3日原文(microsoft.ai)

概要

  • 世界トップクラスの才能が集う 俊敏な研究チーム
  • 次世代 GB200クラスタ の運用開始
  • 数十億人規模 のユーザーインパクトを目指す
  • 低エゴ・高志向 の人材を歓迎
  • 新モデル群「MAI」 の公開

MAI Labの魅力とミッション

  • 世界有数の 才能 による少数精鋭チーム
  • 迅速な意思決定 と実験を重視
  • MAI の計算資源ロードマップを推進
  • 新世代 GB200クラスタ の本格稼働
  • 野心的なミッション の実現を目指す組織文化
  • プロダクトチーム との強力なパートナーシップ
    • モデルの グローバル展開 を加速
    • 数十億人 へのリーチと社会的インパクト
  • 謙虚さ向上心 を兼ね備えた人材を歓迎
  • 次世代モデル開発の 最前線 で活躍できる環境

MAIモデル群の公開

参加者へのメッセージ

  • 新しい挑戦 を求めるエンジニア・研究者を歓迎
  • 自己成長グローバルな影響力 を両立できる職場
  • オープンなコラボレーション多様な視点 を重視
  • 次世代AIモデルの 開発・社会実装 に貢献可能

Hackerたちの意見

イントロのブログ記事にはもっと情報が載ってるよ。 https://microsoft.ai/news/introducingmai-code-1-flash/ モデルカードもここにあるよ。 https://microsoft.ai/pdf/MAI-Code-1-Flash-Model-Card.PDF 7つのMAIモデルの広報発表が、タイトルの5Bのアクティブな部分の由来みたいだね。 https://microsoft.ai/news/building-a-hillclimbing-machine-la...

ありがとう!ブログのリンクを一番上に変えて、他のリンクはトップテキストに入れたよ。

ベンチマークがこんなに低いのが不思議なんだけど、モデルは革命的って宣伝されてるよね。低いコーディング能力が問題じゃないって言うなら、トークンの価格上昇や「一般的な使用」のモデル設定についても言ってみてよ。数学エージェントとして売ればいいのに。なんでお互いの作業をチェックするために4つのエージェントを設定しなきゃいけないの?

コストパフォーマンスが大事だよね。5Bパラメータでこのスコアはかなりいいし、ちょっと前までは信じられないレベルだった。小さいモデルはどんどん良くなっていくと思うし、クラウドの最先端モデルも小さくなるだろうね。今の構築が鉄道のように感じる理由の一つだね。

誰か実際にこの小さいモデルをコーディングに使ってる人いる? もしそうなら、どうやって使ってるの? 自分はいつもOpusを使ってるけど。重いモデルで計画・設計・アーキテクトして、その後小さいモデルに構造化されたタスクを任せるのがいいのかな? 両方の方法を試した人の意見を聞きたいな。

自分はGemini 3 Flashを使ってるけど、Claude Codeのセットアップも見たことあるよ。Anthropicの人たちがトークンを押し上げてるけど、自分は少ないお金で結果を出せてる。

Opusを使って計画して、ローカルで実行する。

自分も同じこと考えてた。全体のデザインを作るために重いモデルを使って、作業を分けて小さいモデル(もしかしてローカルのやつ?)にコーディングさせるのが理にかなってると思うんだけど… でも、どうやってそれを実現するの? 自分はClaude Codeを使ってるけど、これをハーネス内でサポートする必要があるのかな?

仕事ではOpus 4.xを使ってて、家ではこの「小型」(20-80億、3-4億アクティブ)モデルを使ってる。残念ながら、まだ比較できないね(私の意見では)。Opusだと、信頼して作業できるし、設計やアーキテクチャの提案、コードの変更も安心して任せられる。複雑なコードベースでもね。小型モデルは「頑張ってる」感じがするけど、小さなタスクには使えるけど、もっと複雑なタスクだと自分でやるよりも手間がかかることが多い。違ってほしいな、もしかしたら1年か2年後には変わるかも。

Claudeのコード自体は、Haikuでたくさんのサブエージェントを回してる。モデルの幻覚率が低いから、探索タスクには最適だと思う。これがこのモデルの一番の目的になるんじゃないかな。トークンがたくさん必要だけど、多くのタスクは計画や修正の前に複数の探索エージェントを回すから、その後はほんの数回のツール呼び出しで済むんだよね。

何とかしようとしてるんだけど、qwen 3.6 35bを具体的な仕様の最終実装に使いたいんだ(主にローカルデータのプライバシーのために)。…でも、修正にかかる時間や、試行錯誤して収束させるためのパイプラインを作るのに、Opusと比べて時間やお金の面でほとんど価値がないことが多いんだよね。

以前はすべてにopusを使ってたけど、マルチエージェントシステムに移行するとそれは選択肢じゃなくなるね。ハイエンドの研究をしてるなら別だけど。普通の開発者としてopusを使ってたら、1日で簡単に3k使っちゃうよ。より良いハーネスとフィードバック/検証者を構築するにつれて、3.5フラッシュに移行してる。中国のモデルも使えると思うけど、今は使えないんだ。一般的には、opusを動かしてるコーディネーターがいて、弱いモデルを使って行動するスキルやサブエージェントが増えてきてる。今の時点で、ほとんどの開発者がやるタスクに必要な知能レベルは超えてると思うし、コードベースのハーネスをより良く構築するにつれて、その傾向は下がっていくと思う。

Hacker Newsで議論の続きを見る