世界を動かす技術を、日本語で。

改善された「Gemini 2.5 Flash」と「Flash-Lite」

概要

  • Googleは Gemini 2.5 Flash および 2.5 Flash-Lite のアップデート版をリリース
  • 品質向上効率化 が主な改善点
  • トークンコスト削減応答速度向上 を実現
  • 新機能改善点 の詳細説明
  • テスト用モデル名新しいエイリアス についても案内

Gemini 2.5 Flash / 2.5 Flash-Lite アップデート概要

  • Google AI Studio および Vertex AI で最新版の利用が可能
  • 既存の安定版モデルと比べ、 品質速度 の両面で向上
  • Gemini 2.5 Flash-Lite :出力トークン数を 50%削減、コストも大幅減
  • Gemini 2.5 Flash :出力トークン数を 24%削減、効率性向上

Gemini 2.5 Flash-Liteの主な改善点

  • 複雑な指示やプロンプト への追従能力向上
  • 冗長性削減 による簡潔な回答、トークンコストとレイテンシ低減
  • マルチモーダル翻訳機能 の強化
    • より正確な 音声書き起こし
    • 画像理解能力 の向上
    • 翻訳品質 の改善
  • テスト利用時のモデル名: gemini-2.5-flash-lite-preview-09-2025

Gemini 2.5 Flashの主な改善点

  • エージェント的ツール利用 能力の向上
    • 複雑かつ多段階のアプリケーションでのパフォーマンス改善
    • SWE-Bench Verified で5%向上(48.9%→54%)
  • コスト効率 の大幅改善
    • 同等以上の品質を より少ないトークン で実現
    • レイテンシおよびコストの削減
  • 早期テスターからの 高評価
    • Manus社による長期タスクでの 15%パフォーマンス向上
  • テスト利用時のモデル名: gemini-2.5-flash-preview-09-2025

最新モデルへのアクセスの簡素化

  • -latestエイリアス の導入
    • 各モデルファミリーの最新バージョンへ自動的にアクセス可能
    • コード修正不要で新機能の試用が容易
    • gemini-flash-latestgemini-flash-lite-latest で利用
  • 安定性重視の場合 は従来のモデル名( gemini-2.5-flashgemini-2.5-flash-lite)を推奨
  • バージョン更新や廃止時は2週間前に通知
    • メールでの案内
    • エイリアスの性質上、 レート制限コスト機能 はリリースごとに変動

今後の展開

  • Geminiの進化 は継続
    • 今回のリリースはさらなる発展への一歩
    • 近いうちに追加情報を発表予定
  • フィードバックとテスト を通じ、安定版の品質向上に反映予定
  • 開発者へのメッセージ :最新のGeminiでの開発を推奨

Hackerたちの意見

非AI要約: 両モデルは、人工分析インデックスでの知能が向上し、エンドツーエンドの応答時間が短縮されました。また、出力トークン効率が24%から50%向上し、コストが低くなっています。Gemini 2.5 Flash-Liteの改善点には、指示に従う能力の向上、冗長性の削減、マルチモーダルおよび翻訳機能の強化が含まれます。Gemini 2.5 Flashの改善点には、エージェントツールの使用が向上し、トークン効率の良い推論が含まれます。モデル文字列: gemini-2.5-flash-lite-preview-09-2025 と gemini-2.5-flash-preview-09-2025

2.5 Flashは、AIが本当に自分にとって役立つと感じた初めての時だ。以前はAIが大嫌いだったけど、今はGoogle検索の代わりにGeminiアプリを使ってる。全ての面で優れていて、広告もないし。提供される情報は大体正しいし、アプリ内でインターネットの一般的で正確な知識が手のひらにあるような感覚。もっと親密で、気が散らない。ママブロガーやボット、SEOスパムじゃなくて、Geminiアプリと二人三脚でケールの理想的な発芽温度について話してる感じ。これをGoogleがどれだけ続けられるか、そして彼らの収益モデルを食い潰すのがどうなるかは別の問題だけど…。

「非AI要約」ってのが流行りそうだね。誰かが内容を考えてくれたって知ってるから、読むのが楽しいんだよね。

「出力トークン効率」って何を指してるのか分かる?ジェミニフラッシュは入力/出力トークンの数で課金されるんだけど、同じ出力に対しては固定だと思うから、どうしてコストが下がるのか理解に苦しんでる。もちろん、新しいバージョンでトークン化が変わったなら別だけど。

これありがとう、段階的な改善みたいだね。

「より良い」LLMをどう評価すればいいのか、正確に同じモデル(Qwen3)とプロンプトを使っても、Qwen Chat、OpenRouter、ローカルでの実行で全然違う反応が返ってくるから、よくわからない。

それはモデル自体ではなく、システムプロンプトの違いだね。

同じモデルからの応答が異なる理由はいくつかあるよ:

  • 「温度」 - 次のトークンの中で最も可能性の高いものから意図的にランダムサンプリングして「創造性」を高め、繰り返しを避けるため
  • 量子化 - 数値精度を下げてモデルを動かすことで、メモリと計算を節約しつつ、精度にあまり影響を与えない
  • システムプロンプトの違い、特にQwen Chatのようなエンドユーザー向けのものを使うとき
  • ちょっと決定論的でないGPU加速 ベンチマークは通常、温度ゼロ(常に最も可能性の高い次のトークンを取る)で、フル精度の重みを使い、必要なフォーマットやターン終了トークン以外の追加はしない。通常、選択肢形式か、非常に短い応答を期待するから、実行ごとの変動が少なくなるんだ。もちろん、ベンチマークだけではすべてを教えてくれないけど、実際のパフォーマンスはかなり違うことがあるよ。

qwenについてはわからないけど、Deepseekの面白いところは、公式APIがほとんどパラメータをサポートしてないのに、openrouterのvllmホストはサポートしてるってこと。再ホスティングの体験は全然違うよ、サンプラーが使えるからね。

Gemini 2.5 Flashは、価格に対してかなり印象的なモデルだと思う。でも、なんでGemini 2.0 Flashがまだ人気なのかは理解できない。先週のOpenRouterからのデータ: * xAI: Grok Code Fast 1: 1.15T * Anthropic: Claude Sonnet 4: 586B * Google: Gemini 2.5 Flash: 325B * Sonoma Sky Alpha: 227B * Google: Gemini 2.0 Flash: 187B * DeepSeek: DeepSeek V3.1(無料): 180B * xAI: Grok 4 Fast(無料): 158B * OpenAI: GPT-4.1 Mini: 157B * DeepSeek: DeepSeek V3 0324: 142B

2.5 Flashのアップデートで名前をそのまま残した理由も同じかも。最新の名前を指摘するのが面倒な人が多いから。

Grokがこんなに人気なのはなぜだろう?

うちの会社では、誰もアップグレードしようとしない古いモデルでたくさんのワークロードがあるのは知ってる。

Gemini 2.0 Flashは、かなりの差で最も優れた高速非推論モデルだよ。多くのことは推論を必要としないからね。

価格について言うと、2.0 Flashは2.5 Flashより安いけど、それでもかなり良いモデルだよ。

安くて早いじゃん。何が分からないの?

OpenRouterに関しての私の大きな問題は、彼らが各モデルを使っている会社の数を全く示していないことだね。私が知る限り、そこには巨大な企業がいくつかいて、もし彼らがモデルを切り替えたら、その全体の評価にすぐ影響が出ると思う。ボリュームについてもう少し透明性があれば、そういうことが起きているかどうか分かるんだけど。

最後のバージョンでコード生成をいじってたんだけど、このアップデートでついにClaudeと同じくらいのレイテンシーになるかも。新しいプレビューのベンチマーク試した人いる?

モデル特有のセマンティックバージョニング(SemVer)を作る必要があると思う。どの程度の変更があったのかを明確にするためにね。完全に新しい事前トレーニングプロセスやアーキテクチャと、標準的なRLHFサイクルや最適化を区別する何かが必要だよ。

Googleは、レイテンシー/TPS/コストの面で本当に焦点を当てている主要な基盤モデルプロバイダーのようだね。AnthropicやOpenAIはモデルの知能で大きな進展を遂げているけど、パフォーマンスの重要な閾値を下回ると、長い思考時間がコラボレーションツールでのワークフローをかなり悪化させるんだ。ちょっと賢さが劣るけど、すごくスナッピーなモデルと比べるとね。微妙なバランスだよ、これらのGeminiモデルは時々ClaudeやGPT-5と比べると完全にロボトミーされたように感じることもあるし。

それには同意できないな。ジェミニは価格/性能だけじゃないんだよね。皮肉なことに、最近まではあまり人気がなかったけど、ほとんどの時間で「ノーマル」モデルとしては一番なんだ。エージェント的なこと、特にコーディングには弱いけど、クロードや今のGPT-5と比べると比べ物にならないくらい。ランダムなことを聞くのには向いてるし、特に長い会話を続けるのが得意なんだよね。非技術系のユーザーはそういう傾向があるから、ジェミニが勝つ。長いコンテキストを扱うのが一番得意で、昔の発言もちゃんと気づくし。今週の初めにデバッグをしてたんだけど、特にデバッグの時は、同じプロンプト/会話でソネットやGPT-5、2.5プロを並行して使うのが好きなんだ。ジェミニだけが、4メッセージくらいのところで、ログの中の非常に関連性のあることを最初のメッセージで指摘してくれた。GPTとソネットはそれに気づかず、間違ったサンプルコードを出してきたから、ジェミニを使ってなかったらもっと時間を無駄にしてたと思う。低リソース言語でもまだ一番得意だし、あまりボーッとしない(ソネットやChatGPT)けど、頑固すぎることもない(生のGPT-5 API)。OCRや画像認識に関しては圧倒的に一番で、普通のユーザーがかなり使ってる。GoogleはマーケティングとAIのUXがひどいけど、いつかは改善するだろうね。もう「コスパ」だけのプレイヤーじゃないし。ちなみに、上で挙げた3つは毎日いろんなタスクで使ってて、パフォーマンスを比較するために並行して使うことも多いよ。

私の意見では、レイテンシ/TPS/コストの競争は完全にグロックとジェミニフラッシュの間だけだね。どのモデルも彼らには敵わない(特に画像からテキスト関連のタスクでは)。OpenAIやアンスロピックはこの競争に全く興味がないみたい。

あなたが描いているこの二項対立が、ちゃんとした検証に耐えるとは思えないな。私の理解では、ジェミニは「知性」に関してはあまり遅れていないし、次のモデルサイクルでは少なくともギャップを縮め続けると思うんだけど。もし違うことを示すベンチマークがあれば教えてほしいな。ちなみに、Googleがやっていることの一つで、あなたの「レイテンシー/TPS/コストの次元」に関するポイントにも関係しているかもしれないのは、チャット以外の面白い製品に彼らのモデルを統合していることだね。これには、LLMトレンドに「遅い」と批判されていた割には驚くべきスピードで進んでいるように見える。Google WorkspaceやGoogle検索の表面は今や明らかだけど、ジェミニが出てくる他の面白い場所もあるよ。例えば、https://jules.google/とか、クリエイティブな分野での実験やベータ版についても言及しないわけにはいかないね。今日気づいたもう一つは、https://www.google.com/finance/beta こんなファイナンスダッシュボードにジェミニを載せるのは、いろんな規制(やその他の)監視を招くと思ったんだけど…「遅い」既存企業には合わないよね。でも、今の状況を考えると、Googleは他のどの企業とも同じように突き進んでいるみたいで、リソースや表面積もはるかに多い。YouTubeにジェミニが統合されたらどうなるんだろう。今のところ、日数を数えているだけのように感じるね…

Gemini 2.5 Flashは最近、いろんな分野で一番使っているLLMだね。特に画像入力や構造化出力では、OpenAIやAnthropicを上回っていると思う。

でも、価格が変わったかはちょっと分からないな。 :/

ジェミニ2.5フラッシュは、私の多くのタスクでChatGPT 5を圧倒していて、もっと人気が出てもいいと思うんだけど。

これはちょっとした指摘だけど、改善があることを示すためにバージョン番号の一部を増やさないのはどうして?このリリースは混乱するよ。

それが現在のモデルを超えると思う。だから最終的には2.5フラッシュが新しくて改善された2.5フラッシュになるんじゃないかな、2.6じゃなくて。OpenAIが4-oモデルを更新したのと同じように、みんなに影響を与えるようなことがあったから、戻さなきゃいけなくなったんだよね(それはチャットだけでAPIじゃなかったかも)。

これが私の不満なんだよね… アンスロピックも似たようなことをしたけど、最近「ナーフ」って叫ばれて逆効果になった。私たちはこれらのトークンを買うけど、限られたティアでやるのはすごく難しいし、1年で期限切れになるし、バックグラウンドでどれくらいレスポンスが変わってるかも分からない。1%の改善や減少でも、開示してほしいな。基盤となるAI企業が構築しているものは本当に怖いと思う。透明性とアクセスは重要だよね。 [1] https://status.claude.com/incidents/h26lykctfnsz

それを細かいことだとは思わないよ、かなりイライラする。そんなポリシーだとバージョン番号が役に立たなくなる。

最近、ジェミニで体験していることを本当に表してるな。モデルはちゃんと動けば本当に能力があるんだけど、常に発生する切り捨ての問題があって、実際には信頼性がないんだ。ずっとこの問題に直面していて、応答が途中で止まることが多いんだ。トークン制限やコンテンツフィルターのせいじゃなくて、モデルが完了を信号する方法にバグがあるみたい。これについては、彼らのGitHubや開発フォーラムで数ヶ月前からP2の問題として文書化されてる。イライラするのは、完全なジェミニの応答とClaudeやGPT-4を比較すると、質がかなり良いことが多いんだ。でも、信頼性はピークパフォーマンスよりも重要だよね。私は、完全な(ちょっと劣るかもしれないけど)応答を一貫して提供してくれるモデルと、一時的な思考を半分だけ出して、続けるように常に促さなきゃいけないモデルのどちらかを選ぶなら、前者の方がいい。Googleは明らかに基盤技術を持っているのに、これらの基本的な会話の流れの問題が解決されるまで、ジェミニは競合と比べて壊れているように感じ続けるだろうね。https://github.com/googleapis/js-genai/issues/707 https://discuss.ai.google.dev/t/gemini-2-5-pro-incomplete-re...

ChatGPTにも信頼性の問題がたくさんあるよね。

それ、ChatGPTでもよくあったよね。

その問題に関する最新のコメントは、試せる修正があるって言ってる人だよ。

残念ながら、Geminiだけが原因じゃないんだよね。自分もChatGPTの信頼性に大きな問題を抱えてる。

私はこのモデルにサポートを追加したから、こんな風に実行できるよ(uvxを使っているから、最初に何かをインストールする必要はないよ):export LLM_GEMINI_KEY='...' uvx --isolated --with llm-gemini llm -m gemini-flash-lite-latest 'カエルとアヒルの戦争についての壮大な詩' リリースノート:https://github.com/simonw/llm-gemini/releases/tag/0.26 ペリカン:https://github.com/simonw/llm-gemini/issues/104#issuecomment...

最終的に勝つのは誰?カエル?アヒル?それともペリカン?