改善された「Gemini 2.5 Flash」と「Flash-Lite」

2025年9月26日原文(developers.googleblog.com)

概要

Googleは Gemini 2.5 Flash および 2.5 Flash-Lite のアップデート版をリリース
品質向上 と 効率化 が主な改善点
トークンコスト削減 と 応答速度向上 を実現
新機能 や 改善点 の詳細説明
テスト用モデル名 や 新しいエイリアス についても案内

Gemini 2.5 Flash / 2.5 Flash-Lite アップデート概要

Google AI Studio および Vertex AI で最新版の利用が可能
既存の安定版モデルと比べ、品質と速度の両面で向上
Gemini 2.5 Flash-Lite ：出力トークン数を 50%削減、コストも大幅減
Gemini 2.5 Flash ：出力トークン数を 24%削減、効率性向上

Gemini 2.5 Flash-Liteの主な改善点

複雑な指示やプロンプト への追従能力向上
冗長性削減 による簡潔な回答、トークンコストとレイテンシ低減
マルチモーダル ・ 翻訳機能 の強化
- より正確な 音声書き起こし
- 画像理解能力 の向上
- 翻訳品質 の改善
テスト利用時のモデル名： gemini-2.5-flash-lite-preview-09-2025

Gemini 2.5 Flashの主な改善点

エージェント的ツール利用 能力の向上
- 複雑かつ多段階のアプリケーションでのパフォーマンス改善
- SWE-Bench Verified で5%向上（48.9%→54%）
コスト効率 の大幅改善
- 同等以上の品質を より少ないトークン で実現
- レイテンシおよびコストの削減
早期テスターからの 高評価
- Manus社による長期タスクでの 15%パフォーマンス向上
テスト利用時のモデル名： gemini-2.5-flash-preview-09-2025

今後の展開

Geminiの進化 は継続
- 今回のリリースはさらなる発展への一歩
- 近いうちに追加情報を発表予定
フィードバックとテスト を通じ、安定版の品質向上に反映予定
開発者へのメッセージ ：最新のGeminiでの開発を推奨

Hackerたちの意見

非AI要約: 両モデルは、人工分析インデックスでの知能が向上し、エンドツーエンドの応答時間が短縮されました。また、出力トークン効率が24%から50%向上し、コストが低くなっています。Gemini 2.5 Flash-Liteの改善点には、指示に従う能力の向上、冗長性の削減、マルチモーダルおよび翻訳機能の強化が含まれます。Gemini 2.5 Flashの改善点には、エージェントツールの使用が向上し、トークン効率の良い推論が含まれます。モデル文字列: gemini-2.5-flash-lite-preview-09-2025 と gemini-2.5-flash-preview-09-2025

└

2.5 Flashは、AIが本当に自分にとって役立つと感じた初めての時だ。以前はAIが大嫌いだったけど、今はGoogle検索の代わりにGeminiアプリを使ってる。全ての面で優れていて、広告もないし。提供される情報は大体正しいし、アプリ内でインターネットの一般的で正確な知識が手のひらにあるような感覚。もっと親密で、気が散らない。ママブロガーやボット、SEOスパムじゃなくて、Geminiアプリと二人三脚でケールの理想的な発芽温度について話してる感じ。これをGoogleがどれだけ続けられるか、そして彼らの収益モデルを食い潰すのがどうなるかは別の問題だけど…。

└

「非AI要約」ってのが流行りそうだね。誰かが内容を考えてくれたって知ってるから、読むのが楽しいんだよね。

└

「出力トークン効率」って何を指してるのか分かる？ジェミニフラッシュは入力/出力トークンの数で課金されるんだけど、同じ出力に対しては固定だと思うから、どうしてコストが下がるのか理解に苦しんでる。もちろん、新しいバージョンでトークン化が変わったなら別だけど。

└

これありがとう、段階的な改善みたいだね。

「より良い」LLMをどう評価すればいいのか、正確に同じモデル（Qwen3）とプロンプトを使っても、Qwen Chat、OpenRouter、ローカルでの実行で全然違う反応が返ってくるから、よくわからない。

└

それはモデル自体ではなく、システムプロンプトの違いだね。

└

同じモデルからの応答が異なる理由はいくつかあるよ：

「温度」 - 次のトークンの中で最も可能性の高いものから意図的にランダムサンプリングして「創造性」を高め、繰り返しを避けるため
量子化 - 数値精度を下げてモデルを動かすことで、メモリと計算を節約しつつ、精度にあまり影響を与えない
システムプロンプトの違い、特にQwen Chatのようなエンドユーザー向けのものを使うとき
ちょっと決定論的でないGPU加速ベンチマークは通常、温度ゼロ（常に最も可能性の高い次のトークンを取る）で、フル精度の重みを使い、必要なフォーマットやターン終了トークン以外の追加はしない。通常、選択肢形式か、非常に短い応答を期待するから、実行ごとの変動が少なくなるんだ。もちろん、ベンチマークだけではすべてを教えてくれないけど、実際のパフォーマンスはかなり違うことがあるよ。

└

qwenについてはわからないけど、Deepseekの面白いところは、公式APIがほとんどパラメータをサポートしてないのに、openrouterのvllmホストはサポートしてるってこと。再ホスティングの体験は全然違うよ、サンプラーが使えるからね。

Gemini 2.5 Flashは、価格に対してかなり印象的なモデルだと思う。でも、なんでGemini 2.0 Flashがまだ人気なのかは理解できない。先週のOpenRouterからのデータ: * xAI: Grok Code Fast 1: 1.15T * Anthropic: Claude Sonnet 4: 586B * Google: Gemini 2.5 Flash: 325B * Sonoma Sky Alpha: 227B * Google: Gemini 2.0 Flash: 187B * DeepSeek: DeepSeek V3.1（無料）: 180B * xAI: Grok 4 Fast（無料）: 158B * OpenAI: GPT-4.1 Mini: 157B * DeepSeek: DeepSeek V3 0324: 142B

└

2.5 Flashのアップデートで名前をそのまま残した理由も同じかも。最新の名前を指摘するのが面倒な人が多いから。

└

Grokがこんなに人気なのはなぜだろう？

Hacker Newsで議論の続きを見る

ハクソク