世界を動かす技術を、日本語で。

2.5 Flashおよび2.5 Pro GAの制作と、Gemini 2.5 Flash-Liteの紹介

概要

  • Gemini 2.5 FlashPro が正式リリース
  • 2.5 Flash-Lite のプレビュー版を発表
  • Flash-Liteは 最速・最安 の2.5モデル
  • 開発者や企業による 実運用事例
  • Google AI StudioVertex AI で利用可能

Gemini 2.5 Flash・Proの正式リリース

  • Gemini 2.5ハイブリッド推論モデル ファミリー
  • コストとスピード のパレート最適化を追求
  • 2.5 Flash2.5 Pro安定版 として一般提供開始
  • SplineRoomsSnapSmartBear などが既に本番運用
  • 安定版により 本番アプリケーション開発 の信頼性向上

Gemini 2.5 Flash-Liteのプレビュー提供

  • Gemini 2.5 Flash-Lite最速・最安 の2.5モデル
  • 現在 プレビュー版 で利用開始可能
  • 2.0 Flash-Lite よりも全体的に高品質
    • コーディング、数学、科学、推論、マルチモーダルベンチマークで優秀
  • 大量・低遅延タスク (翻訳・分類等)に最適
    • 2.0 Flash-Lite2.0 Flash よりも低遅延
  • Gemini 2.5 の特長を継承
    • 予算に応じた推論制御
    • Google Search やコード実行などのツール連携
    • マルチモーダル入力 対応
    • 100万トークン のコンテキスト長

利用方法と今後

  • Google AI StudioVertex AI2.5 Flash-Liteプレビュー 提供
  • 2.5 FlashPro の安定版も同時利用可能
  • Geminiアプリ でも 2.5 FlashPro にアクセス可能
  • Google Search にもカスタム版のFlash-Lite・Flashを導入
  • 開発者や企業による 新たな活用事例 への期待

Hackerたちの意見

ジェミニをコーディング以外でどう使ってるのか、みんなの意見を聞きたいな。なんでそれを選んだの?アプリを作って、基盤のGenAIを簡単に入れ替えられるようにしてるの?冗長性やコスト削減のために、他のプロバイダーに使用を分散させてる?もしLLMのスポットマーケットみたいなのができたら、どうなるんだろう?

シンプルな非構造データから構造データへの変換。FlashとFlash Liteは他のものよりも一貫性があって、本当に速くて安いと思う。他のプロバイダーに簡単に切り替えられるけど、今のところはそのつもりはない。大規模には運用してないからね。

私の経験では、ジェミニ2.5プロはCanvasを使った翻訳や要約などの非コーディングのユースケースで本当に輝いてる。巨大なコンテキストウィンドウと大きな使用制限が助けになってると思う。ジェミニはChatGPTよりも深いリサーチレポートを生成するのがずっと得意だと思う。Googleはウェブ検索で優位性があって、それが表れてる。ジェミニのレポートは膨大な情報源を参照してるから、より正確になる傾向がある。全体的に、私はそのライティングスタイルも好みだし、レポートをGoogleドキュメントにエクスポートできるのもいい。ただ、ジェミニのUIは競合に比べてかなり劣ってるのが残念。カスタムインストラクション、プロジェクト、一時的なチャット…これらの機能は、ジェミニには同等のものがなかったり、未発達だったりする。

NDAを山ほど投げても、数秒で関連する情報をきれいに引き出してくれる。広いコンテキストウィンドウと、はさみの中から針を見つけるパフォーマンスがこのタスクには最適だね。

ウェブスクレイピング - ひどいHTMLスープから半構造化データを作成すること。たまにはモデルを入れ替えるべきだけど、今のところGemini 2.0 Flashが価格とパフォーマンスのバランスがいいと思う。明日はGemini 2.5 Flash-Liteを試してみるけどね。

Gemini 2.5 Flash(思考しないやつ)を思考パートナーとして使ってる。自分の考えを整理するのに役立つし、思いつかなかった新しいアイデアをくれることもある。自己反省にも使ってて、自分の考えや心配事を入力して、何を言ってくれるか見るのが好きなんだ。

はい、内部でLLMと連携する別のサービスを実装しました。これで、呼び出し元はどのプロバイダーやモデルを使っているか気にしなくて済むんです。ただ、モデル間での負荷分散は必要なかったですね。

https://toolong.link のYouTube要約に画像を使うために使ってる。GeminiだけがYouTubeに簡単にアクセスできて、巨大なコンテキストウィンドウがあるからね。

Gemini Flash 2.0は、非常に低コストで絶対的に使えるモデルだね。知能の面ではフロンティアモデルには及ばないけど、低コスト、超高速、そして信頼性の高い構造化された出力生成の組み合わせがあって、開発がすごく楽しい。ここで2.5 Liteと比較してみるつもり。

Geminiの無料画像生成クレジットはまだ使い切ってないから、子供が遊びたいときや、質の高い結果を得るためにo4トークンを使う前にプロンプトをテストするのに使ってるよ。

https://lexikon.aiで広く使ってるよ。特にLexikonの一部は大量の画像を処理することに関わっていて、Googleのビジョンの料金は大手の代替品(OpenAIやAnthropic)と比べてかなり安いんだ。

一時期、AIスタジオでジェミニプロが無料になった時、たくさんの人が選んでたと思う。でもそれ以来、なんか悪化して、真面目な仕事にはまたクロードを使うようになった。ジェミニは、ずっと喋ってるけど実際には何を言ってるのか分からない男みたい。ブレインストーミングにはまだ使ってるけど、その提案はかなり疑ってかかってる。プロンプトを生成するのには役立つけど、それを洗練させてクロードと一緒に使ってる。

以前はクラインでジェミニプロを無料で使えたのに、今はAPIの制限が低すぎて、すぐにウォレットのチャージが必要ってメッセージが来るし、APIのクエリも通らなくなった。クラインではDeepSeek R1の無料版に戻ったけど(それも数時間後には止まっちゃって、次の日まで待たないといけない)、そろそろコーディング用にローカルのLLMをセットアップする必要がありそう。つまり、PCを本気でアップグレードする時が来たってことだね(まあ、10年くらい経ってたから、そろそろ必要だったけど)。

今、Geminiはコーディングには最悪だと思う。コードブロックを渡して、何を変えてほしいか伝えたら、無駄にたくさんの余計なコードやコメントを追加された。コンパクトなコードがパピルスみたいになっちゃった。ChatGPTの方がいいけど、なんかいつも同意しちゃうから、バカなこと言っても反論しないんだよね。結局、自分で足を撃っちゃうことになる。Claudeが一番バランスが取れてる気がする。私の個人的な意見だけどね。

うん、私も似たような経験がある。最初は複雑な問題をうまく解決してくれる感じだったけど、シンプルなことを指示するのが難しくなってきた。しかも、すごく冗長だった。でも、全体的にはUXが一番の懸念で、今のところClaude Codeが私の選ぶUXだね。

すべてのやり取りがBuzzFeedの記事みたいに話すようになった。ほんとに最悪だよ。

Aiderのリーダーボードによるとそうじゃないよ。https://aider.chat/docs/leaderboards/ 私はAiderのAPIを直接使ってるから、AI Studioの経験はないんだ。Claudeは弱いプロンプトでもまだ良いパフォーマンスを発揮する気がするけど、プロンプターが方向性をあまり知らない時の「味」はちょっと良いかも。方向性が分かっている時は、Gemini 2.5 Pro(思考あり)がコードが壊れない点でClaudeより上だと思う。o4-miniやo3では、もう少し「賢い」思考が見られるけど、その分不安定なコードが生成される(Geminiはもっと安定したコードを出す)。複雑さが増すとClaudeに問題が出てくるから、私の個人的なランキングではGeminiやo3の後ろに置くかな。o3-miniがリリースされてからは、Claudeに戻る理由はなかったよ。

同じ経験してる。凝ったプロンプトを作って、簡潔に答えるように指示したのに、まだ長ったらしい返事をしてくるし、プロンプトの範囲を超えた回答をよくするんだよね。

最近、Pro 2.5がかなり弱体化したよ。今年の初めには、Gemini 2.5 Proと本当に洞察に満ちた会話ができたのに、今はほとんどイライラするだけ。個人的な陰謀論もあって、Google Geminiアプリで2.5 Proの使用量が一定の閾値を超えると、量子化されたバージョンを提供し始めるんじゃないかと思ってる。証拠はないけど、そう感じるんだよね。

カーソルで何かを頼むと、全力でシャーロックみたいに考えて、あらゆる結果を考慮するんだ。Claude 4はちょっと考えてからすぐにやってくれる感じ。

内部情報はないけど、量子化された感じがする。通常は量子化モデルでしか見ないようなパターン、例えば一つのキャラクターを無限に繰り返すみたいなのを見たことがある。

プレビュー版に戻した方がいいよ。あれはもっと安定してたし、実際に役立つ反発もあったのに、今のはまるでステロイドを使ったチアリーダーみたいだ。

これを見るのが好き。これでFlash Liteは「使わない方がマシ」から、実際に役立つかもしれない領域に進出したね。(安いだけじゃなくて、Flash Liteは速いんだよね。ほぼ常に1秒未満、200msまで下がることもある。中央値は400msくらい。)Brokkは今、Quick EditsにFlash 2.0(Liteじゃない)を使ってるけど、今は2.5 Liteを評価中。追記:Flash 2.5よりもバカな思考モデルの使い道は思いつかないな。思考が小さいモデルの大きなスピードの利点を打ち消しちゃうから。他の人がそれをどう使ってるのか気になる。

思考型と非思考型の価格を標準化してくれて嬉しい。数週間前、思考予算をゼロに設定するのを忘れて、余計に何千ドルも使っちゃったんだ。単一の設定パラメータを忘れただけで、モデルのコストが5倍になるのはおかしいよね。[編集] これにはあまりワクワクしてないけど、どうやら彼らの解決策は非思考型の基本価格を大幅に引き上げることだったみたい。

投稿には書いてないけど、ジェミニ2.5 Flashモデルの価格が上がるみたいだね。2.5 Flash Preview https://web.archive.org/web/20250616024644/https://ai.google... 1百万入力テキスト/画像/動画 $0.15 1百万音声 $1.00 出力: 非思考型 $0.60、思考型 $3.50 新しい価格は、ジェミニ2.5 Flashで思考型と非思考型の違いがなくなって、今はこうなってる: https://ai.google.dev/gemini-api/docs/pricing 1百万入力テキスト/画像/動画 $0.30(2倍) 1百万音声 $1.00(同じ) 出力 $2.50 - 旧非思考型の価格よりもかなり高いけど、旧思考型の価格よりは安い。

価格が2倍以上に上がったね。そして、Gemini 2.0 Flashは$0.10/$0.40だった。

オープンルーターでもこの違いが見られるよ。でも、なんで今は思考フラッシュだけなの?

「すぐに、AIはメーターを測るには安すぎる」 「その間に、価格は上がる」。

ブログ記事には価格変更についての詳細が載ってるよ。 https://developers.googleblog.com/en/gemini-2-5-thinking-mod...

いいところに気づいたね。これはオーディオからオーディオへの最強のやつになるところだったから、かなり注目すべき変化だよ。

2.5を何か重要なことに使うのは運が必要だよ。今、500,000本のニュース記事を解析してるんだけど、OpenAIのモデルはうまくいくけど、Geminiはミスが少ないことが分かった。問題は、ひどい10k RPD制限があること。次のティアに上げるには最低限の支出が必要だけど、数日連続でRPD制限を最大にしてもその金額に達しないんだ。2回メールしたり、フォームを提出したりしたけど、みんなこの仕組みを知ってるよね。だから今はOpenAIに戻って、少しミスが多いモデルを使ってるけど、制限のせいで30分後に403エラーが出ることはないんだ。

今はGAになったから、これで問題ないと思う。

Geminiにはめっちゃ感動して、OpenAIの使用をやめちゃった。たまにOpenRouterで3つの主要モデルを試すけど、今は90%がGeminiだね。去年は90%がChatGPTだったのに。

同じく。今のところ、クラウドのサブスクリプションはキャンセルしたよ。ジェミニが追いついてきてるしね。

Googleを嫌うのは好きだけど、彼らのモデルは本当に良いよね。大きなコンテキストウィンドウはすごい。

もっとニュースを期待してた人には残念だけど、GAモデルのベンチマークは前回のプレビューとほぼ同じだよ。要するに、GoogleがAPIエラーが少なくなるって言ってるだけで、このモデルは長い間チェックポイントを持つってことだね。

Audio処理の価格が2.0 Flash-Liteと比べて6.33倍増加したよ。 Gemini 2.5 Flash Lite (Audio Input) - $0.5/百万トークン Gemini 2.0 Flash Lite (Audio Input) - $0.075/百万トークン こんなにAudioトークン処理の価格が上がった理由が気になるな。

俺はバッチ推論/LLMデータ処理サービスを運営してて、(オープンウェイト)モデルのコストとパフォーマンスのプロファイリングをたくさんやってるんだ。LLMの価格設定にはちょっと変なズレがあって、プロバイダーはトークン消費に対して線形で課金するけど、実際のコストはシーケンスの長さが増えると二次的になるんだよね。今は多くのモデルが同じアーキテクチャや推論アルゴリズム、ハードウェアに収束してるから、選ばれるコストは顧客のリクエストの形状に基づいた歴史的な統計分析によるものだと思う。つまり、プロバイダーがリアルなユーザーの消費パターンについてのデータを集めるにつれて、コストが増えるのは驚きじゃないってこと。