世界を動かす技術を、日本語で。

最新のLLM APIの価格を一元管理

概要

主要なLLM API(OpenAI、Anthropic、Googleなど)の最新料金情報を解説。 各AIモデルごとのコスト比較と最適な選択基準を提示。 2025年7月25日時点の情報に基づく。 価格は1Mトークン単位で表示。 プロバイダーごとの注意点やトークン計算方法も解説。

主要LLM APIの最新料金比較(2025年7月25日現在)

  • OpenAI

    • GPT-4o
      • 入力: $5.00/1Mトークン
      • 出力: $15.00/1Mトークン
    • GPT-4 Turbo
      • 入力: $10.00/1Mトークン
      • 出力: $30.00/1Mトークン
    • GPT-3.5 Turbo
      • 入力: $0.50/1Mトークン
      • 出力: $1.50/1Mトークン
  • Anthropic

    • Claude 3 Opus
      • 入力: $15.00/1Mトークン
      • 出力: $75.00/1Mトークン
    • Claude 3 Sonnet
      • 入力: $3.00/1Mトークン
      • 出力: $15.00/1Mトークン
    • Claude 3 Haiku
      • 入力: $0.25/1Mトークン
      • 出力: $1.25/1Mトークン
  • Google

    • Gemini 1.5 Pro
      • 入力: $3.50/1Mトークン
      • 出力: $10.50/1Mトークン
    • Gemini 1.0 Pro
      • 入力: $0.50/1Mトークン
      • 出力: $1.50/1Mトークン
  • Meta

    • Llama 3 70B (OpenAI API経由の場合)
      • 入力: $0.50/1Mトークン
      • 出力: $1.50/1Mトークン
  • Cohere

    • Command R+
      • 入力: $3.00/1Mトークン
      • 出力: $15.00/1Mトークン

価格比較と選択基準

  • コストパフォーマンス重視
    • 入力・出力単価が低い GPT-3.5 TurboClaude 3 Haiku が有力候補。
  • 高性能モデル利用時
    • Claude 3 OpusGPT-4 Turbo は高額だが、精度と機能重視の用途向け。
  • Google Gemini はバランス型モデル。
    • コストと性能のバランスを重視する場合に適合。
  • Meta Llama 3 はコスト効率良好。
    • オープンモデル志向のプロジェクトに推奨。

トークンカウントと注意点

  • トークン定義
    • 一般的に 1トークン=3~4文字 相当。
  • プロバイダーごとの違い
    • トークンのカウント方式や細かなルールは 各公式ドキュメント 参照。
  • プロンプト長による価格変動
    • 一部モデルは プロンプト長200kトークン以下 での価格を基準に表示。
  • 最新情報の入手
    • 各社の 公式サイトやAPIドキュメント で随時確認推奨。

まとめ

  • 用途や予算に応じたモデル選択 が重要。
  • 価格体系やトークン計算方式の違い を事前に把握。
  • 定期的な価格情報の更新 を推奨。

Hackerたちの意見

LLMプロバイダーは常に新しいモデルを追加したり、APIの価格を更新したりしてるよね。AIアプリケーションを作ってる人なら、これらの価格が利益にとってすごく重要だってことは分かるはず。私が知ってるのは、各プロバイダーのウェブサイトに行ってトークンの価格を確認することだけなんだ。そこで、この不便を解消するために、最新モデルの価格を一つの場所でまとめたpricepertoken.comを作るのに数時間かけたんだ。特に、同じモデルを使うのに複数のオプション(fal、replicate)があるから、画像モデルも追加しようかなと思ってる。価格が必ずしも同じじゃないしね。

過去の情報も集められる?Wayback Machineを使ってOpenAIの部分的なデータセットを集めたんだけど、私のは不完全なんだ。将来の計画はトレンドを理解することでよく分かるから、私のざっくりした計算では、モデルファミリー内では価格が12ヶ月ごとに約40-80%下がるって感じだったよ。

私が知ってるのは、各プロバイダーのウェブサイトに行ってトークンの価格を確認することだけなんだ。Openrouterはいい代替手段だよ。オープンモデルの価格も見れるし、モデルの真のコストやサイズ、現在補助金が出ている可能性についても推測できるのが嬉しいね。

KVキャッシングの価格設定や管理はプロバイダーによってかなり違うよね。実際に使うトークンの大部分を占めるから、プロバイダー間で簡単に比較できる方法があるのか気になる。

もうトークンを商品扱いする時代に来てるのかな?例えば、ClaudeやGeminiが生成したトークンがCopilotのトークンと同じ価値だとは思わないな。

あと、http://llmprices.devもあるよ。似たようなもので、すぐにフィルタリングできる検索ボックスがついてる。

これを最新の状態に保つのはエージェントの良い使い方だね。企業もこういうのにお金を払うかもしれない。

これ素晴らしい!ずっとこんなのが欲しかったんだけど、API名(gemini-2.5-pro)やコンテキストの長さ、モダリティなど、他のモデルのメタデータも追加できると思う?

(私はオープンルーターで働いています)私たちは、プロバイダーと協力して価格とモデルのAPIを実装することでこの問題を解決しました。それをスクレイピングして、マーケットプレイスを最新の状態に保っています。これは旅でした。1年前は、共有のSlackチャンネルでの会話を通じてすべてが進んでいました!プロバイダーがトークンの価格をプロンプトの長さやキャッシングによって変えるなど、価格の状況は複雑になっています。実際には、モデルごとではなくエンドポイントごとのトークンあたりの価格が重要だと思います。速い/遅いバージョンや、考える/考えないバージョンなど、価格が変わることもあります。このコメントの目的は自己宣伝ではなく、私たちはこれを解決するために膨大な努力をしてきたので、すべてがオープンルーターで公開されています(ただし、そんなにコンパクトで価格に特化した形式ではないですが!)

メインの問題は、トークンがプロバイダーやモデルによって同じじゃないってことだね。プロバイダー内でもトークナイザーモデルを超えた大きな差があるし:- gpt-4o-miniではgpt-4の10倍のトークンが必要になる画像もある。- gemini 2.5 proでは、出力トークンはトークンだけど、構造化出力を使うと、請求のためにすべての文字がトークンとしてカウントされる。- ... トークンごとの価格が分かるのはいいけど、実際に必要なのは、特定のクエリや回答がいくらかかるかを知ることだよね。すべてのトークンが同じわけじゃないから。

gemini 2.5 proでは、出力トークンはトークンだけど、構造化出力を使うと、請求のためにすべての文字がトークンとしてカウントされるってことだけど、もう少し詳しく説明してくれる?違いがよく分からないんだ。

そうだね、毎日実行する実験を追加するつもりで、そのコストを表のカラムにするつもり。例えば「この記事を200語で要約して」っていうプロンプトを全モデルに与える感じ。

新しく発表されたモデルのコストを見つけるために、たくさんのマーケティングページをナビゲートするのが信じられないほどイライラした時期があったけど、今はOpenRouterを見れば価格が分かるから楽になったよ。

今この文章を書いてる時点でサイトがダウンしてるけど、Simon WillisonのLLM価格計算機に感謝を!: https://www.llm-prices.com/

もしハードウェアに$2500くらいの予算があったら、どんなモデルをローカルで動かせるかな?$2500じゃ足りない場合、どれくらい必要になる?ローカルで何かを動かしたい人におすすめのチュートリアルはある?

ローカルで始めるならここからだよ: https://ollama.com/ ノードの数を必要なメモリのGBにほぼ変換できるよ。例えば、Deepseek-r1:7bはローカルで動かすのに約7GBのメモリが必要。コンテキストウィンドウも重要で、必要なコンテキストが多いほど、もっとメモリが必要になるよ。もし$2500のAIデバイスを探してるなら、こんなのがいいかもね [1]。統一メモリアーキテクチャ(つまりLPDDR5になる)は、AIモデルを扱うのに最もコストパフォーマンスがいいメモリを提供してくれるよ。[1] https://frame.work/products/desktop-diy-amd-aimax300/configu...

18ヶ月前に$1900でMac Mini M2Pro 32Gを買ったんだけど、40Bのローカルモデルを量子化して動かすには十分だよ。ローカルモデルがダメな時は、Gemini 2.5 flash/proやgemini-cliが好き。商用APIやローカルモデルを動かすための良い選択肢がたくさんあるから、良いローカルと良い商用APIを選んで、オプションを評価するよりも物を作る時間をもっと増やした方がいいと思う。

できるだけ$600に近い中古の3090を買いたいな。3090はまだまだコスパ最強だし。

地元の状況だと、$7,000から$10,000のマシン(512GBの高速メモリ、CPU、ディスク)でテキストの入力と出力、そして「推論」に関してはほぼ同等に近づけるけど、マルチモーダルなもの、つまり音声入力、音声出力、画像入力、画像出力、ドキュメント入力ではかなり遅れをとってる。複数のモデルを同時に動かすためのアウト・オブ・ザ・ボックスのソリューションはないし、コンテナ化されたものもないから、クラウドのクローズドソースソリューションは何年も先を行ってる。これが15ヶ月続いてるけど、止まる気配はないね。

いくつかのollamaのやつは、 decentなCPUだけで動かせるよ。

KimiとDeepSeekだけは、他の一般的なプロバイダーからの大幅なダウングレード感がないモデルだね。

これいいね!でも他の人も言ってるように、UXの問題はもっと複雑なんだよね。 - 他のモデルには同じモデルを異なる価格で提供してるプロバイダーがいるし - 各プロバイダーは速度やコストなど、異なるパラメータを最適化してる - 同じモデルでも異なる量子化があるし - 一部のプロバイダーはバッチ価格を提供してる(例えば、Grok APIはそうじゃない) それに、思考あり・なし、マルチモーダルかどうかなど、フィルタリングするパラメータは他にもたくさんあるし、ベンチマークのランキングの話はおいといて。 https://artificialanalysis.ai は少し整理に役立つ混合コストの数字を出してるけど、入力/出力コストの混合コストモデルはやることによって変わるからね。ほんとに素敵な比較UIのサイトが出てくるのを待ってるんだけど、誰か作ってくれないかな!

「プロバイダー」っていうカラムは、実際に呼び出して解決する場所を指すのかな?

ベンチマークランキングはやめてほしいな。もうこのナンセンスを長いこと助長してきたから。

公平な比較をするのはかなり難しいと思う。せいぜい、トレードオフを明確にして、みんなに自分で選ばせるのが一番かな。要求を出して、企業がその要求に合った競合サービスを提供するトークン交換みたいなのがあったら面白いと思う。ランダムな人が計算リソースを提供できるようにするのも面白そうだけど、能力を偽ったりデータを盗んだりする人をどう扱うか考えないといけないね。

(私はオープンルーターで働いています)ウェブサイトで見つけるのが全く明らかではないシンプルなモデル比較ツールがありますが、少しは役立つかもしれません。例えば、https://openrouter.ai/compare/qwen/qwen3-coder/moonshotai/ki...

でもデータが…間違ってる?Google Gemini 2.5 Flash-Liteは$0.10/mtokの入力コスト [1] だけど、ここでは$0.40/mtokって表示されてる? [1] https://ai.google.dev/gemini-api/docs/pricing#gemini-2.5-fla...

データは間違ってないよ、テーブルの読み方が間違ってるだけ。編集: ごめん、俺が間違ってた。こんな風に返すべきじゃなかったな。

実際、入力と出力のトークンだけじゃなくて、いろんなプロバイダーによる価格ルールがもっとあるんだよね:

  • DeepSeekのオフピーク価格
  • OpenAIとAnthropicのバッチ価格
  • GoogleとGrokのコンテキストウィンドウによる差別化価格
  • Qwenの思考トークンと非思考トークンの価格
  • Qwen coderの入力トークンの階層価格 元々ここに投稿したよ: https://x.com/paradite_/status/1947932450212221427

ccusageのnpmパッケージは、LiteLLMから価格や他の情報を引っ張ってくるよ。いろんなモデルがあるからね: https://raw.githubusercontent.com/BerriAI/litellm/main/model...

私たちも似たような問題に取り組んでいます。https://apiraces.com では、あなたの LLM API のユースケースに合わせたコスト計算をパーソナライズするためのものです。主にオープンルーターのAPIモデルをアップロードしましたが、計算や比較をパーソナライズするために役立つ方法を模索しています。もし誰かテストしたりデモを見たい人がいれば、フィードバックをもらえると嬉しいです。

いいね!