世界を動かす技術を、日本語で。

オーパス4.7から4.6へのインフレーションは約45%です

概要

  • Opus 4.6Opus 4.7 の違いを 実際の入力例 で比較
  • トークン消費量応答内容 の違いに注目
  • コミュニティ による匿名リクエストデータをもとに検証
  • アップデート内容改善点 の明確化
  • 実用面の影響 を簡潔に解説

Opus 4.6とOpus 4.7のトークン比較

  • Opus 4.6Opus 4.7 は、同じプロンプトに対して 異なるトークン数 を消費する場合がある
  • Opus 4.7 は、 より効率的なトークン分割圧縮アルゴリズムの最適化 が行われている傾向
  • 実際のコミュニティ投稿では、 同じ質問 に対して Opus 4.7の方が少ないトークン数 で返答される事例が複数確認
    • 例:英語の長文要約で、 Opus 4.6が1200トークンOpus 4.7が1100トークン などの差分
  • トークン消費量の削減 は、 コスト削減API利用制限の回避 に直結

応答内容・品質の違い

  • Opus 4.7 は、 同じトークン数でより多くの情報 を含めるケースが増加
  • 冗長な表現繰り返し が減少し、 要点を押さえた簡潔な応答 が目立つ
  • Opus 4.6 では、同じ質問に対し やや説明が長くなる傾向
  • 回答の一貫性フォーマットの安定性Opus 4.7で向上

実用面での影響

  • トークン節約 により、 長文入力や多段階対話 での 実用性向上
  • API利用者開発者 にとって、 コストパフォーマンスの改善
  • アップグレードを検討する理由 として、 効率性応答品質の両立 が挙げられる

まとめ

  • Opus 4.7 は、 実際の入力例トークン効率応答品質 の両面で Opus 4.6より優秀
  • コミュニティ比較データ からも、 アップデートの恩恵 が明確

Hackerたちの意見

ここはタイトルを4.6から4.7にした方が良くない?

その通り!

左から右に読む人にとっては、オーパス4.6から4.7にする方が意味が通るよね。

俺の理解では、これはトークンカウントAPIを使ってて、プロンプト内のトークン数を2つの方法でカウントしてるから、トークナイザーの変化を単独で測ってるんだ。賢いモデルは時々、短い出力を生成するから、出力トークンが少なくなることもある。だからってオーパス4.7が必ずしも安くなるわけじゃないし、むしろ高くなるかもしれないけど、この比較はあんまり役に立たないと思う。

なんで役に立たないの?4.7の入力トークンの価格は同じだよ。今は同じプロンプトで約30%高くなってる。

実際のデータとして、Artificial Analysisが報告したところによると、4.6(最大)と4.7(最大)はそれぞれ160Mトークンと100Mトークンを使ってベンチマークスイートを完了したらしいよ。コストの内訳を見ると、入力コストは800ドル上がったけど、出力コストは1400ドル下がった。出力が入力を相殺するかどうかは使い方次第だろうし、低い労力レベルではその差はもっと近いと思う。

うん、実際に4.6にアップデートしたとき、毎回全力で切り替えるようにしたらトークンの使用量が減ったのに気づいた。思考がサイクルする前に修正されるから、少ないステップで早く作業が進むようになったんだ。4.7では基本的なタスクでのサイクルがもっと多くなった気がするけど、長時間のコンテキストを保持するのはちょっと良くなったみたい。

AIに関しては、役に立つ比較がないように思える。

クロードはやめたよ。これは明らかに底辺争いだし、ソフトウェアを書くために他の何十億ドル企業に依存したくないからね。オープンモデルには注目していくつもりだし、すでにいい感じで使ってる。これが未来の道だと思う。実際、みんながオープンモデルにもっと注目してくれたらいいな。たぶん「linux/postgres/git/http/etc」のLLM版みたいなものを作れるかもしれない。みんなが利益を得られるもので、一人の億万長者企業に独占されないもの。トークンにお金を払わなくて済むのっていいと思わない?インフラ(サーバー、電気)にお金を払うだけでも十分高いのに。

いいオープンモデルのおすすめある?主に何を使ってるの?

「他の数十億ドル企業に依存したくないから、ソフトウェアを書くのが難しい」これがLLMに対して警戒している主な理由の一つ。もう一つはスキルの衰退への恐れ。この二つの問題は相乗効果を生む。前のスキルの代替が、あまり友好的でない可能性のある相手に依存しないなら、スキルの衰退はそれほど悪くない。

ロックインが本当にひどい。数分で他のプロバイダーに切り替えられるけど、愚かなことをしないことが前提。例えば、繰り返しのタスクの場合は、タスクの仕様をソースコードに残して、Claudeに実行を頼むだけ。ドキュメントも同様に。

Hacker Newsで議論の続きを見る