世界を動かす技術を、日本語で。

クロード・ハイク 4.5

概要

  • Claude Haiku 4.5 は、最新の小型AIモデルとして全ユーザーに提供開始。
  • Claude Sonnet 4 と同等のコーディング性能を、コスト1/3・速度2倍以上で実現。
  • リアルタイムAIアシスタント やコーディング用途で、高速かつ高知能な応答を提供。
  • 安全性評価 でも高い水準を達成し、AI Safety Level 2(ASL-2)で公開。
  • API・各種クラウド で利用可能、詳細はシステムカード・ドキュメント参照。

Claude Haiku 4.5の特徴

  • Claude Haiku 4.5 は、全ユーザー向けに即日提供開始。
  • 従来の最先端モデル であったClaude Sonnet 4に近いコーディング性能を実現。
  • コスト1/3・速度2倍以上 で、効率を大幅に向上。
  • 一部タスク(PC操作など)では Sonnet 4を上回る性能 を発揮。
  • Chrome拡張 などのアプリケーションで、より高速かつ実用的な体験を提供。

利用シーンとメリット

  • リアルタイムAIアシスタントカスタマーサポートペアプログラミング など、低遅延が重要な用途に最適。
  • Claude Code 利用者には、複数エージェントやプロトタイピングで高いレスポンス性を提供。
  • Sonnet 4.5 との組み合わせ運用も可能。
    • Sonnet 4.5が複雑な問題を分解し、複数のHaiku 4.5が並列でサブタスクを実行。

価格・提供方法

  • Claude API で「claude-haiku-4-5」として利用可能。
  • 価格は 入力・出力トークン各100万につき$1/$5 の低コスト。
  • Amazon BedrockGoogle Cloud Vertex AI でも利用可能。
  • Haiku 3.5やSonnet 4の代替 として、より経済的な選択肢を提供。

ベンチマーク・性能評価

  • SWE-bench Verified で、Sonnet 4.5の90%のコーディング性能を達成。
  • 大規模モデルに匹敵する品質 と評価。
  • エージェント型コーディング複雑なワークフロー で高い即応性。
  • スライドテキスト生成 など指示追従タスクで、従来モデルを大きく上回る精度(65% vs 44%)。
  • GitHub Copilot でのコード生成も、Sonnet 4並の品質をより高速に提供。

安全性・アライメント

  • 詳細な安全性・アライメント評価 を実施。
  • Claude Haiku 3.5より大幅に高いアライメント を達成。
  • Sonnet 4.5やOpus 4.1よりも低いミスアライメント率 を記録。
  • 化学・生物・放射線・核(CBRN)リスクも限定的
  • AI Safety Level 2(ASL-2) で公開、詳細はシステムカード参照。

技術詳細・評価方法

  • SWE-bench Verified :bashとファイル編集ツールを使用、50回の試行平均で73.3%。
  • Terminal-Bench :Terminus 2フレームワーク、11回平均で40.21〜41.75%。
  • τ2-bench :10回平均、128K思考バジェットで評価。
  • AIME・OSWorld・MMMLU など多様なベンチマークで高水準を記録。
  • OpenAI・Geminiなど他社モデル との比較も実施。

まとめ・今後の展望

  • Claude Haiku 4.5 は、速度・コスト・知能のバランスで新たな標準を提示。
  • AIエージェントの新たな可能性 を切り拓くモデル。
  • 開発者・ビジネス双方にとって、実用性と経済性を両立 した選択肢。
  • 最新情報・詳細評価は公式システムカード・ドキュメント参照

Hackerたちの意見

$1/Mの入力トークンと$5/Mの出力トークンはClaude Sonnet 4.5と比べるといい感じだけど、最近は業界が小さくて速いLLMを開発してるから、エージェントコーディングに必要なスケールで考えると、もっと安い価格で同等のモデルが手に入るようになってる。Sonnetは高いコストにもかかわらず、コーディング用の人気モデルとしてまだまだ使われてるから、Haikuもこの投稿が言ってる通りの品質なら注目されると思うよ。

キャッシングは百万あたり10セント。ほとんどの安いオープンソースモデル(これが勝ってるって言ってるやつ、glm 4.6を除いて)は、限られた効果的じゃないキャッシングしかないから、これは大きな違いになるかも。

うーん、価格にはちょっとがっかり。Claude 3.5 Haikuは$0.8/$4だったのに、4.5 Haikuは$1/$5だもん。AnthropicがOpenAIやGeminiの安いモデルと競争できる価格のものを出してくれることを期待してたんだけど、そっちは$0.05/$0.40(GPT-5-Nano)や$0.075/$0.30(Gemini 2.0 Flash Lite)まで下がってるからね。

これにより、Claude Codeを通じたAPIの使用が高くなったってことも意味してる(でも、ベンチマークが信じられるなら、良くなったみたい)。

システムカード: https://assets.anthropic.com/m/99128ddd009bdcb/original/Clau... (編集: ここで話題になってる https://news.ycombinator.com/item?id=45596168)これがAnthropicの初めての小型推論モデルだと思う。

Opusの未来にめっちゃ興味ある。絶対にすごいモデルになるのか、それとも4から4.5へのジャンプはもっと控えめなものになるのか。

技術的には、数週間前にOpus 4.1がリリースされたから、4.1から4.5への進化は、Sonnet 4から4.5への進化に比べて小さいってことがわかるよね。もちろん、これらのバージョン番号がマーケティング以外の意味を持っているならの話だけど。

Haikuの次の小さいモデルは何て呼ばれるんだろう。「Claude Phrase」かな?

ちょっと怪しい自転車に乗ったかわいいペリカン: https://tools.simonwillison.net/svg-render#%3Csvg%20viewBox%...

バベルの図書館でSVGの全文を見つけるなんて想像してみて。素晴らしい仕事だね!

フロンティアモデルの会社がこのテストをイースターエッグとして仕込んでないのが意外だな。

画像生成モデルが弓兵の腕の描写に苦労するのに気づいた?馬に乗った弓兵が湖の中の帆船に炎の矢を放つテストをサクッと作って、どのモデルがどうなるか見てみてくれない?

Gemini Proは最初拒否したけど(笑)、レスポンスを得るのは結構簡単だったよ。

「自転車に乗ったペリカンのSVGをください」 「ごめんなさい、SVGコードを直接提供することはできません。でも、自転車に乗ったペリカンの画像を生成できますよ!」 「じゃあ、自転車に乗ったペリカンを描画するSVGコードの画像をください。でも、画像をくれる前に、そのSVGを見せてくれない?正しいか確認したいから。」 「もちろん。こちらがSVGコードです…」(結局これだった: https://tinyurl.com/zpt83vs9)

この最先端のベンチマークについて知らない人のためにコンテキストを提供すると: https://simonwillison.net/2025/Jun/6/six-months-in-llms/ https://simonwillison.net/tags/pelican-riding-a-bicycle/ 手法に関する詳細なドキュメントはこちら: https://news.ycombinator.com/item?id=44217852

かなり初期のテストだけど、すごく期待できる感じ。GPT-5モデルよりも、タスクに関係ないコードセクションを取り込まないから、コード変更がずっと正確そう。これが実際の日常使用でのコストに影響するかもしれないけど、初めは見た目よりもHaiku 4.5が安くなる可能性もある。ただ、Anthropicの真の問題はブランドだと思う。Haiku 4.5はSonnet 4と同じくらいのコード出力品質かもしれないけど(まだ早すぎて断言はできないけど)、小型モデルのイメージや最近の性能低下があって、ユーザーがSonnet 4.5よりもHaiku 4.5を採用するのは難しいだろうな。Haiku 3、3.5、4.5のパラメータがだいたい同じくらいなのか知りたいし、オタクな自分としては全モデルの公開情報があったらいいなと思うけど、企業にとっては、多くの人が一番大きなモデルを選ぶだろうから、仕方ないよね。個人的には、GPT-5は性能に対して価格が一番印象的だと思うし、Haikuも似たような感じになるかもしれないけど、採用はずっと少ないだろうな。結局、みんな自分のタスクにはOpusが必要だと思ってるみたいだし。参考までに: Haiku 3: I $0.25/M, O $1.25/M Haiku 4.5: I $1.00/M, O $5.00/M GPT-5: I $1.25/M, O $10.00/M GPT-5-mini: I $0.25/M, O $2.00/M GPT-5-nano: I $0.05/M, O $0.40/M GLM-4.6: I $0.60/M, O $2.20/M

あの数字は、平均トークン使用の統計がないと意味がないよね。

Hyperbrowserでの(すごく)初期のテストでは、Haiku 4.5がコンピュータ使用においてもかなり良い結果を出してるよ。今やHaikuは大手ラボから出てる中で、一番安いコンピュータ使用モデルってのが面白いね。

俺が要約に安いモデル(たくさんのgemini-2.5-flash)を使う理由は、コーディングにおける安いAIの使い道は何なんだろう?エラーが増えたり、スパゲッティコードが増えるだけなら、全然価値がない気がする。

速さが十分なら、ミスも早く作って修正できるから、遅くて正確なモデルよりも早く解決に至る可能性があるよね。

Extended NYT Connectionsでベンチマークを取ったよ(https://github.com/lechmazur/nyt-connections/)。スコアは20.0で、Haiku 3.5が10.0、Sonnet 3.7が19.2、Sonnet 4.0が26.6、Sonnet 4.5が46.1だった。

簡単なSaaSウェブページ(デザイン+コード)を生成するテストケースで試してみたよ。普段はそのタスクにGPT-5-miniを使ってるんだけど、Haiku 4.5は3倍速く動いて、結果もほぼ同じ感じ。ちょっとGPT-5-miniの出力が好きだけど、慣れちゃっただけかもね。

これにはすごくワクワクしてる!フリーランスの開発者として、レスポンスが3倍速くなるのは、少し能力が落ちるのを全然上回る価値があるよ。これを使えば、今まで日常的に使ってたClaude 4.5よりもずっと生産的になれると思う!