世界を動かす技術を、日本語で。

CloudflareのAIプラットフォーム:エージェント向けに設計された推論レイヤー

概要

  • AIモデルの進化が急速に進行中、最適なモデル選択が頻繁に変化
  • Cloudflareは複数プロバイダーのAIモデルを単一APIで利用可能に
  • コスト管理・信頼性・レイテンシー最適化を一元化
  • 独自モデルのデプロイやマルチモーダル対応も拡充
  • Replicateとの統合によるモデル提供の拡大

AIモデル運用の課題とCloudflareの新提案

  • AIモデル は急速に進化し、最適なモデルやプロバイダーが短期間で変化
  • 現実のユースケースでは 複数モデル の組み合わせ利用が一般的
    • 例:カスタマーサポートエージェントは、分類・計画・実行に異なるモデルを使用
  • 単一プロバイダー依存 による金銭的・運用的リスクの回避が必要
  • 複数プロバイダー間での コスト管理・信頼性・レイテンシー 最適化が不可欠
  • エージェント構築時は 推論回数・失敗時の影響 が大きくなるため、課題が深刻化

Cloudflareによる統合インファレンスレイヤーの提供

  • Cloudflare AI GatewayWorkers AI の普及と機能拡張
    • ダッシュボード刷新、デフォルトゲートウェイ追加、自動リトライ、詳細ログ管理など
  • 単一API であらゆるプロバイダーのAIモデルにアクセス可能
    • 70以上のモデル、12以上のプロバイダーをサポート
    • 1行のコードでモデル切替、統一クレジットで支払い
  • REST API対応 も近日公開予定、どんな環境からも利用可能

モデルカタログとマルチモーダル対応

  • オープンソースから主要プロバイダーまで 多様なモデル をカタログで提供
    • Alibaba Cloud、AssemblyAI、Bytedance、Google、InWorld、MiniMax、OpenAI、Pixverse、Recraft、Runway、Viduなど
  • 画像・動画・音声モデルも拡充し マルチモーダルアプリケーション 構築を支援

コスト・利用状況の一元管理

  • 平均3.5モデルを複数プロバイダー経由で利用する企業が多い現状
  • AI Gateway で全AI利用のコスト・利用状況を一元管理
    • カスタムメタデータ付与による細やかなコスト分析(ユーザー種別・顧客単位・ワークフロー単位など)

独自モデルの持ち込みと運用

  • 独自データでファインチューニングしたモデルや特化モデルの 持ち込み も可能に
  • ReplicateのCog技術 を活用し、モデルのコンテナ化・デプロイを簡易化
    • 依存関係はcog.yaml、推論コードはPythonで記述
    • cog buildコマンドでコンテナビルドしWorkers AIへデプロイ
  • 顧客向けAPIやwranglerコマンド、GPUスナップショットによる高速コールドスタートも開発中

レイテンシー最適化と信頼性向上

  • Workers AIAI Gateway の組み合わせで 最速の応答 を実現
    • 330都市のデータセンター網でユーザー・推論エンドポイントの距離を最小化
    • Cloudflare内で推論処理が完結し、インターネット越しの遅延を排除
  • 自動フェイルオーバー により、プロバイダー障害時もシームレスに他プロバイダーへ切替
  • 長時間動作するエージェントも ストリーミング応答のバッファリング で中断復帰が容易

Replicateとの統合強化

  • Replicateチーム がCloudflare AI Platformチームに正式合流
  • Replicateの全モデルをAI Gateway経由で利用可能に
  • ReplicateでデプロイしたモデルをWorkers AIでホスト可能に

はじめ方とCloudflareのミッション

  • AI GatewayWorkers AI のドキュメントで導入方法を案内
  • Agents SDK でエージェント構築もサポート
  • Cloudflare TVで関連情報を配信中
  • Cloudflareは Zero Trust やDDoS対策、インターネット高速化など多様なサービスを提供
  • 無料アプリやキャリア採用情報もWebサイトで案内

関連キーワード: Cloudflare, AI Gateway, Workers AI, Replicate, マルチプロバイダーAI, エージェント, コスト管理, フェイルオーバー, コンテナ化, マルチモーダル

Hackerたちの意見

無料プランが待ちきれない!

Workers AIは、始まった時から無料プランがあったと思う?上にリンクした価格ページを見てみて。

残念ながら、地域についての言及がないね。

スペインではうまくいくよ!/s

モデルのページに価格情報が見当たらないんだけど、直接プロバイダーに支払うのと比べてどれくらいお得なんだろう?もしかして、Cloudflareはコストでやってるのかな?それに、ゼロデータ保持がデフォルトでオンじゃないのも面白いし、すべてのプロバイダーでサポートされてるわけじゃないんだね。最後に、OpenAIとAnthropicスタイルのコンプリーションが返ってくるといいな。

Workers AIの価格はこれだよ: https://developers.cloudflare.com/workers-ai/platform/pricin...

こんにちは!これを作ったエンジニアの一人だよ :) すぐにドキュメントやダッシュボードのモデルカタログに価格を追加する予定だよ。簡単に言うと、現在の価格はプロバイダーが請求するものと同じだよ。統合請求クレジットを購入できるけど、少し手数料がかかるよ。 > 最後に、OpenAIとAnthropicスタイルの完了を返すことができたら素晴らしいね。そうだね!それはすぐに実現するよ。今はプロバイダーに合わせているけど、LLMを使うときにAPIフォーマットを指定できるようにする予定だよ。

AnthropicがCloudflareを株式で買収するって。インフラの問題を一気に解決できるね。

また rug pull に遭う準備はできてないから、お願いだからやめて :( CloudflareのCDNは本当に好きなんだ。

ありえない!経済が自己修正し始めたら、CloudflareがAnthropicを買収すると思うよ。Workers AIがあのH100を手に入れて、もっとQwenを動かすのが楽しみだね。

これ、実際にすごく役立ちそうだね。Cloudflareが素晴らしいツールをまとめてるみたい。D2は、信頼性が高くて無料プランの制限も寛大な唯一のsqlite-as-a-serviceソリューションだし。

  • D1には同意だけど、CloudflareがD1-R2のバックアップシステムを内蔵してくれたらいいな!(ワーカーでカスタムコードを使えばできるけど、公式のやつが欲しい)

同意だね。ただ、彼らのドキュメントやマーケティングでは「ユーザーごと、テナントごと、エンティティごとのデータベース」みたいなユースケースを提案しているけど、実際にはワーカーと一緒に使うのはほぼ不可能だよ。使いたいデータベースをワーカーにバインドしなきゃいけないし、新しいデータベースをバインドするにはワーカーを再デプロイしなきゃいけないからね。

Workersを使っていない人のために、今後数週間でREST APIのサポートをリリースする予定だから、どんな環境からでもフルモデルカタログにアクセスできるようになるよ。Cloudflareはロックインを狙っているみたいで、あんまり好きじゃないな。特に、オープンルーターを作っておいて、ローンチ時にカスタムランタイムのバインディングしかないのが理解できない。

D1の信頼性は、私たちの経験では悪かった。内部ネットワーク層でクエリが数秒間ハングしたり、時には数十秒にわたって続いたこともあった(数週間単位で)。最近は、単純なネットワーク例外も何度か見たけど、これも彼らのワーカーとD1ホスト間の内部の問題。ハングしたクエリの多くは、観測ダッシュボードのトレースにも表示されないから、タイムアウト検出機能がなければ、問題が起きていることすら分からない。彼らの側で誰かに見てもらって、実際に問題を認識して理解してもらうのが難しかった。でも、ネットワークの問題があったとしても、D1で本番用の何かを作るのはためらうな。トランザクションもできないし、D1のプロダクトマネージャーも実装しないって公言してるし[0]。データの整合性を確保する唯一の方法は、コストやトレードオフが伴うDurable Objectを使うことだよ。https://github.com/cloudflare/workers-sdk/issues/2733#issuec... D1の基本的なアイデアは素晴らしいけど、実装は信頼できないな。趣味のプロジェクトにはいい製品だけど。

そうだね、でもD1の10GB制限はクレイジーだよ。本当にそれで何かを作り始められるの?おもちゃプロジェクト以外で?

いいね、Bedrockの代替として使えるかも。多分、AnthropicやAWSよりも稼働率が良さそうだね。

ここにあるワーカーAIモデルが、こちらのモデルと完全に重複してないのが本当に混乱するね: https://developers.cloudflare.com/workers-ai/models/ こっちにも同じ「ホスティング」されているものは見えるけど、モデルエンドポイントを見ると「workers-ai/*」の名前空間には選択肢が少ないよ。これは意図的なの?

もう少し詳しく言うと、gateway.ai.cloudflare.comの/modelsエンドポイントには「workers-ai/@cf/google/gemma-4-26b-a4b-it」が見当たらないけど、ホスティングモデルとしては存在しているみたい。同じく「workers-ai/@cf/nvidia/nemotron-3-120b-a12b」も、見かけるべきだと思ってる。

Replicateの買収が実を結んでるのを見るのはいいね!

これってオープンルーターに似てるの?

Argoネットワーキングを使って。

つまり、基本的にはCloudflare Argoネットワーキングを使ったオープンルーターってこと?彼らのレプリケートの買収で、もっと面白いことができると思うんだけど。アプリケーション特化型のRLがすごく良くなってきてるけど、これらのモデルをスケーラブルにデプロイする良い方法がない。LORAsをスケーラブルにデプロイできると主張しているファイアワークスのようなプロバイダーでも、できないんだ。今のところ、ガレージの3090のラックでアプリケーションのベースロードをホストしなきゃいけなくて、ちょっとバカみたいだけど、月に$1,000節約できてる。