Cloud RunのGPUが一般提供開始、AIワークロードの実行を誰でも簡単にします

2025年6月4日原文(cloud.google.com)

概要

Cloud Run が NVIDIA GPU サポートを一般提供開始
秒単位課金 や ゼロスケール などコスト効率性を実現
グローバル展開 や ゾーン冗長性 対応
バッチ処理 や AI推論 など多様なユースケースに対応
主要顧客の 導入事例 と 利用開始方法 の紹介

Cloud RunでのNVIDIA GPUサポート一般提供開始

Google Cloud の Cloud Run が NVIDIA GPU サポートを正式リリース
シンプル、柔軟、 スケーラブル なサーバーレス実行環境の実現
GPUとCPU の両方で以下のメリットを享受可能
- 秒単位課金 ：使用した分だけ秒単位で課金
- ゼロスケール ：リクエストがない時は自動でGPUインスタンスをゼロまでスケールダウン、アイドルコスト削減
- 高速起動・スケーリング ：5秒以内でGPU・ドライバ付きインスタンス起動、需要に即応
- フルストリーミング対応 ：HTTP・WebSocketストリーミングでインタラクティブなアプリケーション構築

Cloud Run GPUの特徴とユースケース

NVIDIA L4 GPU がすぐに利用可能、 クォータ申請不要
CLI で--gpu 1指定、または コンソールのチェックボックス で簡単設定
SLA適用、信頼性・稼働率保証
ゾーン冗長性 ：デフォルトでゾーン障害時もサービス継続、オプションで価格優遇のベストエフォートも選択可能
マルチリージョン対応 ：us-central1、europe-west1、europe-west4、asia-southeast1、asia-south1で利用可能、今後拡大予定
- 単一コマンドで複数リージョンにデプロイ、グローバルユーザーに低遅延・高可用性提供

Cloud Run GPUのスケーラビリティとデモ

Google Cloud Next 25 でのライブデモ：4分で0から100 GPUインスタンスまでスケール
Stable Diffusionサービス の負荷テストで高いスケーラビリティ実証

Cloud Run JobsでのGPU活用

Cloud Run Jobs でもGPU利用可能（プライベートプレビュー）
バッチ処理 や 非同期タスク に最適
- モデルファインチューニング ：インフラ管理不要で特定データセットに合わせたモデル微調整
- バッチAI推論 ：大規模な画像解析や自然言語処理、推薦システムなどに対応
- バッチメディア処理 ：動画トランスコード、サムネイル生成、画像加工など

主要顧客の導入事例

vivo ：AIアプリの迅速な開発と運用コスト削減、海外展開の効率化
Wayfair ：L4 GPUの高パフォーマンスとコスト最適化、コスト85%削減を実現
Midjourney ：大規模画像処理におけるCloud Run GPUの価値、イノベーションに集中できる開発体験

Cloud Run GPUの利用開始方法

公式ドキュメント や クイックスタート、 ベストプラクティス を参照
次世代アプリケーション 開発をCloud Run GPUで加速

サーバーレスAI推論の新時代

サーバーレスGPUアクセラレーション で最先端AI計算の民主化
NVIDIA L4 GPU へのシームレスなアクセスで、 AIアプリ の生産化とコスト効率を両立
Google Cloud のリーダーシップと技術革新

Hackerたちの意見

Cloud Runが他のプロバイダーと比べて優れている理由は、オートスケーリングがあって、スケールを0にできることだね。使っていないときは、ほぼ0のコストになるってこと。最大5インスタンスに制限をかけることもできるから、サービスの最大コストも抑えられる。ちなみに、私はCloud RunのCPUバージョンしか使ったことないけど、すごく信頼性が高くて簡単だよ。

└

普通のCloud Runでも起動に結構時間がかかることがあるから（約3秒から30秒）、スケールを0にするのは問題になるかもね。

大手クラウドプロバイダーの余計な部分と、クレカを一晩で空にする可能性のある無制限の請求の楽しさがあるなんて、いらないよ。個人的にはModalとvast.aiにずっといるつもり。

└

わからないけど、スケール・トゥ・ゼロと秒単位の請求機能は、AWSでトレーニングインスタンスをシャットダウンし忘れた後にすごく便利だと思った。もし本当に言ってる通りの速さで起動できるなら、私のワークロードにはすごく助かると思う。

└

それが請求制限の役割だよ。

└

GCPの個人や小規模プロジェクト向けの大きな欠点は、支出に上限がないことだよね。Cloud Runでは、知っている限り、同時実行数を制限したり、スケールできる最大インスタンス数を制限することで、実質的に支出を抑えられるけど、ちゃんとした上限があるGCPの方がいいよね。

└

Cloud Runは素晴らしいけど、請求の上限がないのはちょっと怖いよね。なんでこれに対処しないのか全然わからない。個人をサポートすれば、結局私たちがそのプラットフォームにプロジェクトを置くようになるのはわかってるはずなのに。

└

Cloud Runでは最大インスタンス数を設定できるから、支出に実質的な上限を設けられるよ。それに、ハードなドルの上限はほとんどの場合、正しい選択じゃない。App Engineは昔はそういうのがあったけど、実際の効果は、ウェブサイトが一番困るタイミングで完全に動かなくなることだった（HNに投稿されたりして）。請求アラートを設定して、自分で判断する方がいいよ。

└

この理由で、プロダクションでDataDogをやめたよ。人を叩いてお金を稼ぐことが、本当に悪評やプロジェクトを始めない人たちを生む価値があるのかな？

└

Runpodはかなりいいよ。数秒でデプロイできる遺伝的エンドポイントスクリプトを書いたし、モデルをポッドにダウンロードすればすぐに準備完了。しかも、ポッドを1週間も動かしっぱなしにしてたけど、料金は0.60ユーロくらいで、ポッドのことを3回くらいメールでリマインドしてくれた。

└

modalやvast.aiは使ったことないけど、彼らのページを見てもyoloの課金問題をどう解決してるのかは明確じゃなかったな。プリペイドなのか、それとも上限をサポートしてるのかな？

私はModalの大ファンで、サーバーレスのスケール・トゥ・ゼロのGPUをしばらく使ってるんだ。コスト削減ができて、必要なときには大きくスケールアップもできる。開発の手間も最小限で済むし、大手プロバイダーがこの分野に入ってくるのは面白いね。最初は大手がこのサービスを提供してなかったからModalに切り替えたんだ（例えば、AWSのラムダはGPUインスタンスで動かせないし）。これから全てのプロバイダーがこの方向に進むのかな？

Hacker Newsで議論の続きを見る

ハクソク