世界を動かす技術を、日本語で。

Cloud RunのGPUが一般提供開始、AIワークロードの実行を誰でも簡単にします

概要

  • Cloud RunNVIDIA GPU サポートを一般提供開始
  • 秒単位課金ゼロスケール などコスト効率性を実現
  • グローバル展開ゾーン冗長性 対応
  • バッチ処理AI推論 など多様なユースケースに対応
  • 主要顧客の 導入事例利用開始方法 の紹介

Cloud RunでのNVIDIA GPUサポート一般提供開始

  • Google CloudCloud RunNVIDIA GPU サポートを正式リリース

  • シンプル柔軟スケーラブル なサーバーレス実行環境の実現

  • GPUとCPU の両方で以下のメリットを享受可能

    • 秒単位課金 :使用した分だけ秒単位で課金
    • ゼロスケール :リクエストがない時は自動でGPUインスタンスをゼロまでスケールダウン、アイドルコスト削減
    • 高速起動・スケーリング :5秒以内でGPU・ドライバ付きインスタンス起動、需要に即応
    • フルストリーミング対応 :HTTP・WebSocketストリーミングでインタラクティブなアプリケーション構築

Cloud Run GPUの特徴とユースケース

  • NVIDIA L4 GPU がすぐに利用可能、 クォータ申請不要

  • CLI--gpu 1指定、または コンソールのチェックボックス で簡単設定

  • SLA適用、信頼性・稼働率保証

  • ゾーン冗長性 :デフォルトでゾーン障害時もサービス継続、オプションで価格優遇のベストエフォートも選択可能

  • マルチリージョン対応 :us-central1、europe-west1、europe-west4、asia-southeast1、asia-south1で利用可能、今後拡大予定

    • 単一コマンドで複数リージョンにデプロイ、グローバルユーザーに低遅延・高可用性提供

Cloud Run GPUのスケーラビリティとデモ

  • Google Cloud Next 25 でのライブデモ:4分で0から100 GPUインスタンスまでスケール
  • Stable Diffusionサービス の負荷テストで高いスケーラビリティ実証

Cloud Run JobsでのGPU活用

  • Cloud Run Jobs でもGPU利用可能(プライベートプレビュー)

  • バッチ処理非同期タスク に最適

    • モデルファインチューニング :インフラ管理不要で特定データセットに合わせたモデル微調整
    • バッチAI推論 :大規模な画像解析や自然言語処理、推薦システムなどに対応
    • バッチメディア処理 :動画トランスコード、サムネイル生成、画像加工など

主要顧客の導入事例

  • vivo :AIアプリの迅速な開発と運用コスト削減、海外展開の効率化
  • Wayfair :L4 GPUの高パフォーマンスとコスト最適化、コスト85%削減を実現
  • Midjourney :大規模画像処理におけるCloud Run GPUの価値、イノベーションに集中できる開発体験

Cloud Run GPUの利用開始方法

  • 公式ドキュメントクイックスタートベストプラクティス を参照
  • 次世代アプリケーション 開発をCloud Run GPUで加速

サーバーレスAI推論の新時代

  • サーバーレスGPUアクセラレーション で最先端AI計算の民主化
  • NVIDIA L4 GPU へのシームレスなアクセスで、 AIアプリ の生産化とコスト効率を両立
  • Google Cloud のリーダーシップと技術革新

Hackerたちの意見

Cloud Runが他のプロバイダーと比べて優れている理由は、オートスケーリングがあって、スケールを0にできることだね。使っていないときは、ほぼ0のコストになるってこと。最大5インスタンスに制限をかけることもできるから、サービスの最大コストも抑えられる。ちなみに、私はCloud RunのCPUバージョンしか使ったことないけど、すごく信頼性が高くて簡単だよ。

普通のCloud Runでも起動に結構時間がかかることがあるから(約3秒から30秒)、スケールを0にするのは問題になるかもね。

大手クラウドプロバイダーの余計な部分と、クレカを一晩で空にする可能性のある無制限の請求の楽しさがあるなんて、いらないよ。個人的にはModalとvast.aiにずっといるつもり。

わからないけど、スケール・トゥ・ゼロと秒単位の請求機能は、AWSでトレーニングインスタンスをシャットダウンし忘れた後にすごく便利だと思った。もし本当に言ってる通りの速さで起動できるなら、私のワークロードにはすごく助かると思う。

それが請求制限の役割だよ。

GCPの個人や小規模プロジェクト向けの大きな欠点は、支出に上限がないことだよね。Cloud Runでは、知っている限り、同時実行数を制限したり、スケールできる最大インスタンス数を制限することで、実質的に支出を抑えられるけど、ちゃんとした上限があるGCPの方がいいよね。

Cloud Runは素晴らしいけど、請求の上限がないのはちょっと怖いよね。なんでこれに対処しないのか全然わからない。個人をサポートすれば、結局私たちがそのプラットフォームにプロジェクトを置くようになるのはわかってるはずなのに。

Cloud Runでは最大インスタンス数を設定できるから、支出に実質的な上限を設けられるよ。それに、ハードなドルの上限はほとんどの場合、正しい選択じゃない。App Engineは昔はそういうのがあったけど、実際の効果は、ウェブサイトが一番困るタイミングで完全に動かなくなることだった(HNに投稿されたりして)。請求アラートを設定して、自分で判断する方がいいよ。

この理由で、プロダクションでDataDogをやめたよ。人を叩いてお金を稼ぐことが、本当に悪評やプロジェクトを始めない人たちを生む価値があるのかな?

Runpodはかなりいいよ。数秒でデプロイできる遺伝的エンドポイントスクリプトを書いたし、モデルをポッドにダウンロードすればすぐに準備完了。しかも、ポッドを1週間も動かしっぱなしにしてたけど、料金は0.60ユーロくらいで、ポッドのことを3回くらいメールでリマインドしてくれた。

modalやvast.aiは使ったことないけど、彼らのページを見てもyoloの課金問題をどう解決してるのかは明確じゃなかったな。プリペイドなのか、それとも上限をサポートしてるのかな?

私はModalの大ファンで、サーバーレスのスケール・トゥ・ゼロのGPUをしばらく使ってるんだ。コスト削減ができて、必要なときには大きくスケールアップもできる。開発の手間も最小限で済むし、大手プロバイダーがこの分野に入ってくるのは面白いね。最初は大手がこのサービスを提供してなかったからModalに切り替えたんだ(例えば、AWSのラムダはGPUインスタンスで動かせないし)。これから全てのプロバイダーがこの方向に進むのかな?

Modalのドキュメントもすごく良いよ。

私も大ファンだよ。Modalは10GB以上のモデルに対して、見た中で最速のコールドスタートを実現してる。

価格はあまり魅力的に見えないね。runpod.ioとvast.aiとの時間単価の比較はこんな感じ:1x L4 24GB: google: $0.71; runpod.io: $0.43, spot: $0.22 4x L4 24GB: google: $4.00; runpod.io: $1.72, spot: $0.88 1x A100 80GB: google: $5.07; runpod.io: $1.64, spot: $0.82; vast.ai $0.880, spot: $0.501 1x H100 80GB: google: $11.06; runpod.io: $2.79, spot: $1.65; vast.ai $1.535, spot: $0.473 8x H200 141GB: google: $88.08; runpod.io: $31.92; vast.ai $15.470, spot: $14.563 Googleの価格は、24時間365日動かすことを前提にしてるけど、これはrunpod.ioやvast.aiの秒単位で請求される時間単価に過ぎないからね。GoogleのGPUのスポット価格は見つけられなかったよ。

Googleの料金は秒単位で請求されるから、20分未満ならGoogleの方が得だと思う?

vast.aiの価格はどこで見つけたの?彼らの価格ページを見たけど、8xH200のオプションが21.65ドル以下で見当たらないんだよね(ほとんどがそれ以上だし)。

GPU対応インスタンスの料金は1時間67セントだよ。結構いいけど、T4 GPUが他と比べてどうなのかは全然わからない。

L4は最近かなり限られてるね。他のプロバイダーでは通常1時間40セントでレンタルされてるよ。

小さくて独立したEUのGPUクラウドプロバイダー、DataCrunch(私は関係ありません)が、Run Podよりもさらに安くNvidia GPU付きのVMを提供してるよ。1x A100 80Gbが1.37€/時間、1x H100 80Gbが2.19€/時間。

Vast.aiでP2Pするのもアリだよ。今のところ、一番安いA100は2x A100のセットアップで1時間$0.8(つまり1つあたり$0.4)。彼らとは関係ないけど、ほぼ満足してるユーザーだよ。ただ、ネットワーク速度には注意してね。一部のホストは明らかに共有帯域幅を使ってるから、報告されてる数字が現実と合わないこともある。100GBのデータを移動させるときは、ちょっと厄介だよね。

面白いね。lambda.aiで1x H100 80GbのVMが1時間$2.49で手に入るよ。今の為替レートだと、ちょうど2.19€だね。偶然なのか、それとも何かの上限なのかな?

Google Cloud Runが大好きで、最高の選択肢として強くおすすめするよ。ただ、Cloud RunのGPUはあまりおすすめできない。コスト効率が悪いし(インスタンスベースの課金は高い)、GPUの選択肢も限られてる。モデルをGPUメモリから読み込んだり出したりするのが遅くて、サーバーレスとして使うには向いてない。数字を比較すると、サービスの利用率が1日の30%でも、VM + GPUを使った方がいいよ。

もしかしたら知らないだけかもしれないけど、ここにいるほとんどの人が1000人の同時ユーザーを持つクラウドGPUを指摘できるとは思えないし、結局は百万ドルの請求書が来るんじゃないかな。

Cloud Runは素晴らしいサービスだよ。AWSの同等のサービス(ECS/Fargate)よりもずっと扱いやすいと思う。

Google Cloud Runが大好きで、最高の選択肢として強くおすすめするよ。Cloud Runの数字を見てみたいな。おもちゃプロジェクトにはいいけど、真剣なものにはお金がかかりすぎる、少なくとも私の経験ではね。あるプロジェクトでは、Gとの自動スケーリングに関する長期的な問題があったんだ。スケールダウンがゼロになるのは理想的に聞こえるけど、CRが単一のリクエストのために複数のコンテナを立ち上げてしばらく保持するウォームアップフェーズについては言及しないんだよね。それに、明らかなCPUやネットワークの使用がないときに、説明のつかないコンテナが動いてるのを探すのは大変だよ(Gはこれに対して喜んで課金してくるから)。さらに、JavaやPythonプロジェクトのスタートアップはしばしばひどいけど、Go/C++/Rustプロジェクトだとパフォーマンスが良くなるかもしれない。ただ、CRでそれらを実行した経験はないんだよね。

私はCloud Runで逆の体験をしたよ。謎のスケールアウトや再起動があって、答えを得るために有料サポートに加入しなきゃいけなかったけど、結局何も分からなかった。自己管理のVMに移行したよ。今は状況が変わったかもしれないけどね。

Cloud Runって、実際のVMじゃなくてGoでエミュレートされた偽のLinuxカーネルを使ってるの?Cloud Runはroot権限をくれるの?

GoogleのVPです。フィードバックありがとうございます!一般的に、静的なキャパシティニーズをしっかり理解しているなら、今日の価格でVMを事前にプロビジョニングする方がコスト効率が良いと思います。Cloud RunのGPUは、よりバーストなワークロードに最適です。例えば、まだPMFがない新しいAIアプリで、スケールゼロとスパースなトラフィックパターンのために素早くスタートする必要がある場合とかね。

私はCloud RunとGKEを担当しているVP/GMです。この話題に興味を持ってもらえて嬉しい!このスレッドで質問に答えるよ。

価格以外は全部良いね。

これは嬉しいニュースだね。vertex.aiでモデルを連続して動かしてたら、1000ドルの請求書が来ちゃった。忘れてシャットダウンしなかったから、これからはこれを使うことにするよ。Cloud Runは何年も使ってて、プロダクションのマイクロサービスや趣味のプロジェクトを運営してきたけど、シンプルでコスト効果も高いと思ってる。