世界を動かす技術を、日本語で。

オラマターボ

概要

Ollama Turbo は、 高速なデータセンター級ハードウェア で大規模モデルを迅速に実行可能。 プライバシー重視 でユーザーデータを保持しない設計。 CLIやAPI、各種ライブラリとの互換性を確保。 バッテリー節約 やPC負荷軽減も実現。 現時点で gpt-oss-20b/120b モデルに対応。

TurboPreview: Ollama Turbo 概要

  • Turbo は、 データセンター級ハードウェア を活用した新しいモデル実行方式
  • 最新で大規模なモデルも、 高速推論スムーズな応答 を実現
  • OllamaのApp、CLI、API いずれからもTurboモード利用可能
  • バッテリー消費を抑えつつ PC本体のパフォーマンスを維持
  • 月額$20 で利用可能なプレミアムアップグレード

利用可能モデル・対応環境

  • 現在利用可能なモデルは gpt-oss-20b および gpt-oss-120b
  • CLI からのTurboモード利用に完全対応
  • API、JavaScript/Pythonライブラリ からもTurbo利用可能
    • 詳細は公式ドキュメント参照

プライバシーとセキュリティ

  • Turboモード利用時のクエリやデータは一切保存されない 設計
  • ユーザーのプライバシーとセキュリティ を最優先

ハードウェア・設置場所

  • すべてのTurbo用ハードウェアは米国内に設置
  • データの越境リスク回避 を確保

利用制限・今後の料金体系

  • 時間単位・日単位の利用制限 あり
  • 近く 従量課金型料金プラン も導入予定
  • 容量制限による混雑回避 を目的とした設計

Turbo導入のメリット

  • 大規模モデルもローカルPCを圧迫せずに利用可能
  • 他アプリのパフォーマンス維持バッテリー寿命延長
  • 高速な応答と最新モデル利用 による生産性向上

Hackerたちの意見

どうなるか楽しみだな。Ollamaって「ローカル」と同義語みたいな感じだし。

大企業を信頼しない少数派のユーザーがいるけど、同じようなサービスを小さな会社にお金を払って利用するのは気にしないみたい。あの少数派の人たちが、こういうサービスにお金を払うかどうかも気になるね。

クラウドゲーミングと似たような感じで見てるかな。90%の時間はローカルで使うのがいいけど、時々はハードウェアのコストを他の誰かに任せる方がコスト的に効率的なこともあるよね。でも、これは全か無かの決断じゃないよ。

いいリリースだね。今のOSSモデルの問題の一部(特に企業ユーザーにとって)は、提供されるものの多様性だと思う。例えば:

  • スピード
  • コスト
  • 信頼性
  • 機能の均一性(例えば、コンテキストキャッシング)
  • パフォーマンス(実際にどの量子レベルが使われてるのか…)
  • ホスト地域/データプライバシーの保証
  • LTS

これに加えて、どのモデルを使うかの決定もあるからね!現実的に言うと、大手3社の代わりにOSSモデルを使いたいなら、これらの軸でモデルやプロバイダーを評価しなきゃいけなくて、結構な専門知識が必要になるかも。自分でカスタム評価を作らなきゃいけないこともあるし。対して、Anthropic/OAI/Googleは「ただ動く」し、できる限りのことをしてくれる。たとえ高くても(実際にはそんなに高くないけど)、基本的には「全部お任せ」っていう特権にお金を払ってる感じだね。プロバイダーがOSSの提供を標準化し始めるまでは、OSSモデルは理論的にはクローズドソースと同じパフォーマンスだけど、実際には大規模な展開には全然適してない状態が続くと思う。

確かにそうだけど、サマが指摘したように、実際の法的保護なしに全てのトラフィックを渡すことを無視してるよね。

Ollamaに対する批判が多いのは分かるけど、ローカルでモデルを開発・テストするには一番使いやすいソリューションの一つだよね。確かに、llama.cppが本物だけど、Ollamaはラッパーだし…本番環境でOllamaを使いたいとは思わないけど、技術的にあまり詳しくない人にLLM対応のシステムを素早く開発させて、qwenとかをローカルで動かすにはGUIと.dmgがあるのは便利だね。

ありがたい言葉をありがとう。新しいマルチモーダルエンジンができてから、Ollamaはllama.cppのラッパーから離れたんだ。GGMLライブラリは引き続き使っていて、ハードウェアパートナーに最適化を手伝ってもらってる。Ollamaはおもちゃみたいに見えるし、作るのが簡単そうに見えるけど、シンプルさを保つために、実際にはかなりの苦労をしてるんだ。シンプルさはしばしば見落とされがちだけど、私たちは見たい世界を作りたいと思ってる。

本番環境でOllamaを使いたいとは思わない。 vLLMとOllamaのスタートアップ時間とトークン毎秒をベンチマークしたんだけど、Ollamaが一番良かったよ。これらの結果をすぐに公開できることを期待してる。

「プライバシー第一」について、もっと情報ある?データを保持しないだけだと、ちょっと薄い気がする。Draw Thingsの「クラウドコンピュート」でも、データは保持しないし(リクエストごとにRAMで処理してる)。でも、個人的にはそれでも満足できないな。もうすぐ「プライバシーパス」サポートを追加するけど、まだ満足には程遠い。ハードウェアで証明できる透明性ログがあればいいんだけど(うちもオープンソースのgRPCServerCLIを運営してるから)、どこから始めればいいのか全然分からない。

Ollamaを使ってもプライバシーの利点は感じないね。データを売ったり、他の誰かと同じように召喚状を受け取ったりする可能性があるから。

スイスとかGDPRを尊重する国でモデルを実行できるなら、もっとお金を払ってもいいな。たとえ遅延があってもね。それに、すべてがSSLか何かで送信されてることを願ってる。

$20をOllamaに払って劣ったモデルを使うメリットって何なんだろう?同じ金額をOpenAIに払って最先端のモデルにアクセスした方がいいんじゃない?

何もないよ、笑。これはただOllamaが金儲けしようとしてるだけ。

自分はあまり能力のないモデルでも問題なく動く普通の仕事をたくさんやってるから、潜在的なメリットは分かる。でも、結局は限界次第だよね。

プライバシーかな。でも今のところ、データをログに残さないって信じるしかないよね。

Ollama Turboの主なメリットは、正しいハードウェアがあればローカルで動かせるモデルをクラウドで素早くテストしたり実行したりできることだと思う。これによって、オープンモデルを試してみて、DGXボックスやメモリがたくさんあるMac Studioを買うべきかどうかをより良く判断できる。高価なハードウェアに投資せずに、やりたいことをローカルで構築できるんだ。特定のアプリケーションはプライバシー管理が重要で、オンプレミスやローカルが必要な金融・医療・法律の開発者もいるからね。これを使えば、何かを構築して非プライベートなデータでテストしてから、後で本物のローカルハードウェアを導入できる。

主要なモデルが$20のままでいるかは分からないけど、どんな努力でもこの分野を競争的に保つことは支持するよ。

データプライバシーが主なポイントだと思うし、限界に達する前にもっと使えるってことかな?でもやっぱりデータプライバシーが一番かな。

Groqは似たようなサービスでうまくやってるみたいだけど、彼らの価格設定の方が良さそうだね。

APIの利用に対するサブスクリプション料金は面白い提案だけど、実際の価値は使用制限に依存するよね(それが隠されてるのが気になる)。

もっと適切に価格を設定するために、使用パターンを学んでるところだよ。

予想通りだね。地元の推論コミュニティがOllamaに集まってるのは残念だ。彼らの長期的な優先事項や戦略が明らかに違うのに。早く離れなきゃいけないね。

うーん、どういうこと?Ollamaはオープンだし、追加のGPUを欲しいユーザーには価格設定も完全に任意だよ。お金がかかるGPUを売るのにお金を取るのが悪いことなの?そのお金を使ってコアのオープンソースプロジェクトを成長させるのは?ある程度は合理的でなきゃ。良心的にやれば、素晴らしいものが作れると信じたいな。

ああ、これは本当に悪魔的な展開だね。特定のユースケースに合わせたホスティングサービスを合理的な価格で提供するなんて…

そうだね、持続可能じゃない方法で無料のものを手に入れる方がいいよね。ところで、オープンソースの代替を作って、そこに時間を注ぐのは自由だよ。みんなが恩恵を受けられるから。でも、そうしないなら、俺が予想したってことを覚えておいて!

Llama.cpp(ollamaが裏で使ってるライブラリ)は独自のサーバーを持ってて、open-webuiとも完全に互換性があるよ。数ヶ月前にollamaからllama-serverに移行したけど、同じUIを使ってるから何も不便に感じてない。

Huggingfaceもクラウド製品を提供してるけど、それがローカルでの重みのダウンロードや実行を妨げるわけじゃないよね。

それがhttps://github.com/containers/ramalamaの目的だと思うよ。

なんでOllamaがこんなことしたのか、全然理解できない。お金を稼ぐための象徴的な試みなのかな?誰かに圧力かけられてるのかも。彼らの製品は、ローカルで使いたい人にとって素晴らしい役割を果たしてるのに。探求すべきことがたくさんあるのに、またクラウド系のものを立ち上げるの?Ollamaが大好きだから、これからも素晴らしいままでいてほしい。

OSSは使うのは無料だけど、作ったり維持したりするのは無料じゃないんだよね。使い続けるために無料で、かつ最新の状態を保ちたいなら、OllamaはGitHubで問題を解決する人が必要になる。普通は、そのためにお金をもらいたい人が多いよ。

これについては興味深いことがたくさんあるね。トップのローカルオープンモデル推論エンジンの一つが、最初からOSSだけをサポートするのは、今日OSSが発表されたから「お、OSSが出たからOllama Turboで使えるよ」っていう流れに乗ろうとしてる感じがする。サブスクリプションベースの価格設定は本当に興味深い。他のプレイヤーもこれを提供してるけど、APIタイプのサービスにはないよね。時間が経つにつれてLLMの価格戦争が本格化すると思ってるし、APIサービスの月額料金はその兆候かもしれない。これってローカル推論エンジンにとってどういう意味があるんだろう?Ollamaは両方を維持するだけのリソースがあるのかな?

正直、価値提案の面で厳しい戦いになるだろうね。指定された使用制限なしで、広く利用可能なMoE 120Bにアクセスするために月20ドル?彼らのターゲット層は便利さと使いやすさを最優先にしてるから、そこがうまくいくかもしれないね。