オラマターボ

2025年8月6日原文(ollama.com)

概要

Ollama Turbo は、 高速なデータセンター級ハードウェア で大規模モデルを迅速に実行可能。 プライバシー重視 でユーザーデータを保持しない設計。 CLIやAPI、各種ライブラリとの互換性を確保。 バッテリー節約 やPC負荷軽減も実現。現時点で gpt-oss-20b/120b モデルに対応。

TurboPreview: Ollama Turbo 概要

Turbo は、 データセンター級ハードウェア を活用した新しいモデル実行方式
最新で大規模なモデルも、 高速推論 と スムーズな応答 を実現
OllamaのApp、CLI、API いずれからもTurboモード利用可能
バッテリー消費を抑えつつ PC本体のパフォーマンスを維持
月額$20 で利用可能なプレミアムアップグレード

利用可能モデル・対応環境

現在利用可能なモデルは gpt-oss-20b および gpt-oss-120b
CLI からのTurboモード利用に完全対応
API、JavaScript/Pythonライブラリ からもTurbo利用可能
- 詳細は公式ドキュメント参照

プライバシーとセキュリティ

Turboモード利用時のクエリやデータは一切保存されない 設計
ユーザーのプライバシーとセキュリティ を最優先

ハードウェア・設置場所

すべてのTurbo用ハードウェアは米国内に設置
データの越境リスク回避 を確保

利用制限・今後の料金体系

時間単位・日単位の利用制限 あり
近く 従量課金型料金プラン も導入予定
容量制限による混雑回避 を目的とした設計

Turbo導入のメリット

大規模モデルもローカルPCを圧迫せずに利用可能
他アプリのパフォーマンス維持 や バッテリー寿命延長
高速な応答と最新モデル利用 による生産性向上

Hackerたちの意見

どうなるか楽しみだな。Ollamaって「ローカル」と同義語みたいな感じだし。

└

大企業を信頼しない少数派のユーザーがいるけど、同じようなサービスを小さな会社にお金を払って利用するのは気にしないみたい。あの少数派の人たちが、こういうサービスにお金を払うかどうかも気になるね。

└

クラウドゲーミングと似たような感じで見てるかな。90%の時間はローカルで使うのがいいけど、時々はハードウェアのコストを他の誰かに任せる方がコスト的に効率的なこともあるよね。でも、これは全か無かの決断じゃないよ。

いいリリースだね。今のOSSモデルの問題の一部（特に企業ユーザーにとって）は、提供されるものの多様性だと思う。例えば：

スピード
コスト
信頼性
機能の均一性（例えば、コンテキストキャッシング）
パフォーマンス（実際にどの量子レベルが使われてるのか…）
ホスト地域/データプライバシーの保証
LTS

これに加えて、どのモデルを使うかの決定もあるからね！現実的に言うと、大手3社の代わりにOSSモデルを使いたいなら、これらの軸でモデルやプロバイダーを評価しなきゃいけなくて、結構な専門知識が必要になるかも。自分でカスタム評価を作らなきゃいけないこともあるし。対して、Anthropic/OAI/Googleは「ただ動く」し、できる限りのことをしてくれる。たとえ高くても（実際にはそんなに高くないけど）、基本的には「全部お任せ」っていう特権にお金を払ってる感じだね。プロバイダーがOSSの提供を標準化し始めるまでは、OSSモデルは理論的にはクローズドソースと同じパフォーマンスだけど、実際には大規模な展開には全然適してない状態が続くと思う。

└

確かにそうだけど、サマが指摘したように、実際の法的保護なしに全てのトラフィックを渡すことを無視してるよね。

Ollamaに対する批判が多いのは分かるけど、ローカルでモデルを開発・テストするには一番使いやすいソリューションの一つだよね。確かに、llama.cppが本物だけど、Ollamaはラッパーだし…本番環境でOllamaを使いたいとは思わないけど、技術的にあまり詳しくない人にLLM対応のシステムを素早く開発させて、qwenとかをローカルで動かすにはGUIと.dmgがあるのは便利だね。

└

ありがたい言葉をありがとう。新しいマルチモーダルエンジンができてから、Ollamaはllama.cppのラッパーから離れたんだ。GGMLライブラリは引き続き使っていて、ハードウェアパートナーに最適化を手伝ってもらってる。Ollamaはおもちゃみたいに見えるし、作るのが簡単そうに見えるけど、シンプルさを保つために、実際にはかなりの苦労をしてるんだ。シンプルさはしばしば見落とされがちだけど、私たちは見たい世界を作りたいと思ってる。

└

本番環境でOllamaを使いたいとは思わない。 vLLMとOllamaのスタートアップ時間とトークン毎秒をベンチマークしたんだけど、Ollamaが一番良かったよ。これらの結果をすぐに公開できることを期待してる。

「プライバシー第一」について、もっと情報ある？データを保持しないだけだと、ちょっと薄い気がする。Draw Thingsの「クラウドコンピュート」でも、データは保持しないし（リクエストごとにRAMで処理してる）。でも、個人的にはそれでも満足できないな。もうすぐ「プライバシーパス」サポートを追加するけど、まだ満足には程遠い。ハードウェアで証明できる透明性ログがあればいいんだけど（うちもオープンソースのgRPCServerCLIを運営してるから）、どこから始めればいいのか全然分からない。

└

Ollamaを使ってもプライバシーの利点は感じないね。データを売ったり、他の誰かと同じように召喚状を受け取ったりする可能性があるから。

└

スイスとかGDPRを尊重する国でモデルを実行できるなら、もっとお金を払ってもいいな。たとえ遅延があってもね。それに、すべてがSSLか何かで送信されてることを願ってる。

$20をOllamaに払って劣ったモデルを使うメリットって何なんだろう？同じ金額をOpenAIに払って最先端のモデルにアクセスした方がいいんじゃない？

Hacker Newsで議論の続きを見る

ハクソク