世界を動かす技術を、日本語で。

AMDの「Lemonade」:GPUとNPUを使用した高速でオープンソースのローカルLLMサーバー

概要

Lemonade は、ローカルAIを高速・プライベートに動作させる オープンソース ソフトウェア。 GPUやNPU での最適化や簡単なインストールが特徴。 OpenAI API互換 で、多数のアプリと連携可能。 複数モデル同時実行 やクロスプラットフォーム対応。 統合API でチャット・画像生成・音声など多機能を一括提供。

Lemonadeの特徴

  • ローカルAI 向けに設計された オープンソース ソフトウェア
  • プライバシー重視、インターネット接続不要
  • GPU/NPU 最適化による 高速動作
  • 2MB の軽量な C++バックエンド
  • 1分で完了 するシンプルなインストーラー
  • OpenAI API標準 に対応
    • 既存の多くのアプリと 即連携
  • 自動ハードウェア検出・設定
    • GPUやNPUの依存関係も自動構成
  • 複数エンジン対応
    • llama.cpp、Ryzen AI SW、FastFlowLMなど
  • 複数モデル同時実行 に対応
  • クロスプラットフォーム
    • Windows、Linux、macOS(ベータ)で同一体験
  • 内蔵GUIアプリ でモデルのダウンロード・切替が容易
  • 統合API でチャット、画像生成、音声生成、音声認識などを一括提供

128GB統合RAMの活用例

  • 大規模モデル (gpt-oss-120b、Qwen-Coder-Next等)のロード・実行
  • 高度なツール利用 や並列処理
  • --no-mmap オプションで ロード時間短縮コンテキストサイズ拡大 (64以上推奨)

エコシステムとアプリ連携

  • OpenAI API互換 により数百のアプリと 即時連携
    • チャット、画像生成、音声認識、音声生成などに対応
  • Lemonade は多くのアプリに 組み込み済み
    • 追加開発不要で活用可能

技術仕様

  • インストールから実行まで高速最適化
  • ローカルファースト実行 でデータ漏洩リスク低減
  • POST /api/v1/chat/completions 等の標準APIエンドポイント
  • リリースサイクルが活発 で常に改善・新機能追加

Lemonadeが目指すもの

  • すべてのPCユーザー無料・高速・プライベート なローカルAI体験の提供
  • ローカルAIコミュニティ による継続的な開発・オープンなエコシステム形成

Lemonade は、手軽にローカルAIを始めたいユーザーや、プライバシー・速度・拡張性を重視する開発者に最適な 次世代AIプラットフォーム

Hackerたちの意見

誰かオラマと比べたことある?数日前に9070 XTでROCm 7.4使って最新のオラマでうまくいったんだけど。

同意。今はローカル推論でオラマ使ってるけど、どんな感じで比べられるのか気になるな。

さまざまなAPIとの互換性が最適化されてるし、AMDのGPUやNPU用の特定のハードウェアビルドもある。AMDが運営してるんだ。内部では両方ともllama.cppを動かしてるけど、これは異なるGPU用の特定のビルドがあるんだよね。9070がその一つかはわからないけど、370と395のAPUで動かしてるよ。

Vulkanよりいいの?

自分のMacBook M1 Max(64GB RAM)でこれを比べてみたんだけど、以下のような感じだったよ。モデル: qwen3.59b プロンプト:「ねえ、宇宙に行く話をして」オラマは約1分44秒で完了、レモネードは約1分14秒で完了した。だから、この限られたテストではレモネードの方が速いみたい。

サーバーコンポーネントのLinuxセットアップ手順にDockerやPodmanがオプションとして含まれてないのは驚きだね。Ubuntu用のSnap/PPAとFedora用のRPMだけみたい。コンテナ志向のユーザーは、ネイティブパッケージがあれば自分でビルドする前提なのかな?

一応コンテナオプションはあるけど、リリースページに追加すべきだと思うな。https://lemonade-server.ai/install_options.html#docker

ウェブサイトとニュース発表を読んだけど、まだ何なのかよくわからない。LM Studioの代替品?MacでMLXやMetalに対応してるの?AMD向けに最適化されると思うけど、他のGPU使うと不利になるのかな?

LM Studio自体は、LLMを実際に使うために他のソフトウェアを使ってると思う。もしそのソフトウェアがあなたのNPUをサポートしてなかったら、あんまり性能は出ないよね。このLemonadeってやつが、LM Studioが使ってる他のソフトウェアの一つなんじゃないかな。

MacでMLXやMetalをサポートしてるの? これは彼らのプロジェクトロードマップに書いてあるよ[0]:最近完了:macOS(ベータ)開発中:MLXサポート [0] https://github.com/lemonade-sdk/lemonade?tab=readme-ov-file#...

AMD最適化に特化したローカルAIスタックを始めるのに簡単な方法だよ。SST、TTS、画像生成、普通のLLM用のエンドポイントを一括でインストールできるんだ。管理やエンドポイントとのやり取り用の独自のWeb UIもあるし、OpenAI、Ollama、Anthropicに対応したエンドポイントもあるから、それらに対応したツールを投げればそのまま動くよ。

これが使ってるNPUモデル/カーネルはプロプライエタリでオープンソースではないから注意ね。このハードウェアのためにもっとオープンサポートが開発されるといいな。

そうなの?ドキュメントには「Hugging Faceのモデルを高度なプルコマンドオプションでLemonade Serverに登録することもできます」って書いてあるよ。

モデル用にNPUを使えるかどうかわからないまま、遊ぶために彼らのマシンの一つを買ったんだけど、やっぱりこれを読むと腹が立つね。

これ、レモンを最大限に活用しようとしてるから名付けられたの?

もし人生がそれを与え続けるなら、代わりに燃えるレモンを発明すべきだね。

「L-L-M」って言うと、なんか「レモン」みたいに聞こえるから、これはLLMエイド(レモネードみたいな響き)だね。

レモンスクイーズは暴力的すぎるって言われてたね。

なんか、OllamaとLM Studioの間にいる感じだけど、単にモデルを提供するだけじゃなくて、統一された「ランタイム」にもっと焦点を当ててるみたい。私にとって面白いのは、ローカル推論だけじゃなくて、テキストや画像、音声など、どれだけのオーケストレーションを扱おうとしてるかってこと。ローカルでモデルを動かすときって、だいたいここがゴチャゴチャになるからね。これが実際にどれだけ抽象化されてるのか、単に複数のツールをまとめてるだけなのか気になるな。それに、AMD/NPUの最適化が実際にOllamaみたいなものと比べて、どれだけポータブルじゃなくなるのかも気になる。

ツールやモデル選択、全体管理が一つにまとまってるんだ。サポートされているOSなら、CPUやVulkanバックエンドを使ってインストールできるから、持ち運びも便利。ただ、標準ではROCMビルドとAMDのNPUしかサポートしてないんだよね。CUDAで動かしたい場合は、どのバージョンのllama.cppを使うかをオーバーライドする方法もあるけど、それだと管理がちょっと面倒になる。AMDのマシンを持ってて、ローカルモデルを簡単に動かしたいなら…これが一番楽だよ。うちのNASで動かしてて、ホームアシスタントの設定もこなしてる。ストリックスハローと、手動でllama.cppやvllmの最新バージョンにアップデートしてるCUDAカードを使った別のサーバーもあるよ。

もうほぼ1年、lemonadeを使ってるよ。Strix Haloでは他のものは使ってないけど、kyuz0のツールボックスもいいよね(https://kyuz0.github.io/amd-strix-halo-toolboxes/)。最近はTTSやSTT、テキスト・画像生成、画像編集もできるはず。rocm、vulkan、CPU、GPU、NPUで動かせるし、選択肢がかなり多いよ。開発のペースも結構良くて実用的。AMDハードウェアには本当におすすめ! 編集:OpenAIと今のOllama互換のエンドポイントのおかげで、VSCode CopilotやOpen Web UIでも使えるようになった。もっと選択肢は彼らのドキュメントに載ってるよ。

それをエージェントやclawと一緒に使ったことある? もしそうなら、どのモデルを使ってるの?

Strix Haloボックスでしばらくlemonadeを動かしてる。彼らが含めてる他のバックエンド、例えばdiffusionやllamaに振り分けてる。実は、彼らの統合サーバーはあんまり好きじゃなくて、代わりにROCm用のllama CPPビルドを使ってる。https://github.com/lemonade-sdk/llamacpp-rocm でも、画像や音声には何も使ってないよ。GPT OSS 120Bで約50トークン/秒出てる。みんなが指摘してるように、NPUは「常にオン」の低電力、小型モデルに使われるから、標準的なチャットボットの使い方にはあんまりメリットがないね。

小さいNPUでも、長いコンテキストでのプレフィルから計算をオフロードできることがある。デコード中に直接助けられるかどうかは不明だけど、それは良いスループットでメモリにアクセスできて、GPUのように内部でデクオンタイズと計算ができるかどうかに依存する。Apple Neural EngineはINT8かFP16のMADD演算しかできないから、あんまり役に立たないね。

そのNPUを使うにはベンダー特有のAPIや大きなベンダー特有のスタックが必要なのが本当に面倒。これじゃソフトウェアの採用がかなり限られちゃうよ。

7900 XTXでローカルLLMを数ヶ月動かしてるけど、ROCmの体験は…厳しかった。AMDがドライバーや依存関係の迷路を扱う公式の推論サーバーをサポートしてるのは大きいね。私の一番の疑問はNPUのサポートなんだけど、Ryzen AI NPUから実際に意味のあるスループットを得た人っているの?それともdGPUだけ使ってるのが普通?私のテストでは、NPUは小さなモデル以上のものではほとんどボトルネックになってたよ。

NPUはバッテリー使用時の電力効率のためのもので、GPUの代わりにはならないと思うよ。