世界を動かす技術を、日本語で。

Ggml.aiがHugging Faceに参加し、ローカルAIの長期的な進展を確保する

概要

ggml.ai の創設チームが Hugging Face に参加することを発表 ggml/llama.cpp コミュニティのサポートと拡大が目的 プロジェクトは引き続き オープンソース かつコミュニティ主導 Hugging Faceとの連携で 長期的な持続可能性 と新たな機会を創出 今後は Transformersライブラリ との統合やユーザー体験向上にも注力

ggml.aiチームのHugging Face参加発表

  • ggml.ai (llama.cpp創設チーム)が Hugging Face に参加
  • 目的は AIの真のオープン性 維持と Local AI の発展支援
  • Georgi 率いるチームがHugging Faceに加わり、ggml/llama.cppコミュニティのスケールアップとサポートを継続
  • Local AI分野の 指数関数的な進化 への貢献

プロジェクトの今後と維持体制

  • ggml-org プロジェクトはこれまで通り オープン かつ コミュニティ主導
  • ggmlチームが引き続き フルタイムでメンテナンス・開発・サポート を担当
  • 新たなパートナーシップにより、 長期的な持続可能性利用者・貢献者への新機会 を保証
  • ユーザー体験Hugging Face Transformersライブラリ との統合強化にも注力

変更理由と背景

  • ggml.ai の設立以来のミッションは、 ggml機械学習ライブラリ の発展と普及
  • 過去3年でオープンソースコミュニティの拡大と 効率的なローカルAI推論の標準化 を推進
  • モデル提供者やハードウェアベンダーとの協力による成果
  • llama.cpp は多くのプロジェクト・製品の基盤として定着し、 消費者向けハードウェアでのプライベートAI を実現
  • Hugging Face は最も強力かつ支援的なパートナー
    • コア機能の提供
    • 高品質な推論サーバー構築
    • マルチモーダル対応やGGUFファイルフォーマットの互換性向上
    • モデルアーキテクチャの実装・メンテナンス支援
  • 両チームの協力関係が円滑かつ有益だったため、 連携の正式化 を決定

オープンソースプロジェクトとコミュニティへの影響

  • ggml/llama.cpp の開発体制やコミュニティ運営には 大きな変化なし
  • Georgiとチーム が100%の時間を引き続きプロジェクトに投入
  • コミュニティが 自律的に技術・アーキテクチャの意思決定 を継続
  • Hugging Faceが 長期的なリソース を提供し、プロジェクトの成長と繁栄を後押し
  • プロジェクトは今後も 100%オープンソース かつ コミュニティ主導
  • 新モデルリリース時の 対応速度向上 も期待

技術的な今後の注力ポイント

  • Transformersライブラリ との シームレスな統合 (“ワンクリック”インテグレーション)
    • transformersはAIモデル定義の“ソース・オブ・トゥルース”
    • ggmlとtransformersの互換性強化による 幅広いモデルサポートと品質管理
  • ggmlベースソフトウェアの パッケージングとユーザー体験向上
    • ローカル推論がクラウド推論の競合手段となる中、 導入・利用の簡易化 が重要
    • llama.cppを あらゆる場所で利用可能にすること を目指し、下流プロジェクトとの連携も継続

長期ビジョン

  • オープンソース超知能 を世界中に 普及 させるための基盤構築
  • Local AIコミュニティ と共に、 効率的な推論スタック の構築
  • あらゆるデバイス上で 最適に動作するAI の実現

Hackerたちの意見

HuggingfaceはAI業界の静かなGOATだね。コミュニティもプラットフォームも最高だよ。

不正な手法なしで、オープンで利益を上げるプラットフォームを作ったのは本当にすごい。

HuggingFaceがどうやってお金を稼いでるのか、いつも驚かされる。世界にすごく貢献してるよね。ビジネスモデルはどれくらいしっかりしてるんだろう?長期的に持つのかな?「売り飛ばす」ことはないのかな?

一度HuggingFaceを試したことがあるんだけど、チュートリアルを進めたくて登録したんだ。確か登録時にクレジットカードの情報を求められた気がする。1ヶ月後に請求書が来たけど、何に対するものか全く分からなかった。正直、彼らが何をしていて、どのサービスにお金を払っていたのか理解できなかったから、アカウントをキャンセルして二度と触れなかった。僕にとっては全然透明性のないプロセスだったな。

有料ホスティングがあるよ - https://huggingface.co/enterprise それに有料アカウントも。コンサルティングサービスもあるみたい。結構いい基盤だと思うけど。

FTが数週間前にいい記事を書いてたよ。「なぜAIスタートアップのHugging Faceは5億ドルのNvidiaの契約を断ったのか」

いい組み合わせになりそうだね。もっと早く実現しなかったのが意外だ。今はローカルAIの谷間にいると思うけど、2〜3年以内にブレイクすると思うよ。期待したいね!

HuggingFaceはOpenAIよりも「オープンAI」って感じだな。オンプレミスAIを一般に広める静かなヒーローの一人だと思う。昔はトラフィックが高かったのを覚えてるから、どうやってこんなに多くのモデルを無料でホスティングしてるのか全く分からない。持続可能なビジネスモデルが支えてることを願ってる。彼らがいなかったらエコシステムはかなり悪化するだろうしね。Kimi/GLMを社内で動かすためには良いハードウェアがまだ必要だけど、少なくともウェイトと配布は整ったからね。

Kimi/GLMを社内で動かすには、まだ良いコストパフォーマンスのハードウェアが必要だよね。SSDストレージから重みをストリーミングして、KVキャッシュを延長するためにスワップを自由に使うと、めっちゃ遅くなる(トークンごとに数秒かかる!)けど、基本的には何でも動くよ。それでも、夜中に計算できるものにはすごくいいと思う。たぶん、同時にたくさんのリクエストをバッチ処理することもできるしね。もちろん、計算を増やせばどんどん良くなるよ。

それと、unslothの仕事も無名のヒーローとして加えられないかな?彼らは素晴らしいドキュメントを提供していて、主要なフォーマットで高品質な量子化をすぐに出してくれるんだ。信頼できるブランドだよ。

なんでHFはBitTorrentをサポートしてないんだろう?hf-torrentやhf_transferのことは知ってるけど、ウェブUIのリンクみたいに簡単には使えないよね。

HuggingFaceとCandleをBurnと比較した良い情報ってある?今同時にテストしてるんだけど、Burnの方が使いやすいAPIがあるみたい。(Candleをバックエンドに使えるのも混乱する)RedditやDiscordで聞くと、みんなBurnを圧倒的に勧めるけど、「Candleは推論向きで、Burnはトレーニングと推論」っていう具体的な理由は教えてくれないんだよね。これには納得できない。Candleでトレーニングもやったことあるし。だから、両方使ったことがある人の意見を聞きたいな。どう思う?

Huggingfaceは実際に世界を良くするものだと思う。こういうコラボを見るのはいいね。

支持する数少ない買収の一つだな。

誰か、あまり強力じゃないシステム(つまり、メモリ8GBのMacbook M1みたいな)で、ローカルで効率的にモデルを動かす方法を教えてくれない?もっと計算パワーのあるシステムに投資するのが唯一の選択肢なの?このローカルモデルはすごく良さそうで、特にペネトレーションテストを手伝うためのhttps://huggingface.co/AlicanKiraz0/Cybersecurity-BaronLLM_O...みたいなのが気になる。色々な設定を試してみたけど、結局は即席のヒーターになっちゃった。

Redditで聞くのがいいと思うよ。https://www.reddit.com/r/LocalLLM/ ここで同じことを聞くたびに、みんなそこを勧めてくれる。

一般的な目安として、もっとアクティブなパラメータを持つモデルを動かすために、平均2ビットまで量子化しても大丈夫だよ。量子化されたモデルは完璧じゃないけど、パラメータが少なくて大きいモデルよりはマシだよ。8GB使えるなら、重い量子化で最大32Bのアクティブモデルを動かせるよ。

モデルを動かすには、十分なパワーのあるシステムが必要なのは避けられないよね。だから、自分の持っているもので収まるモデルを選ぶか(小さいモデルとか、少し大きめの量子化モデル)、もっとパワフルなハードウェアにアクセスするか、買うかレンタルするかのどちらかだね。(個人的にはDockerは必要ないと思う。簡単に始めるならLM Studioをインストールして遊んでみて。)少し前に、そんな実験のためにあまりお金をかけずに中古の64GB M1 Max MacBook Proを手に入れたんだ。メモリに収まるLLMモデルなら十分に速く動かせるけど、そのモデルとClaudeの間にはかなりの差があるよ。でも、これが君にとっての道かもしれないね?色んな拡散モデルも動かせるけど、そこでのパフォーマンスは(古いディスクリートGPUと比べて)落ちるし、編集や画像のために何分も待たされることがあるよ。

Georgiはマジで伝説だね。こういうことが実現して嬉しい!

これはいいニュースだね。2023年からGithubでggml/llama.cpp/Georgiを支援してきたけど、こういう結果が出て嬉しいよ。Georgi、気にしないでね、でも君とコードが居場所を見つけたから、今支援をキャンセルするつもりだよ!