世界を動かす技術を、日本語で。

DS4についてのいくつかの言葉

概要

  • DwarfStar 4 (DS4) の急速な人気上昇
  • DeepSeek v4 Flash によるローカルAI体験の革新
  • 2/8ビット量子化 で大容量RAMによる高速動作の実現
  • 今後の展望 として多様な専門モデルや分散推論への期待
  • ローカルAIの重要性 と個人での利用推進

DwarfStar 4 (DS4)の急成長と背景

  • DS4 のGitHub公開後、予想以上の急速な人気拡大
  • 単一モデル統合型ローカルAI体験 への強いニーズの存在
  • DeepSeek v4 Flash の登場により、ローカル推論のゲームチェンジ
  • 2/8ビット量子化手法 により、96GBまたは128GBのRAMで十分な運用が可能
  • ローカルAIムーブメント による過去数年の知見の蓄積と活用

開発体験と今後の方向性

  • 1日平均14時間 の開発作業、Redis初期と同様の集中
  • DS4 はDeepSeek v4 Flash専用ではなく、今後モデル変更も視野
  • 高性能MacやGPUボックス で実用的に高速なオープンモデルが主役になる予想
  • DeepSeek v4 Flash の新しいチェックポイントや、コーディング特化型などのバリアント登場への期待
  • 用途別モデル (ds4-coding, ds4-legal, ds4-medical等)の必要性
    • 質問内容に応じて必要なモデルを切り替え利用

ローカル推論の新しい可能性

  • ClaudeやGPT に頼っていた本格的な用途にもDS4を活用
  • ベクターステアリング による自由度の高いLLM体験
  • DeepSeek v4 Flash の圧倒的な性能への賞賛
  • ローカルモデル体験AフロンティアモデルB の中間以上の品質を実感

今後の課題と開発計画

  • 品質ベンチマーク の充実
  • コーディングエージェント のプロジェクト統合検討
  • 自宅ハードウェア環境 でのCIテスト実施による長期品質保証
  • さらなる移植 (ポーティング)の推進
  • 分散推論 (シリアル・パラレル両対応)の実現

ローカルAIの意義とメッセージ

  • AIは単なる提供サービスにとどまるべきでない という信念
  • 個人利用・自律運用 の重要性を強調
  • コミュニティからの支援 への感謝

Hackerたちの意見

この前、128GBのM5でこれを動かしてみたんだけど、かなりスムーズだったよ。モデルは約80GBのRAMで動いてて、コードを書くのもツールの実行もかなりできる感じだった。

トークンのスループットやレスポンスタイムはどう?

つまり、M5を買うべきってこと? :) ずっと抵抗してたけど、使わないだろうなって思って…来年にはもっと良くなるだろうし…スタジオを待つつもり(まだ6月に来ると思ってる?)…とか色々考えてる。

なんでモデル特化の推論エンジンを作るのか、llamacppを使えばいいのにって説明が見当たらないんだよね。llamacppの統合に取り組んでる人がたくさんいるのに、これは一つのモデルに多くの労力をかけてる気がする。別のモデルが出てきたら、そっちの方が良くなる可能性が高いし。最近の議論では、llamacppのブランチやds4に対してPRを出してる人もいるから、開発に時間を投資してる人たちが分散しちゃってるんだよね。

著者は何度も、llama.cppのメンテナはAIが書いたコードを人間の修正なしで使いたくないと言ってるんだよね。もし誰かがそのプロジェクトにサポートを上流に持っていこうとしたいなら、自由にやっていいよ。コードはMITライセンスだから。

前提として、コードは安い、コラボレーション(例えば上流化)は高いってことだと思うんだけど、これって本当?数年後にわかるかな。

ある時点で、大きくて柔軟なプロジェクト(例えば、llama.cppやLinux)に必要な抽象化や一般化のレベルが、膨大な数のファイルに膨れ上がっちゃうんだよね。もっと新しくて小さいものの方が、早く動けるかも。

antirezの最近の関連ツイート: https://x.com/antirez/status/2054854124848415211 > 最近のDS4フィエスタで、私だけでなく他の貢献者もGPT 5.5がものすごく役立つと感じて、Opusは全く役に立たなかったことを思い出させる優しいリマインダー。パフォーマンスを最大限に引き出すための低レベルなコード作業でも同じことを感じたよ。

Code/Codexについて話してるとして、APIの課金かサブスクリプションどっち?僕は実質無制限のAPI課金が使えるけど、Opusのバージョン間で品質が落ちた感じは全然ないよ。

パフォーマンスのベンチマークがあって、モデルベンダーが最適化してない気がする。GSOの最新結果では、Opus 4.6と4.7がGPT 5.5をわずかに上回ってる。これも僕の経験と一致してる。 https://gso-bench.github.io/

これがclaudeにどれだけ近いか、驚くよね。もちろん、かなり遅いけど、そんなにバカになってるとは思わない。面白いことに、imatrixの量子化は、オープンルーターのzdr推論バックエンドが使ってるものよりも良さそう。昨日は、自分のサーバープロセスが自分自身だって気づいてたから、これまでローカルモデルでそんなこと見たことなかったんだよね。

僕の(明らかに経験則だけど)テストでは、DeepseekV4 ProはSonnetよりコーディングが得意だった。でも、すごく遅いし、今のプロモーションを考えると、めちゃくちゃ安いけどね。

「知能」(あるいは好きな呼び方で)とスピードが、ローカルモデルで急速に上がってる気がするけど、この分野の成長率や限界ってどうなるんだろう。例えば、数年後に16GBのRAMだけでこのレベルのIQやパフォーマンスが実現できるのかな?ここで新しいムーアの法則が定義されるのかな?

この分野の最前線で働いている人たちは、異なる問題を解決するための並行モデルが必要だと考えているみたい。カラスは人間に比べて非常に小さな脳で、ある程度の知能を示すんだよね。最も頭の悪い人間と最も賢いカラスの問題解決能力には重なりがある。じゃあ、その違いは何なのか?ヤン・ルカンは、今私たちが「ワールドモデル」と呼んでいるものだと思っているようだ。ワールドモデルは、構造化データ(言語みたいな)を予測するのではなく、行動を予測する。もしあなたのモデルがどんな世界がどう機能するかを予測できるなら(その「世界」の定義は主にトレーニングデータのサイズに依存する)、理論的には因果関係について推論できる。因果関係の推論を言語と組み合わせられれば、本当に知的なものが得られるかもしれない。そういう方向に進んでいる感じがする。もしそのシステムのプロトタイプができたら、実際にどれくらいのデータが必要かについて多くの疑問が出てくるだろうね。1ビットの量子化で縮小したLLMでも、かなり強い言語理解を示すモデルができることは見てきたし、次の数年で非常に知的な低メモリのAIシステムが登場するのは不合理じゃないと思う。

640GBあれば誰でも十分だよね。

この狭い焦点のものを見つけて嬉しい! > 以下のバックエンドをサポートしています:Metalが主なターゲットです。96GBのRAMを搭載したMacBookからスタート。NVIDIA CUDAはDGX Spark用に特別に配慮されています。AMD ROCmはrocmブランチでのみサポートされています。私は(antirez)直接ハードウェアにアクセスできないので、メインから分けて管理してるんだ。コミュニティが必要に応じてブランチをリベースしてる。 > このプロジェクトはllama.cppとGGMLがなければ存在しなかったので、謝辞のセクションを必ず読んでね。Georgi Gerganovや他の貢献者たちに大きな感謝を。編集:あれ、システムRAMへのオフロードはサポートしてないみたい[0](まだ)[0] https://github.com/antirez/ds4/issues/108 llama.cppの問題も引き続きチェックしなきゃね[1] [1] https://github.com/ggml-org/llama.cpp/issues/22319

DwarfStar4は、DeepSeek 4を実行できる小さなLLM推論ランタイムなんだ。ブログ記事によると、今は96GBのVRAMが必要みたい。文脈が足りない人のために :-)

ありがとう。LLMの世界以外では、DS4は普通、ビデオゲームのコントローラーだよ。

一瞬、ダークソウル4かと思った。

自分だけじゃなくてよかった!次に思ったのはデュアルショックコントローラーだったけど、それも違ったわ(笑)

自分はデュアルショック4を考えてた。

コーディングにおける「十分な」知能の曲線がどこで飽和するのか、すごく気になる。ある時点で、あまり賢くないモデルに問題を長く解かせても同じ結果にたどり着けるし、自分が関与しなければ結果は同じになる。DeepSeek V4 Proはもうすぐそこにいる気がする。もしかしたらFlashもそうかも。そこに到達したら、Anthropicの現在のビジネスモデルがどれだけ崩れるのか気になるな。今までずっと、最も知的なモデルにお金を払うのが価値があるってことは明確だったけど、そのコンセプトには限界があるみたいだ。どれくらいの限界かはただの問題だと思う。正直、彼らが企業や生産性に広がろうと必死になっているのは、すでにその兆しを見ているからなんじゃないかと疑問に思う。

コーディングにおける「十分な」知能の曲線がどこで飽和するのか、すごく気になる。ある時点で、あまり賢くないモデルに問題を長く解かせても同じ結果にたどり着けるし、自分が関与しなければ結果は同じになる。DeepSeek V4 Proはもうすぐそこにいる気がする。もしかしたらFlashもそうかも。常にコストが問題になるよね;開発者の時間とコスト、AIのコスト、開発者の生産性のバランス。4.6では「普通の」ビジネスにおけるコストの上限に達しているように見えるから、他の要素も変わる必要があるかもしれない。

ある時点で、あまり賢くないモデルに問題を長く解かせても同じ結果にたどり着けるし、自分が関与しなければ結果は同じになる。それって本当?賢いモデルは、小さいモデルができないときに効果的だと思う。単に待つだけの問題じゃないよね。

誰かがDeepSeek 4 FlashとQwen3.6-27Bを実際のタスク(質と速度)で比較したことある?人工分析のベンチマークによると、Qwen3.6-27Bはエージェントタスクで優れていて、DS4はコーディングでは2ポイントだけ上回ってる(どちらも最大の推論努力、フルウェイト)。でも、DS4は2ビットでもVRAMを5倍必要とするんだよね。前回このテーマを探ったとき、大きなMoEモデルは2-3ビットだと、質的に密な約30Bモデルの4-8ビットよりもパフォーマンスが悪いことが多かった。実行するのはずっと重いのにね。確かにMoEモデルは知識が豊富だけど、極端な量子化はその利点を打ち消すかもしれない。一般的にコーディングタスクには、国Xの村のリストみたいな無関係な雑学を全部覚えてるモデルは必要ないと思う。DS4はMac Studio Ultraでかなり遅く動くみたいで、RTX 5090と同じくらいの価格帯に見えるんだよね。RTX 5090はUnslothの5ビット量子化で50-60トークン/秒、260kのコンテキストを出してくれる(いくつかのレイヤーも5ビット)。プリフィルも瞬時に終わるし、OpenCodeでも完璧に動く。もし高性能なMacを余ってるなら、その利点はわかるけど、全体的に見るといい構成かどうかはわからないな。Qwen3.6がDS4よりもベンチマックスされてるなら別だけどね :)