世界を動かす技術を、日本語で。

新しいコーディングモデルと統合

概要

  • GLM-4.6Qwen3-coder-480B が Ollama のクラウドサービスで利用可能
  • Qwen3-Coder-30B は新エンジンでツール呼び出しが高速化・安定化
  • VS CodeZedDroid など主要ツールとの統合手順
  • ローカル実行API連携 の方法も詳細に解説
  • Ollama公式ドキュメント でさらなる統合方法を案内

Ollamaクラウドで利用可能なGLM-4.6とQwen3-coder-480B

  • GLM-4.6 および Qwen3-coder-480B を Ollama のクラウドサービスで簡単利用
  • 使い慣れたツールとの シームレスな統合 を実現
  • コマンド例
    • ollama run glm-4.6:cloud
    • ollama run qwen3-coder:480b-cloud
  • 300GB以上のVRAM を持つユーザーは qwen3-coder:480b をローカル実行可能
  • Qwen3-Coder-30B は新エンジンで ツール呼び出し速度と信頼性向上

コーディング用プロンプト例とGLM-4.6によるサンプル

  • シングルHTMLファイル で完結するSPA(シングルページアプリ)作成指示例
    • 名前:Ollama's Adventure
    • 目的:障害物をジャンプして生存時間を競う
    • 機能:速度上昇、ハイスコア記録、リトライボタン、アクション・イベント時の面白い効果音
    • UI:カラフル、パララックス背景、アルパカ風キャラ
    • 全年齢が楽しめる設計

VS CodeでのOllamaモデル利用手順

  • コーディングモデルの事前ダウンロード
    • ollama pull glm-4.6:cloud
    • ollama pull qwen3-coder:480b-cloud
  • Copilotチャットサイドバーを開く
  • モデルドロップダウン → モデル管理 → Provider DropdownでOllama選択
  • モデルを選択して利用開始(例:glm-4.6)

ZedでのOllamaモデル利用手順

  • コーディングモデルの事前ダウンロード
    • ollama pull glm-4.6:cloud
    • ollama pull qwen3-coder:480b-cloud
  • Zed(Windows対応)を起動
  • エージェントパネル(星アイコン)をクリック
  • モデルドロップダウン → 設定 → LLMプロバイダーでOllama選択
  • Host URLが http://localhost:11434 であることを確認し接続
  • Ollama内で任意モデルを選択

DroidでのOllamaモデル利用手順

  • Droidをインストール
    • curl -fsSL https://app.factory.ai/cli | sh
  • ~/.factory/config.json に以下の設定を追加
    • GLM-4.6, Qwen3-Coder-480Bのモデル情報
  • Droid起動後、/model コマンドでモデル選択
    • ナビゲーションでGLM-4.6やQwen3-Coder-480Bを切替

Ollamaの統合とAPI利用

  • Ollama公式ドキュメントで以下のツール連携を案内
    • Codex、Cline、VS Code、Zed、Droid、Roo code
  • クラウドAPI経由で glm-4.6qwen3-coder:480b を直接利用可能
    • APIキー作成後、環境変数にセット
      • export OLLAMA_API_KEY="your_api_key_here"
    • API呼び出し例
      • curl https://ollama.com/api/chat \
        -H "Authorization: Bearer $OLLAMA_API_KEY" \
        -d '{ "model": "glm-4.6", "messages": [{ "role": "user", "content": "Write a snake game in HTML." }] }'
        
  • 詳細は Ollama公式APIドキュメント を参照

Hackerたちの意見

今月リリースされたGLM-4.6を使い始めたんだけど、めっちゃお気に入り!Claude CodeやシンプルなOctofriendを通して使ってるよ。ホスティングはz.aiとsynthetic.newでやってるけど、どちらもいい体験。z.aiはサポートメールにもちゃんと返事くれるし!5つ星だね ;)

Z.aiチームは素晴らしくて、すごくサポートしてくれるよ。synthetic.newはまだ試してないんだけど、複数使う理由って何なの?主にいろんなモデルを試すため?それとも何かレート制限とか使用制限に引っかかってるの?

GLM-4.6をCharm Crushで使った経験はめちゃくちゃ素晴らしかったよ。特に高い思考を要するタスクでね。結構難しい課題、例えばLeanで小さな補題を証明するようなやつもやったけど、他のエージェントソフトウェア、特にClaude Codeではあまりうまくいかなかった。こういうタスクにはCodexだけが近い感じ。

月$3でClaude Codeを使うのは、ドキュメントからコピー&ペーストするだけで環境変数をちょっと変えるだけだよ。コストパフォーマンス的にはこれ以上のものはないね。

Claude Codeで非Anthropicモデルをどうやって使うの?

300GBのVRAMを持つユーザーには、qwen3-coder:480bもローカルで利用可能です。AI専用のGPUについてはあまり詳しくないけど、本当に300GBのVRAMを持つカードってあるの?

いや、複数のGPUが必要だよ。これらのモデルは普通のユーザーが使うためのものじゃないから。

M3 UltraのMac Studioを買って、CPUとGPUの間で512GBのメモリを共有するように設定できるよ。約9500ドルかかるけどね。

すでに言及されたApple Mac Studioに加えて、NVIDIAは最大480GBのVRAMを搭載したGH200を販売してるよ。でも、私の地元のHPCは120GBのバージョンを選んだみたい。ノードごとに4つね。

Ollamaがクラウド製品でサポートされているモデルをリストアップしているのに、Ollamaアプリではサポートされていないのを見てがっかりしてる。彼らがモデル推論だけに興味があるのは、すぐにお金を稼ぐためだっていうのがますます明らかになってきてるね。

Qwen3-coder:30bはブログ記事に載ってるよ。これならほとんどのユーザーがローカルで動かせるはず。一緒に頑張ろう!いろんなサイズのモデルがラボから出てくるのを期待してる。

これが残念だってのはわかるけど、Ollamaにとって最適なビジネスモデルって何だと思う?1. 寄付制 - 正直に言うと、トークンは高いし、みんなが自発的にお金を出すとは思えないから、Ollamaはすぐに潰れちゃう。2. サブスクリプション(自己資金でVCなし) - これも同じで、持続可能にするためにはクラウドサービスをサブスクリプションで支払わないといけない(君は払う?)か、潰れちゃう。3. 広告 - Ollamaは無料版に広告を入れることができるけど、広告を消したいユーザーは上位プランを払うことになる、まあまあの妥協だけど、開発者は広告が嫌いだし、自分のツールにお金を払うのも嫌がる。ユーザーがいなければOllamaは潰れる。4. VC - これが現在のモデルで、クラウド製品がある理由で、メイン製品は今のところ無料を維持してる。お金を稼げなかったり、他の会社に売れなかったりしたらOllamaは潰れる。5. 完全オープンソース(100%無料)でLinux Foundationの資金提供 - Ollamaはこの道も選べるけど、そうなると投資家にとってビジネスじゃなくなるし、Linux Foundationのスポンサー(Google、IBMなど)に頼ることになる。クラウド製品は企業向けに残るかも。Ollamaはすでに投資家からお金を受け取ってるから、彼らにリターンを生む必要があるから、5は長期的には選択肢じゃない。6. 他の会社による買収 - Ollamaが買収されても、製品は変わらないかもしれないけど(買収した会社が価格を上げたり、製品をいじったりしない限り)、結局コミュニティが離れてしまうから、どうせ潰れちゃう。Ollamaがクイックマネーを稼がずにエンシティファイされない方法は見当たらないよ。VCに支えられたツールを避けて、投資家に縛られない自己資金のものにお金を払う必要がある。

これらのモデルって、いつもかなり大きくてローカルで動かすのが難しいよね?将来的なOllamaのリリースでは、VRAMメモリを動的に管理できるようになって、控えめなGPUハードウェアでも加速して動かせるかもしれないね(例えば、単一の「エキスパート」のレイヤーをVRAMに動的に読み込んだり、同じ「エキスパート」のパラメータに依存する計算をまとめて処理したりする感じで)。でも、こういう「トリック」はパフォーマンスにおいてそれなりのコストがかかるだろうけど。

えっと、そのglm-4.6はローカルで動かないってこと?それはちょっと残念だね。

Ollamaをローカルで構築したい人へ。数時間前に、実験的なVulkan Computeサポートがgithubのメインブランチにマージされたよ!まだ公式のバイナリリリースには含まれてないけど、自分のハードウェアでテストできるから試してみてね!

これはワクワクするね!Ollama上で多くのデバイスを活用・加速できるようになるよ。特にROCmに完全には対応していないAMDのGPUや、IntelのGPU、さまざまなハードウェアベンダーのiGPU周りでね。

最近GLM-4.6について言及する人が増えてきて面白いね。ちょっと試してみたけど、推論タスクには驚くほど強い。Claude 3.5とコーディングスループットを比べるとどうなるのか気になるな。

クラウド製品を試した人、コメントしてくれない?速度や制限について、AnthropicやOpenAIの製品と比べてどうなの?

トップの画像が「コーダー」って書かれたヘッドバンドをつけた羊(じゃなくてラマ)ってのは、なんか適切だね…。

なんで?説明してくれる?

コーディングアシスタンスにローカルモデルを使ってる人に質問なんだけど、最高のローカルで動くモデル(GPU付きのノートパソコンで動かすやつ)は、簡単なケースでどれくらい使えるの?具体的には、期待する動作を明確に説明した後に短いコードやテストを書くときに使いたいんだ。キーストロークやコードの管理に使うメンタルエネルギーを節約したいだけで、大きな問題を考えてほしいわけじゃない。短いアルゴリズムや変換、スクリプト、そして「スマート」なオートコンプリートが欲しい。全体のシステムや機能を書くとか、あいまいなプロンプトで重いものを作るのには興味ないんだ。

前にノートパソコンとGPUでモデルを試したことがあるけど、全然使えなかったよ。めっちゃ遅いし、君が言ってる仕事には全然合わない出力だった。もし安くて実用的なツールを探してて、ローカルじゃなくても気にしないなら、deepseekの非推論モデルが一番コストパフォーマンスがいいよ。6ヶ月前に10ドル入金したけど、定期的に使ってるのにまだ使い切ってない。