GLM-4.5: エージェント的、推論、コーディング（ARC）基盤モデル [pdf]

2025年8月12日原文(arxiv.org)

概要

お送りいただいた内容は 文字化け や バイナリデータ が含まれており、テキストとして判読できません。
PDFファイル やその他の 非テキストデータ がそのまま貼り付けられた可能性があります。
正常な日本語や英語の テキスト情報 が含まれていないため、内容の要約や翻訳はできません。
必要に応じて 該当部分のテキスト をコピーし直すことを推奨します。
再度のご投稿をお待ちしております。

文字化け・バイナリデータが含まれる投稿について

貼り付けられた内容は 正常なテキストデータ ではなく、 PDF内部情報 や エンコードされたバイナリ がそのまま表示されている状態。
このままでは 内容の確認や要約、翻訳 が不可能。
テキスト化したい場合は、 PDFリーダー などで コピー＆ペースト を行い、 日本語や英語のテキスト のみを送信することを推奨。
画像や図表の場合は、 OCR（文字認識）ツール を利用してテキスト化する方法も有効。
再度、 テキストデータ として投稿いただければ、 要約・翻訳・編集 が可能。

今後のご案内

再投稿 の際は、 テキスト情報 のみをご送付ください。
PDFファイル 自体や バイナリデータ は直接貼り付けず、 必要な部分のみ 抜粋してご利用ください。
ご不明点があれば、 どのような内容をまとめたいか を具体的にご指示いただければ、適切にご案内いたします。

Hackerたちの意見

これは、フロンティアのプロプライエタリモデルと比較しても大きな注意点が必要ない初めてのオープンモデルって感じだね。パラメータの効率だけでも、トレーニング手法に本物の革新があることを示唆してる。結果の独立した検証が見たいし、AiderのLLMリーダーボードでのパフォーマンスも楽しみだな。

なんでqwen3はコーディングベンチマークから外れたのに、他のベンチマークには入ってるの？

└

セクション4.3.2にはQwen3-Coderが含まれてるよ。

素晴らしいリリースだね、しかもApacheライセンスの下で。オープンソースモデルが新しい可能性を広げてくれて嬉しいよ。

まあまあかな、qwen 2.5 VLとフロンティアモデル（o3 / opus 4）の中間くらいの視覚的推論だね。

最近GLM-4.5をコーディングモデルとして使ってみてるけど、ほんとにすごいよ。自分が作ってるコーディングエージェント、Octofriendでは、時々それを使ってClaude 4と混同しちゃうこともある。主観的には、1. Claudeは全体のコードベースのタスクにおいて、いろんなコンテキストを考慮する必要があるときにちょっと優れてる。2. GLM-4.5は「正直」であることが得意で、バグを直さずにテストを変えて壊れたテストを通すようなことはほとんどない。どちらもかなり良いけど、GLM-4.5はClaude 4 Sonnetや4.1 Opusが見逃したバグを見つけてる。一般的に、デバッグタスクではClaudeがGLM-4.5よりも少し勝つことが多いけど、接戦だね。GPT-5と比べると、ClaudeとGLMはもっと一貫性がある感じ。ただ、GPT-5は時々すごく良いパフォーマンスを発揮して、後者よりも主観的に高いコード品質を持つことがある。でも、GPT-5が調子を崩すと、元に戻すのが難しくて、ちょっとイライラすることもある。1: https://github.com/synthetic-lab/octofriend

└

glm-4.5をどう使ってるの？APIを使ってるの、それともローカルでglm-4.5 airみたいなものを動かしてるの？

└

あなたのコメントを読んで、KilocodeでGLM-4.5を試してみることにしたよ。今日はずっとGemini CLIを使って、ちょっと厄介なバグを解決しようとしてたんだ（Cのサブセット用のコンパイラで、マイクロコードを生成する…変わったアーキテクチャのためのものなんだけど、詳しくは言わないね）。でもGLM-4.5はすぐに問題を指摘してくれた。Gemini CLIが一日中見失ってた問題をね。Geminiは、実際には問題じゃない関数を疑わせて、無駄な変更を試みさせてたんだけど、結局その関数が問題じゃなかったから、全然解決しなかったんだ。

└

aider Deepseek R1のアーキテクトモード（高レベルの計画をする）を使って、Qwen3 480B（低レベルのコーディングをする）やqwenコードAPIから入手できるもので組み合わせてるんだけど、すごくうまくいってるよ。99.99%の問題を自分で解決してくれる。aiderでは分離があまり良くないから、後で自分のツールを作って、より良いワークフローを実現するつもり。

この論文の深さに感謝！いつものモデル発表のブログポストとは違って、すごく新鮮だね。Zhipu/Tsinghuaチームは「何を」だけじゃなくて「どうやって」も説明してくれてるから、これらのモデルを使って何かを作ろうとしている人には興味深い詳細がたくさんある。特にポストトレーニング手法（セクション3）が目を引くね。推論、エージェント、チャット用の専門的な「エキスパートモデル」を作って、その能力を最終的な統一モデルに凝縮するアイデアは面白いアプローチだと思う。「何でも屋だけど、何も得意じゃない」っていう問題を解決するための、もっと構造的な方法って感じがする。データをただ混ぜるんじゃなくて、専門家の委員会から一般的な知識を学ばせてるんだね。彼らのRL実験からのいくつかの発見は、この分野で働く人にとっては貴重な情報だよ。フル64Kコンテキスト長での単一ステージRLプロセスが、進行的なマルチステージアプローチよりも優れているという直感に反する結果（図6）は素晴らしい教訓だね。逆だと思ってるチームも見たことがあるよ。また、JSONエスケープ地獄を避けるためにXMLライクなテンプレートを使うという実用的な選択（図4）は、小さいけど実際には大きな違いを生む素晴らしいエンジニアリングの決断だと思う。JSON内のエスケープされたコードを扱うのは本当に面倒だからね。SWE-benchでのパフォーマンスは印象的で、かなり大きなプロプライエタリモデルと同じレベルにある。個人的には、このハイブリッドトレーニングレシピがARCスタイルの評価以外でも通用するのか見てみたいな。例えば、エージェントの改善が、ドキュメントがないAPIや部分的な失敗がよくある、あいまいなユーザー入力が多い現実のワークフローに適用できるかどうか。

└

特定のドメインで豊富な/検証済みの/合成データとラベルがある場合、これらの「ポスト/ミッドトレーニングの調整」は重要なのかな？小さなチームがASIやドメイン特化型で2024年のベストプラクティスのトレーニングスタックに沿ってスケールアップできるのか？それとも大きな改善を逃しちゃうのかな？

使ってみたけど、sonnetと同じくらい良いと思う。

Hacker Newsで議論の続きを見る

ハクソク

GLM-4.5: エージェント的、推論、コーディング（ARC）基盤モデル [pdf]

概要

文字化け・バイナリデータが含まれる投稿について

今後のご案内

Hackerたちの意見