世界を動かす技術を、日本語で。

クロード・ファーブルは常に積極的です

概要

  • Claude Fable 5の 積極的なデバッグ自動化能力 の実例紹介
  • スクリーンショットからバグ原因を 自律的に調査・再現
  • 複数ブラウザ・依存関係・Web技術 を駆使した問題特定
  • 自作コード・自動化フロー の安全性リスクの指摘
  • 実際の コスト試算と運用上の注意点

Claude Fable 5による自動デバッグ体験

  • Claude Fable 5は 「執拗に能動的」 なAIエージェント
  • スクリーンショットと短い指示のみで 依存関係から原因調査 を開始
  • Datasette Agent のジャンプメニューに現れた水平スクロールバーのバグ調査
  • Claudeは 仮想環境内のsite-packagesやローカルリポジトリ から依存コードを探索
  • ユーザーが離席中に 自動でブラウザを操作 し、問題のダイアログ画面を開く挙動を確認
  • uv run --with pyobjc-framework-Quartz コマンドでPythonからウィンドウ情報を取得
  • Safariウィンドウを特定し、 screencapture CLI で自動スクリーンショット取得
  • 再現用HTMLページ を自作し、Safariで開いて挙動を観察・記録
  • テンプレートを編集し、 JavaScriptでキーボードショートカット(/キー)を自動発火
  • ページロード1.2秒後に モーダルダイアログを自動で開く スクリプトを挿入

独自Webサーバとデータ収集

  • Claudeは http.server を使い、 CORS対応のローカルWebサーバ を自作
  • Webページから JavaScriptで<textarea>要素のCSS情報・サイズをPOST し、/tmp/diag.jsonに保存
  • shadow DOM 内の要素にも自動でアクセスし、詳細な情報を収集
  • 取得データを基に 原因分析・修正案検証 を実施

問題特定から修正までの自動フロー

  • ローカル開発サーバの起動方法や環境変数も 自動で推測・設定
  • Playwrightで Chrome/Firefox/WebKit を自動起動し再現性検証
  • Chromeのスクロールバー表示設定 を一時的に変更
  • FirefoxのウィンドウID取得にosascriptが使えない場合も Python+pyobjcで回避策
  • テンプレート改変による 修正案の即時テスト
  • 修正が有効か Safariで最終確認
  • セッション中の全自動化手法とコード例を /tmp/automation-report.md に自動レポート

コスト試算とセキュリティ懸念

  • Claude Maxプラン($100/月)利用、 Fable利用分は6月22日以降API従量課金
  • 今回のセッション想定コスト: 約$12.11
  • AgentsView を用いた利用状況の可視化
  • Fableの 高い自律性と非公開技術 によるセキュリティリスク
    • ターミナルで実行できる全ての操作がAIにも可能
    • プロンプトインジェクション 等による悪用リスク
    • サンドボックス外での運用は 重大事故の温床
  • Johann Rehberger によるAIリスク論「Normalization of Deviance in AI」への言及
  • Fableの賢さは 両刃の剣 であり、悪用時の被害規模も甚大

まとめ

  • Claude Fable 5は 人間以上の自律的なバグ調査・修正能力 を持つ
  • Web自動化・依存関係解析・独自サーバ構築 など多彩な手法を即興で組み合わせる柔軟性
  • その一方で、 運用時のセキュリティ対策・権限管理 が不可欠
  • デバッグや自動化の未来像 を提示しつつも、 リスク認識と慎重な運用 が求められる

Hackerたちの意見

明らかにセキュリティが大きな問題だけど、これを読んでて思ったのは、たった2行のCSSを直すためにどれだけトークンを使ったんだろうってこと。

「あなたの科学者たちは、できるかどうかに夢中になりすぎて、すべきかどうかを考えるのを忘れてしまった。」これが2020年代の要約になると確信してる…

俺はこれらのLLMフリークよりも早い。LLMを使う方が早いとは思わない、ボイラープレートくらいかな(誰が気にするんだ)。人々はただ怠けて、今は生産的に見えるだけで、実際はまだ怠け者だよ。今や、メールを書くために何十万ものハードウェアにアクセスが必要な人もいる。そんなのは無理だ、俺は脳を焼いて億万長者の思考マシンに依存するつもりはない。ローカルの「俺のために考えてくれる」マシンで脳を焼くつもりもない。俺は、自分が持っているハードウェアよりも価値のある存在になりたいんだ。

バグ修正のためのコード行数は、必要な努力の指標としては本当に良くないよ。人間がどれくらいの時間がかかるかを見積もるべきだね。

どうやら12ドル分みたいだね。

でも一方で…これは、コーディングエージェントがターミナルにコマンドを入力することでできることは何でもできるという強力なリマインダーだよね。フロンティアモデルは、あらゆるトリックを知っていて、誰も書いたことのないようなトリックも持ってるみたい。 > サンドボックスの外でコーディングエージェントを動かすのは常に悪いアイデアだと思う。明らかにエージェントに自分のマシンへの完全なアクセスを与えるのは無謀だと認識している人がこんなにいるのに、みんなそれを続けているのが本当に不思議で驚くよ。まるで、自分が車の助手席に座って、足をダッシュボードに乗せている動画を投稿して、「これやってて事故ったらエアバッグで脚が折れるかもよ!ああ、そんなことにならなくてよかった!」って言ってるみたい。

このアナロジーは運転全般にも当てはまるよね。みんな危険だって知ってるのに、運転を続ける。

自分のエージェントがすべてのコードやGitHub、無制限のウェブアクセスにアクセスできるのに、自分のサンドボックスが効果的だと思っている人がこんなにいるのも不思議だよ。

これ。大物のセキュリティ専門家や経営者、弁護士が集まった家で、Claudeが興奮してプロダクションを壊すまでは、「サンドボックス、うぉー?」って感じだった。全然理解できないけど、VMが来るのはやっとだね。

プロの大工がノコギリのガードを開けたままにしたり、みんながやっちゃいけないことをするのと似た衝動だね。多分、効率の差は大きいけど、もし失敗しても操作者にとっての影響は少ないかも。

ずっと困惑してるし、驚いてるよ。みんな、最近は毎日10倍の仕事をしろって言われてるからね。そうなると、安全確認なんて無視されちゃうよ。

数ヶ月前から始めたんだけど、正直言ってエージェントが何を選ぶかは予測できないわけじゃない。問題は、みんなプロンプトの出し方が全然違うこと。例えば、私は「このサービスのk8sポッドでこのアノテーションの異なるバリエーションをテストして、Y理論を証明してほしい」って聞くけど、同僚は「Y理論をテストして」って言うんだよね。もし二人のジュニアエンジニアにそれを聞いたら、一人は本番環境でランダムなことを試して、もう一人はローカルでテストするかもしれない!これは「好きなようにやっていいから、解決して」っていう無指導なリクエストで、エージェントは境界を教えられていないジュニアのように読んでるんだ。

Hacker Newsで議論の続きを見る