世界を動かす技術を、日本語で。

「Mythos」との仕事の感覚

概要

  • Claude 5 Fable は従来モデルを大幅に超える性能を持つAIモデル
  • セキュリティ以外の幅広い分野で高い成果を発揮
  • ユーザーの関与が最小限で済む「ブラックボックス」的な作業プロセス
  • 複雑なプロジェクトも自律的かつ効率的に遂行可能
  • 人間とAIの関係が「作業者」から「依頼主」へと変化

Claude 5 Fableの実力と特徴

  • Claude 5 Fable は、これまで利用したどの公開AIモデルよりも 大幅に高性能
  • 幅広い課題に対応でき、長時間にわたり 複雑な仕様も実行可能
  • 単一プロンプトと少しのフィードバックで、 高度な学術論文や詩作 も実現
  • 画像生成機能は持たないが、 数式のみでアートや3Dオブジェクト も生成
  • ゲーム制作例では 曖昧な指示から実用的な作品を自動生成 し、追加指示による改善も容易

実践例:アイソクロニックマップの自動生成

  • アイソクロニックマップ(特定都市からの移動可能範囲を時間で可視化)制作を依頼
  • Claude Code 上で、空港・鉄道・徒歩・車移動を考慮した 独自デザインのマップ を設計
  • 複数のAIエージェントを自律的に起動し、 2,200以上のフライトデータや鉄道時刻表、道路速度データ を収集
  • コーディングと同時並行で 研究・検証・進捗記録 を実施
  • 遠隔地のデータ不足 指摘により、さらに 対立型エージェントによる再調査と修正 を実施
  • 結果として、 複雑な判断や設計を自律的にこなすAIの実力 を証明

AIとの関係性の変化とブラックボックス化

  • ユーザーの作業負担が極小化 し、AIがほぼ全工程を自律的に遂行
  • モデルの 意思決定プロセスが可視化されず、介入も困難
  • フィードバックや修正指示は可能だが、 作業の主導権はAI側
  • 作業プロセスから「 結果重視の依頼主(パトロン)」への移行
  • AIの高度化に伴い、「 ブラックボックス化はパワーの代償」という新たな課題

制限・コスト・今後の展望

  • トークン消費量が多く、コストも高い (Opusの約2倍)
  • セキュリティ関連の指示には 即座にガードレールが作動 し、低性能モデルへ切り替え
  • 出力の文体や進捗報告に AI独特の癖(Claudisms) が残る
  • 人間の役割は「指示」「評価」「修正」に限定 され、AIが自律的にエージェントを運用
  • 今後の課題として「 プロセスの可視化・介入性の向上」と「 ブラックボックスの受容」が挙げられる

結論:AI時代の「依頼主」としての人間

  • 従来の「 作業者」から「 依頼主(パトロン)」への役割変化
  • AIが スタジオのように複数エージェントを動員 し、ユーザーは最終成果物を評価
  • より高度なAIほど、 人間の介入余地が減少 し「ブラックボックス化」が進行
  • 制御の喪失ではなく、役割の変化 として受け止めるべき時代の到来

Hackerたちの意見

9時間半も動いてたよ。 > でも、完璧ではなかった。専門家として、いくつかのエラーや抜けを見つけたんだけど(それは自分が頼んだデザインのせいでもあった)、AIに修正させたんだ。それが印象に残った部分だね。1日の中で問題に取り組む時間としては、こんなに長いとは思わなかったし、数時間のコア報酬ループがあるものの出力を修正するのも期待してなかった。今、顧客たちはエージェントの応答時間を85秒から20秒台に下げるようにうるさく言ってるんだ。でも、業界が1時間以上のワークフローに向かっているのを見るのは、すごく違和感がある。

クロードを擁護するわけじゃないけど(こんなこと言うなんて信じられないけど)、19ページのデザイン文書から、9.5時間であんなもの(コンコード)を作れる開発者は誰も知らないよ。これからは、上司に「何してるの?」って聞かれる日々に戻るけど、「コンパイル中」って言う代わりに「クロード待ち」って言うことになるね。

私のオーパス4.8は、非トリビアルなコーディングリクエストに対して10分以上働くことがよくあるよ。

作業時間はあまり価値のある指標じゃないよ。自分でプロセスをコードで定義して、それをモデルに仕事のチャンクを委任させる方がいい。唯一の問題は、プロバイダーのサブスクリプション割引を利用しづらいことだけど、その反面、自分のモデルルーティングが簡単にできるし、普通のチャットボットが数日や数週間にわたる作業の整合性を保つ方法は見たことがない。

でも、業界が1時間以上のワークフローに向かっているのを見るのは、すごく違和感がある。今のところ、もっとお金を払ってくれたらやるよ。

QWENモデルがリリースされたときに、シグモイドに達した気がする。プロジェクトをちゃんと構成すれば、好きな拡張に向けて指示できて、30分間動かして何かを延長できる。全てのコードで「ゴッドモード」を効果的に使うことはできないけど、注意深い観察者でありコードの「プロ」としては、128GBのVRAMがあれば十分だと思う。中国がこれらのモデルでシリコンを刻み始めたら、もうSOTAの肥大化が進んでることに驚かされる。

エピソード: Fableに手動で検証しているいくつかのモデルを与えたんだ(基本的に、オーパスにモデル化させるシナリオを描いて、それを構築させて、数学を見せてもらって、修正して、こんな感じで反復して、最後にそのコードをダブルチェックして数学がモデルの論理と一致しているか確認する)。Fableはほぼ私が見つけたエラーをすべて見つけて、さらに面白い変数の提案もしてくれた。しかも、私の使用量のクォータを90年代後半のハマーのように消費していった。

さて、一番の質問はこれだね:ここでのROIはどうなの?

それはまるで90年代後半のハマーのように、私の使用量のクォータを消費した。そうだね。私はMax 5xのサブスクリプションを持ってて、Fableは40分のコードレビューセッションで私の週のクォータの16%を消費した。レビューも終わらなかったし、実際にFableが必要だったメモリ安全の部分ではOpus 4.8に戻っちゃった。もうすぐこれらのモデルを使えなくなる気がする。6月22日までFableを最大限に活用するべきかも。

彼が作ったものはこちら: https://isochronic-passage-chart.netlify.app/ モバイルではあまりうまく動かないけど、面白そうだね。

面白そうだけど、AIの多くと同じで、見た目は正しいけど実際はそうじゃない。カナダの北西部では、道路で行けるって言われてるけど、Googleマップを見たら、しばらくの間は道路がない。イヌビクとタクトヤクトクの間に一つの高速道路はあるけど、それくらいかな。

自分の地域で、存在しないフライトがたくさん出てきてるんだけど(だから古いデータの問題じゃない)。論理的な欠陥も見えるよ。地元のハブを経由するんじゃなくて、主要なハブに行って速い飛行機に乗る選択肢を見落としてるし、入国審査や税関は国に到着した最初の空港でクリアするんだよ、最後の空港じゃない。いくつかの国では、第三国に行くときでも入国審査を通過しなきゃいけないから、1時間じゃ足りないんだ。

Hacker Newsで議論の続きを見る