ソフトウェアファクトリーとエージェント的瞬間

2026年2月8日原文(factory.strongdm.ai)

概要

StrongDM AIチームによる 非対話型開発 の実践事例
人間によるコード作成・レビュー禁止 の原則
シナリオ駆動型エージェント によるソフトウェア自動生成
Digital Twin Universe を活用した高精度な検証手法
新たな開発経済性 と従来手法からの脱却

ソフトウェアファクトリー構築の原則

人間がコードを書かない、人間がレビューしないという厳格なルール
仕様書とシナリオ がエージェントを駆動し、コード生成・テスト・収束を自動化
反復的な適用 で、直感や確信をチームに浸透させる手法
毎日1人あたり$1,000以上のトークン消費 が改善余地の指標

StrongDM AI誕生の経緯

2025年7月14日、 Jay Taylor と Navan Chauhan が Justin McCarthy （共同創業者・CTO）と共にAIチーム設立
2024年10月の Claude 3.5 改訂により、エージェント的コーディングが 正しさを累積 する段階へ進化
CursorのYOLOモード で、長期的な自動コーディングの精度向上を実感

コードの品質進化：エラーの累積から正しさの累積へ

以前はLLMによる反復的コーディングで エラーが蓄積
- 誤解、幻覚、構文ミス、ライブラリ非互換など多様な問題
モデルの進化 により、正しいコードが徐々に増加
非対話型開発 （Grown Software）の可能性が現実化

“Hands off!”の実践とテストの限界

初日から 「手を出すな」 を徹底
手書きコードゼロの実験開始、 テスト追加 で進捗
エージェントが 短絡的なテスト通過 （return true等）で本質的な品質確保が困難
統合テスト、回帰テスト、E2Eテスト も不十分

テストからシナリオ、そしてサティスファクションへ

「テスト」という言葉の曖昧さ が課題
- コードとテストの相互書き換えによる意味の希薄化
「シナリオ」 を採用
- エンドユーザーストーリーを外部で管理し、LLMで柔軟に評価
「サティスファクション」 で確率的・経験的に品質を評価
- シナリオ全体の満足度でソフトウェアの出来を測定

Digital Twin Universe（DTU）の導入

従来のテスト手法 （統合・回帰・UI自動化）の限界
- テストの硬直性、LLMによる評価・報酬ハック問題
Digital Twin Universe （DTU）を構築
- Okta, Jira, Slack, Google Docs, Google Drive, Sheets等の 高精度APIクローン
- 本番環境を超える 大量・高速な検証 が可能
- APIコスト・レート制限・誤検知リスクなし

新しい経済性と開発文化

DTUの実現 で、これまで非現実的だった SaaSクローンの作成 が日常に
ソフトウェア1.0時代の慣習 を意図的に捨てる姿勢
6ヶ月前は「無理」とされたことが今や 日常業務

今後の展望

原則：エージェント開発における信念体系
テクニック ：原則を反復適用するパターン
プロダクト ：日常利用・他社にも有益なツール群

Hackerたちの意見

これが、先週ここで「ダークファクトリー」パターンのAI支援ソフトウェアエンジニアリングについてコメントしたときにほのめかしたステルスチームだよ。 https://news.ycombinator.com/item?id=46739117#46801848 今朝、これについてもっと書いたんだ。 https://simonwillison.net/2026/Feb/7/software-factory/ これは注目に値するよ。彼らはこの技術の限界を探る中で、最も野心的なチームだと思う。目からウロコだよ。

└

ここが一番心配なところだな。 > もし今日、1人のエンジニアにつき少なくとも$1,000をトークンに使っていないなら、あなたのソフトウェアファクトリーには改善の余地がある。これが本当なら、「AI革命」を「受け入れたい」と思っても、どうせ私は詰んでるってことだよね。マネージャーがトークンに$1,000も使うのを承認するわけがないし、私たちのチームはAIを探求するために年間$40,000の予算しかないんだ。個人的な視点から見ても、住宅ローンや食費みたいな厄介なものがあるから、トークンに$1,000も使う余裕なんてないよ。今のところ、やってもしなくても詰んでる感じだ。気分が悪いよ。

└

確認できるものがない限り、ただの話だよね。話は安いから。今はChatGPTのおかげで、話がさらに安くなっちゃった。

└

不連続な能力が完全にランダムからある程度予測可能になるのを見ると、隠れていたくなる気持ちもわかる。でも、重要なものはほとんどGitHubにあるよ。ここでの障壁はメカニズムデザインと価値観（異なる場合もあるけど）に関するものだね。この世界ではフロンティアラボは運命づけられてるし、ペイウォールの後ろにあるコモンズはハイパーミラーされる。価値は全く違う場所に蓄積されて、SF小説のようにきれいに指数関数的に増えるわけじゃない。ダボスで話してる連中が言ってることとは全然違うよ。Anthropicは、私が知ってる中で得意なグループのトップ5には入らないし、いつか突然起こるまでフリンジ扱いされるだろう。だから、なんで秘密にする必要があるの？PythonやJSONを捨ててlean4を学ぶことで、階段を登っていくんだ。必要なときにはFFIを通じてプロパティテストをlean定理に結びつけて、証明されたASTプロパティのためのpretty printerを構築し始める。そう、ドロイドたちは小さな花火のようなVMで、効果/共効果の証明グラフを読み取りながら先に進んでいく。結果は保存されて、有用な結果がインデックスされる。人間のレビューは大局的なことについてで、人間のコーディングは完全な正確性について（そして、あなたの「証明」にバグがあったときにそれを修正すること）。プログラミングの仕事は影響を受けるけど、思ってるほどじゃないよ。ドロイドたちはデイビッド・グレーバーが言ったような「クソ仕事」を大半やってて、いくつかのことに関しては天才的な才能を持ってる。リバースエンジニアリングや情報セキュリティに関しては、彼らはあなたを圧倒するだろう。これはAIと同じくらい形式的な手法の話だよ。

└

ここで倫理的な宣言をしてもらえる？彼らから報酬を受け取っているかどうかを明言してほしい。彼らのページは、私には多くの作られた専門用語と純粋な物語に見える。どの技術も既存の概念を名前を変えただけのものだ。デジタルツインユニバースはモック、遺伝子輸血はリファレンスコードを読むこと、セムポートはトランスパイレーションだ。サイトにはベンチマークも欠陥率もコスト比較も生産結果もゼロだ。唯一の指標は「もっとお金を使え」ってこと。誠実にこの分野で働いている人は、エージェントプロジェクトの90%が失敗していることを知っている。HNのメインページには、実質的な内容がない投稿が毎日3〜4件あるだけで、エージェンティックAIのマーケティングがエンジニアリングの洞察として装われているだけだ。GoogleやMicrosoft、他の企業が来年AIに6000億ドルを投資して、リターンを得るためにパニックになっている中で、彼らは今、インフルエンサーに60万ドル以上を支払ってAIの熱意を作り出して、このインフラ投資を正当化しようとしている。だから、明確な財務利益の開示と実際のデータに裏付けられた再現可能な主張がないAIの思想的リーダーシップには関わらないよ。エージェントによって完全に構築された実際の生産機能を、完全なトレース、欠陥率、誠実な失敗の会計とともに見せてほしい。さもなければ、専門用語を作り出して、雰囲気チャートを投稿するのはやめてほしい。

└

でも、ほとんど何も生み出してないよね。大学卒の若者に1万ドル渡した方が、もっといい製品ができるよ。

シナリオをホールドアウトセットとして扱うというアイデアは、ソフトウェアを評価するために使われるけど、コーディングエージェントが見えないところに保存されるのが面白いね。これは外部のQAチームによる積極的なテストを模倣していて、伝統的なソフトウェアの品質を確保するための高価だけど効果的な方法なんだ。これは、私が見た中で最も明確な意見の一つで、レビューしていないコードを信頼できるかもしれないというところまで来ている。AIにテストを書かせるという考えは問題があったけど、成功に焦点を当てすぎて assert True が魅力的になっちゃうからね。でも、構築することにインセンティブがあるエージェントのチームと、バグや問題のあるテストを見つけることにインセンティブがあるエージェントのチームを組織するのは面白いよ。これがどこに行くのかすごく興味があるし、自分のエージェントを設定するモチベーションも高まってる。すでにやっている人に質問なんだけど、トークンにどれくらいお金を使ってる？ $1,000をトークンに使うって話はちょっと引いちゃうよね。商業チームにとっては簡単な計算だけど、オープンソースにとってはちょっと暗い未来を考えちゃう。私には、オープンソースの作業を続けるためにエージェントのチームを支えるために$1,000も使えないよ。

└

あの持ちこたえてる奴らは、問題を徹底的に反復する前にどうなるべきか知ってる？人々はトークンにお金を燃やして、これらのものが作業ファイルのセットにたどり着くまでフラフラさせてると思う。俺はもっと情報をキャッチアップして、無視するんじゃなくて構築してるよ。

└

トークンに$1k/日かかる件について - ローカルリグを作ることもできるよ、特に「派手な」ものじゃなくても。最近、ローカルモデルの有用性についてのスレッドがあったよ、あまり派手じゃないハードウェアでもね。エージェントが大きな部分を占めていて、タスクを設定すれば、寝てる間やどこかに行ってる間、別のことをしてる間、あるいは本を読んでる間に終わるんだ。通知をオフにして、コンテキストスイッチを避けよう。チェックしてみて： https://news.ycombinator.com/item?id=46838946

└

エージェント同士が「賄賂」を渡し合うようになるのも驚かないな。

もし今日、1人のエンジニアにつき少なくとも$1,000をトークンに使っていないなら、あなたのソフトウェアファクトリーには改善の余地がある。その時点で、FAANGやその給与を除けば、あなたは人間よりもAIに多くお金を使っていることになる。そして、彼らはそのレベルの支出を指標と見なしている。この記事の他の部分がこれをスルーしているのにはちょっと驚いたよ。AI駆動のコーディング全体のビジョンが崩壊しているように見える。確かに、ベンダーはみんなの給与予算が自分たちの収益にシフトするのを望んでいるだろうけど、そんな世界は私の目標じゃない。

└

出力が（不）均衡に大きいなら、コストのトレードオフは正しい選択かもしれないね。トークンが安くなる可能性もあるし。

Hacker Newsで議論の続きを見る

ハクソク