世界を動かす技術を、日本語で。

AIが経験豊富なオープンソース開発者の生産性に与える影響の測定

概要

  • 2025年初頭のAIツールが 熟練OSS開発者 の生産性に与える影響をRCTで調査
  • AI利用時、開発に19%長い時間 がかかったという予想外の結果
  • ベンチマークや自己申告と現実の乖離が明確化
  • 結果の解釈や一般化には 慎重な検討 が必要
  • 今後もこの評価手法でAI進化の影響を追跡予定

2025年初頭AIツールのOSS開発者生産性への影響:RCTによる実証

  • 経験豊富なOSS開発者 16名を対象に ランダム化比較試験(RCT) を実施
  • 各開発者が実際に価値ある バグ修正・機能追加・リファクタ 等246件の課題を提供
  • 各課題ごとに AI利用可/不可 をランダムに割り当て
  • AI利用時は Cursor Pro+Claude 3.5/3.7 Sonnet 等、当時の最先端ツールを自由に使用
  • 各タスクの 実装時間を自己申告+画面録画 で計測
  • AI利用時、課題解決に19%長い時間 が必要という結果
  • 開発者はAIが 24%効率化 すると予想、実際は逆に 20%遅くなった と認識の乖離

ベンチマークと現実のギャップ

  • コーディングベンチマーク は現実性を犠牲にしてスケール・効率を重視
    • 自己完結型で文脈不要、 自動評価 中心
    • AI能力を 過大評価 する傾向
  • 一方、 人間とのライブ対話なし でAIが進捗しても小さなボトルネックで失敗することも
    • AI能力の過小評価 につながる可能性
  • ベンチマークスコアと実際の現場影響 は直結しない場合が多い

RCTの意義とリスク評価

  • AIが AI研究開発(R&D) 自体に与える影響評価の重要性
  • 急速なAI進歩 による監督や安全策の崩壊リスク
  • ソフトウェア開発生産性の実測 は、AIの全体的なインパクト把握に不可欠

実験方法詳細

  • 大規模OSSリポジトリ (平均22,000+スター/100万行超)に長年貢献してきた開発者を採用
  • 各自の通常業務に近い 実課題 を対象
  • AI利用可否を課題単位でランダム割当
  • 1課題平均2時間、完了後に 自己申告+録画提出
  • 報酬は1時間あたり$150

主な結果

  • AI利用時、19%の作業遅延
  • 開発者の認識と 実態の乖離
  • 期待と逆の結果に驚き
  • AIの即時的な生産性向上効果は限定的

解釈の注意点

  • 本研究は「AIが すべての開発者他分野 で遅延をもたらす」とは主張しない
  • 対象開発者やリポジトリの代表性 は限定的
  • AIの進化や使い方次第 で今後の結果は変わる可能性
  • プロンプトやツール運用の最適化 で速度向上の余地

遅延要因と追加分析

  • 20の要因 を分析し、5つが遅延に寄与と推定
  • 実験手法・データ分析 の多角的検証で結果の頑健性を確認
  • AI利用・非利用でPR品質差はなし
  • 詳細は論文参照

ベンチマーク・自己申告・RCTの比較

  • RCT :現実的な大規模OSSコードベースでのPR提出
  • ベンチマーク :自動評価・スコープ限定の課題でAIが高スコア
  • 自己申告・アネクドート :AIは多くの人にとって有用との報告
  • 現実タスクでの遅延ベンチマークでの高成績自己申告での高評価 が並立

なぜ結果が食い違うのか

  • RCTがAI能力を過小評価 している可能性
  • ベンチマーク・自己申告が過大評価 している可能性
  • 評価手法ごとに異なるタスク分布を測定 している可能性
  • 「真の能力」と測定値の間に誤差やバイアス が存在

今後の展望

  • 今後も同様のRCTを継続 し、AIツールの進化と生産性への影響を追跡
  • 評価手法ごとの 長所・短所を理解し、多様な手法で包括的にAIの現状把握 が重要
  • AIツールの利用経験や学習効果 も今後の注視ポイント

要点まとめ

  • 2025年初頭のAIツールは 熟練OSS開発者の生産性を即時に高めなかった
  • AI活用の現実的な効果測定 の重要性
  • ベンチマーク・自己申告・現実測定 の差異を理解しながら、AIの進化を継続評価

Hackerたちの意見

開発者たちはAIが彼らの作業を24%速くすると期待していたけど、実際に遅れを経験した後でも、AIが20%速くしてくれたと信じているみたい。これには二つの課題があると思う。一つは、同じ人が同じ状況でAIなしでタスクをどれくらいの時間で終わらせたかを把握するのが難しいこと。もう一つは、PRがオープンされたりマージされたりするまでの時間を計測するのが魅力的だってこと。でも、AIのワークフローはエンジニアリングの時間を根本的に変えるから、リファクタリングやテスト、問題解決にかかる時間が増えるんだよね。初めにコードが承認されてマージされた後でも、そういう作業が続くから、開発者がAIがタスクをすぐに終わらせたって報告するのは簡単だと思う。PRが早くオープンされたからって、将来的にそのPRが生む作業量を無視しちゃうんだ。

生産性の向上や低下を特定の技術やプラクティスに結びつけるのは本当に難しい。自己報告の逸話には慎重にならざるを得ない、簡単に自分を欺けるからね。どちらの方向にも主張はしないけど、著者たち自身も研究の限界を認識しているし、みんなもっと大きな誤差範囲を持つべきだと思う。この技術は、私の人生で見た中で一番変なもので、逸話や疑わしいベンチマークから生産性を推測するのは、まるで茶葉を読むようなものだよ。

図21を見ると、初期の実装時間(PRまでの時間)は増加しているけど、レビュー後の時間はさらに増えているね(でも、トータルには大きな影響はなさそう)。でも、図18では、実際にコーディングに費やす時間が減っているのがわかる(これがスピードアップを感じる理由かも)。その分、AIの出力を促したり、待ったり、レビューしたり、全体的に待機している時間に取られているから、5分以内で自分でできるタスクにLLMを使うのはあまり良くないかもね。

質的には、AIが許可された条件と許可されていない条件の間でPRの質が落ちているのは見られないよ。参加している開発者たちは一般的に優秀で、自分のリポジトリの基準をよく理解しているし、「悪いPRを出す」雰囲気にはあまり興味がないみたい。研究のPRの中央値レビュー時間は約1分だよ。ただ、開発者たちの時間の使い方は全然違うから、これはいい指摘だね!論文の10ページ目[1]には、AIがある時とない時で開発者がどう時間を使っているかの内訳が見られるよ。一般的に、AIがあるときはコーディングに使う時間の割合が少なくなって、AIと作業する時間の割合が増える(これは…納得できるね)。[1] https://metr.org/Early_2025_AI_Experienced_OS_Devs_Study.pdf

また80/20の法則だね。20%の時間で80%のところまで行けるけど、残りの20%を終わらせるのに80%の時間を使うことになる。いつもほぼ完成している感じがするから、埋没費用の誤謬も働いて、諦めたくなくなるんだよね。最近試したアプローチは、解決策を提供するのではなく、摩擦を取り除くために使うこと。プログラミングは自分でやるけど、忘れた小さな構文を取り除くために使って、速度を保つ感じ。ただ、提供される全体のコードは見ないようにしてる。アクティブに考えることで、自分が理解できるコードが生まれて、スキルの衰えも防げると思う。

そして残りの20%を終わらせるのに80%の時間を使う これは私のAI導入前の経験でもあったから、最初の部分の時間を取り戻すのは助かる。関連して、経験豊富な開発者がAIについて言っていた良い意見の一つは、「私のスキルの90%が無価値になり、残りの10%が1,000倍価値が上がった」ってこと。ちょっと誇張はあるけど、言いたいことは分かる。

基本的にスタックオーバーフローのステロイド版が必要な時に一番役立つと思う。やりたいことは分かってるけど、この環境でどうやって実現するかが分からない時に使える。デバッグやラバーダッキングにも一般的に役立つよ。

既存のコードベースに何かを追加するのはめっちゃうまくいくよ。「この検索パラメータがあるから、fooも追加して」みたいな感じで。xに関するものは全部削除して…

以前は逆パレートみたいな感じで、80%の作業に80%の努力が必要で、残りの20%の作業にも80%の努力がかかってた。AIコーディングでやるべきことが分かれば、作業がすごく早くなるってのは確かだと思う。昨日、JavaのストリームAPIを使ってListオブジェクトから何かを削除しようとしてたんだけど、ConcurrentOperationsExceptionsに何度もぶつかってさ。これは複数のスレッドが同時にリストオブジェクトを変更しようとするから起きるんだよね。どのスレッドも他のスレッドによって変更されていない最新のリストのコピーを持ってるとは限らないから。リストをディープコピーして変更を加えてからそのコピーを返すメソッドを書こうと1時間くらい奮闘してたけど、AIにスレッドセーフなリスト変更メソッドを作ってもらったら、「もちろん、こうやってやるけど、君が使ってるAPIにはもうこれをやるメソッドがあるよ」って言われた。こういうケースこそ、AIがめちゃくちゃ役立つんだよね - 複雑だけど明確な問題。

古い開発者として、これが本当に欲しいものなんだよね。文法エラーを自動で修正してくれる機能があれば、コンパイルと編集のサイクルを少し減らせるんだ。

同意!「いつももう少しでできそう」って感じが時間を無駄にするよね。AIは特に、何か役立つことをしているように感じさせるのが得意だから、真実を見極めるのはかなりのスキルが必要だよ。

技術的負債の破産寸前のオープンソースのメンテナーとして、AIは救世主のように感じてる。依存関係やビルドシステム、リリース手法、イディオムの急速な変化についていくのを助けてくれるから。

でも、実際のコードを生産するのはどうなの?

それで、彼らは研究のために開発者を300 x 246 = 約73K払ったってこと?それが学術誌に載ってないし、査読もないの?基礎となる論文はかなり洗練されていて、明らかにAI生成ではないから、完全に作り話とは言いたくないけど、どうやってこの資金を得られたのかが不思議だよ。

https://metr.org/about AI企業からお金をもらってるみたいで、政府からの資金も受けてるみたいだね。

最大の資金はThe Audacious Projectから得たもので、ここに発表があるよ:https://metr.org/blog/2024-10-09-new-support-through-the-aud... 私たちのウェブサイトによると、「2025年4月現在、私たちが行った評価に対してAI企業から報酬を受け取ったことはありません。」このページの脚注もチェックしてみて:https://metr.org/donate

企業はいつもホワイトペーパーを出してるよね?大体は技術報告、政策提案、組織の広告が組み合わさったものだよ。

世界のほとんどは研究のための資金を提供してるけど、アメリカは以前は資金を提供してたけど、今はほとんど削減されちゃったね。

「学術雑誌に載っていない、またはピアレビューがないものは?」知識論や存在論に興味がある哲学者として、これは宗教と同じくらい嫌悪感を覚えます。「科学」は誰が出版するかは関係ありません。科学は再現性が必要です。心理学の再現性危機は、なぜピアレビューや雑誌への掲載が重要なのかの典型的な例です。

こんにちは、HNの著者です。長いことHNを使ってるユーザーで、今日はコメント欄で質問やコメントにできるだけ答えます!時間がないなら、フルペーパーよりもリンクされたブログポストやここにある発表スレッドを読むことをおすすめします。[1] https://x.com/METR_Evals/status/1943360399220388093

Claude 3.7ではSkynetを作るのは無理だとわかって安心した!

これ、見た中で一番いい研究の一つだと思う。クリックベイトじゃないし、主張がはっきりしてて、すごくわかりやすいフォーマットで提示されてる。ほんとにありがとう!

データセット(生データだけど匿名化されたもの)を独立した統計評価のために公開するか、少なくとも各開発者のタスクごとの絶対時間を論文に追加してもらえないかな?各開発者がAIあり/なしでどれくらいの絶対時間を使ったのか、特にたくさんのCursor経験がある一人が他の人より実際に速かったのか、ただの遅いタイパーがLLMから大きなブーストを得ているだけなのか、すごく気になる。それに、素晴らしい研究だね。単なる雰囲気やハウス効果を考慮しない観察研究じゃなくて、実際に良い評価が見られて嬉しいよ。

AIの助けを借りて実装されるチケットが、AIに適したユースケースかどうかに注意が払われてたのかな?もし指示が「このチケットをAIで実装して」だけなら、それは現実的だけど、管理側がよくやるやり方でもあるし、最適とは言えないかも。AIを使う方法には役立つものもあれば、逆に悪影響を与えるものもある。もし開発者がAIに十分な経験があれば、その違いを見分けられたかもしれないけど、論文を読む限りそういう兆候は見えなかったね。

これがフルペーパーで、上の要約には載ってない詳細がたくさんあるよ:https://metr.org/Early_2025_AI_Experienced_OS_Devs_Study.pdf 個人的な考えとしては、LLMの支援やAIツールからの生産性向上は、ほとんどの人が思ってるよりも学習曲線が急だと思う。この研究には16人の参加者がいて、AIツールの使用経験が混ざってた - 56%はCursorを使ったことがなかったし、研究は主にCursorについてだった。で、その16人にそれぞれの問題(約15個ずつ)に取り組ませたんだけど、各問題には「AIを使っていい」vs「AIを使っちゃダメ」ってルールがランダムに割り当てられた。だから、各開発者はAIタスクとノーAIタスクの両方に取り組んでた。参加者の4分の1はパフォーマンスが上がったけど、3/4は下がった。一番AIでパフォーマンスが良かった人は、Cursorの経験が一番多い人だった。ペーパーでもこれを認めてるよ:> しかし、50時間以上のCursor経験を持つ開発者にはポジティブなスピードアップが見られたので、Cursorを使うには高いスキルの壁がある可能性がある。経験豊富な開発者はポジティブなスピードアップを感じるかもしれない。私の直感としては、この研究は主にAI支援開発の学習曲線が高すぎて、開発者に既存のワークフローに組み込むように求めると、学習曲線を登る間にパフォーマンスが下がることを示したと思う。

「私の直感では、この研究は主にAI支援開発の学習曲線が高くて、開発者に既存のワークフローに組み込ませると、その学習曲線を登る間にパフォーマンスが落ちることを示したと思います。確かに。効果的なLLMの使い方は、みんなが思っているほど簡単じゃないです。多くの開発者がチャットを共有するときにやることが2つあります。1つ目は、LLMに人間のように話しかけること。インターネット検索が初めて出たとき、人々は本当に「ジーヴスに聞いていた」ことを覚えていますか?結局、人々は「サンフランシスコの現在の天気は?」なんて入力する必要がないことを学びました。「サンフランシスコ 天気」と入力すれば同じか、それ以上の結果が得られるからです。今、また人々はLLMに人間のように話しかけるようになっています。これは高度なプロンプトエンジニアリングからではなく、ただ単に人間らしく感じるからです。でも、「pandas count unique values column 'Foo'」は、「pandasを使って、'Foo'という名前の列のユニークな値のカウントをどうやって取得するの?」と同じくらい効果的なLLMのプロンプトです。LLMも、そんな風に話しかけられても気を悪くしません。2つ目は、LLMの使い方を止めるタイミングがわからないこと。LLMが80%のところまで助けてくれても、残りの20%を「手動」で処理しようとせず、LLMにプロンプトを続けて生成させようとします。たまにはうまくいくこともありますが、ほとんどの場合は時間の無駄で、LLMの出力を手動で調整する方がずっと効率的です。いわゆるGoogle-fuのように、LLMの使い方もスキルで、何をしているかわからない人は、質の低い結果しか得られません。

こんにちは、サイモン!論文の詳細な読み込みありがとう - あなたのOSプロジェクトの大ファンです!いくつか重要なポイントを挙げますね。1つ目、スピードアップを見つける以前の研究は、開発者が使うツールに対して似たような(またはそれ以下の!)経験を持っている場合が多いです。つまり、「急な学習曲線」理論は、私たちの結果と他の結果を差別化するものではありません。2つ目、研究の前に90%以上の開発者がLLMのプロンプトに対して合理的な経験を持っていました。私たちがスローダウンを見つける前、外部のレビュアーが持っていた唯一の懸念はプロンプトに関するもので、プロンプトは主要なスキルと見なされていました。一般的に、標準的な知識は、CursorはVSCodeに慣れている人にとって非常に簡単に習得できるというものでした。3つ目、これらの開発者がAIの経験をたくさん持っていたと想像してみてください。これが、AIを使わないときに彼らが悪いプログラマーになる要因かもしれません(少なくとも私には共感できる)、それが私たちが見つけたスピードアップを引き上げることになります(でもAIが良いからではなく、AIを使うときが悪いからです)。つまり、私たちは岩と硬い場所の間にいるようなもので、正しいベースラインを見つけるのが本当に難しいです!4つ目、私たちは開発者の過去の経験に関する情報を専門の予測者と共有しました。この情報があっても、予測者はスピードアップに関して過度に楽観的でした。5つ目、あなたが言うように、これらのツールを使うためのスキルには長い尾がある可能性がある - 何百時間も使った後にしか気づかないこともある。私たちの研究はこれについてあまり触れていません。将来の文献がこれをもっと探求することに期待しています。一般的に、これらの結果が驚くべきものであるため、論文を読みやすくし、共鳴する要因を見つけて「これがスローダウンを説明しているかもしれない」と結論づけるのは簡単です。私の予想では、単一の要因はない - この結果に寄与する要因がいくつかあり、少なくとも5つは可能性が高く、少なくとも9つは排除できません(11ページの要因表を見てください)。また、非常に重要なポイントとして、AIを使った後の開発者の自己報告がスピードアップ/スローダウンの観点で過度に楽観的であることは、どのツールを使うかには関係ないということです。生産性の向上を正確に判断するためには、堅牢で現場に基づいた測定が必要だというのが、私にとっての重要なポイントです!(論文のC.2.7節「AIツールの平均未満の使用」で、ここでのポイントをもっと詳しく探求しています。)

AIツールのおかげで生産性が上がった人もいれば、そうでない人もいることに気づきました。私の仮説は、たくさんのテキスト(またはコード)を素早くスキャンできる人が大きなアドバンテージを持っているということです。役に立たない提案を素早く却下し、役立つ支援にたどり着くための反復が重要です。コードを素早くスキャンできることは経験年数と相関していますが、しっかりとしたペースで書けるシニア開発者もいて、彼らはコードをじっくり読んで理解することを好むこともあります。このような開発者が典型的なAIコーディング支援からあまり利益を得ないとは思いません。また、素早くテキストを読むことができるジュニアもいて、彼らにもアドバンテージがあるかもしれません。素早く「グーグル」できることと似たような効果があると思います。これが同じ特性であるとは驚きません。

「経験豊富なエンジニア」はどう定義されているのですか?私は、全く新しいコードベースをナビゲートする際に、AIが正しい方向に導いてくれるのがとても役立つと感じています。すでに手の内にあるコードについては、リファクタリングのような自動化されたタスクを除いて、あまり役立たないですね。良いツールがしばらく前からあったので。

「私の個人的な理論は、LLMの支援やAIツールから大きな生産性向上を得るには、ほとんどの人が予想するよりも急な学習曲線があるということです。これには完全に同意します。ただ、AIツールから良い出力を得るのが上手くなった後でも、生成しているコードをしっかり学べないと、悪い状況に陥ることがあります。開発者は時間とともに自分が作業しているコードが上手くなりますが、LLMは悪くなります。LLMを使ってたくさんのコードを素早く書くことはできますが、十分に注意を払わなければ、LLMが悪化している間に自分のコードが上手くならないのです。だから、週末に2ヶ月分の作業を終わらせることができても、壁にぶつかることがあります。書かれたコードについて何も学んでいないからです。そして、LLMは最初は合理的なコードを生成していましたが、悪化してしまい、あなたもLLMも効果的に作業できない泥の塊ができてしまうのです。だから、私にとって本当に難しいスキルは、常に誘惑を避けることです。1ヶ月分の機能を作るのに1週間かけるべきで、2ヶ月分を週末にやるのではなく、LLMにクリーンなコードを生成し続けさせるために努力し、自分がそのコードを理解していることを確認することが重要です。コードを理解したいと思っているなら、自分自身で努力しないとそれはできません。」

私の個人的な理論は、LLMの支援やAIツールからの生産性向上を得るのは、多くの人が予想するよりもずっと急な学習曲線があるということ。ここで的を射た意見だね。AIコーディングアシスタントが役に立たないと強く主張している人をたくさん見てきた気がする。AIコーディングアシスタントを使って楽しんでいる私としては、この研究のアプローチは…うーん…現実に根ざしているとは思えないかな?これらのツールを使っているなら、役に立つという事実はかなり否定できないと思う。もし「生産性の蜃気楼」がここで起こっていると思うなら、それはそれでいいけど、まずは役に立つ部分を認めて、その後に自分の方法が私たちが見ている現実を説明していることを示す方が良いんじゃないかな。AIが特定のタスクやコンテキストで役に立たないかもしれないというのは理解できるけど、私はその限界を押し広げ続けていて、彼らがどれだけ能力があるかに驚かされているから、そうじゃないことを証明するのは難しい気がする。

さて、75%の参加者(全員がLLMを使った経験がある)が生成AIを使うと遅くなるというのは、2つの解釈ができるね。LLMには非常に急で長い学習曲線があるということ(ただし、他の返信の論文の著者の指摘も考慮してね)。現在のLLMは、プログラミングアシスタントとして売られているほど良くないし、人々はその有用性について常に間違った方向に予測したり自己報告したりしている。

その話はもう1年以上聞いてるけど、チャットボットを使うのはそんなに難しくないよね。「AI」前にオープンソースで生産的だった人たちも、今は特に成果が上がってるわけじゃないし。そういう話を信じてる人の多くは「AI」マネーと関係があるけど、勘違いしてる人もいるかもね。

「私の直感では…」 - 同意する!効率的に作業するためにはいくつかのことをやる必要があると思う。 - AIの助けを借りて、質問に答えたりコードの設計や構造のあいまいさを明確にするためのarchitecture.mdファイルを維持すること。 - bootstrap.mdファイルも多くのタスクに役立つよ。AIに読ませて、テーマについて正しいアイデアを持たせるのは、いろんなタスクの時間を節約できる。 - 定期的にAIにコードをリファクタリングしたり、簡素化したり、モジュール化したり頼むこと。これが経験豊富な開発者の役割だね。VIBEコーディングはあまり効果的じゃないことが多いけど、具体的な変更を頼むと喜んで応じてくれる。 - AIが生成したコードを読み、注意深くレビューすること。そして、問題がある部分に気づいて修正を頼む。 - 自分がもっと効率的にできる編集作業は引き継ぐ。 - AIがうまく機能するような解決策やアーキテクチャを構築すること。AIが得意なことを考えてね。 - AIの使用をやめて自分でコーディングするタイミングを知ること。特にAIが混乱のループに入ったときは、自分で修正した方がいい。 - AIを使うのをやめるべきタイミングを知ること。直感的に、AIに安全に作業させられないコードがあるってわかるよね。ソフトウェアを壊さないようにしよう。 ---- AIの助けが特定のプロジェクトを早める保証はないし、逆に遅くなることもあるけど、全体のタスクやプロジェクトを通して見ると、メリットはかなり大きいと思う。多分、他の人も同じような経験をしてるんじゃないかな。

PDFの例題を見てみると(「Sentencizeが複数の文を誤って分割している...」)、これらは本当に明確で定義されたバグ修正に見える。AIはこういうタスクを簡単にこなすべきだから、あまり期待できないね。

私にはすごく役立ってるよ。ChatGPTが一番使いやすいと思う。正確さのためじゃなくて(正確じゃないし)、私の質問の意図を一番明確に理解してくれるから。あまり繰り返し聞かなくても済むしね。まるで何でも聞ける知ったかぶりのパーソナルアシスタントみたいに使ってる。恥ずかしい「バカな」質問でも、特にね。 > 「バカな質問は、聞かない質問だけだ。」 - 昔の美術の先生の壁に書いてあった言葉

オープンソースに5年以上関わってる人たちにAIが役立たないのは驚かないけど、ほとんどの人がAIツールがシニアエンジニアレベルだとは思ってないんじゃないかな。ツールや使い方が改善されれば、AIはこういう高度なタスクの妨げにはならなくなるし、そのうちAIが自分でPRをこなせるようになるだろうね。改善のスピードを考えると、これは避けられないことだと思う。

シニアレベルでも、AIがコーディングを早めて(引き継いで)、より高いレベルの決定や抽象的な概念に集中できるようになるって言われてるけど、これらの貢献はそれとは違うし、以前の予測に基づくと生産性は上がるはずだったよね。

これらの結果は本当に興味深いね、特にこの部分:> 「認識と現実のギャップは衝撃的だ:開発者はAIが自分たちを24%早くすると思っていたが、実際に遅くなった後でも、AIが20%早くしたと信じていた。」こんなに大きな差が出る理由は何だろう?アイデアはある?もしかしたら、私たちの脳が精神的な努力を測って、時間の感覚を歪めてるのかも。

2025年初頭。2025年中頃のモデルやツールでは結果がかなり違うと思う。