世界を動かす技術を、日本語で。

定量的なAIの進展には正確で透明な評価が必要です

概要

  • MastodonのWebアプリ利用時は JavaScriptの有効化 が必要
  • JavaScriptが無効な場合は ネイティブアプリ の利用を推奨
  • 各プラットフォーム向けの Mastodon公式アプリ も提供
  • ユーザーの環境に合わせた アクセス方法の選択 が可能
  • 快適な利用のための 推奨手順 案内

Mastodon Webアプリ利用の前提条件

  • Mastodon Webアプリ を利用するには JavaScriptの有効化 が必須
  • ブラウザの設定で JavaScriptが無効 の場合、Webアプリは正常に動作しない
  • セキュリティやプライバシーの理由で JavaScriptを無効化 している場合も注意が必要

JavaScript無効時の代替案

  • JavaScriptを有効化できない環境 では、 Mastodonのネイティブアプリ 利用を推奨
  • iOS、Android、Windows、macOS、Linux 向けのMastodon公式アプリが存在
    • 各アプリストアで Mastodon と検索してダウンロード可能
  • アプリ利用により、 Webアプリと同等の機能 を利用可能

Mastodonアプリ選択のポイント

  • 利便性重視 ならネイティブアプリ
  • ブラウザ利用 を希望する場合は JavaScriptの有効化 が必須
  • セキュリティポリシー端末環境 に応じて最適な方法を選択

まとめ

  • MastodonのWebアプリ利用には JavaScriptの有効化 が不可欠
  • 代替として 公式ネイティブアプリ の利用も選択肢
  • 環境や目的に合わせて 最適なアクセス方法 を選ぶことが重要

Hackerたちの意見

ベンチマークの問題は、誠実な研究者にはすごく役立つけど、マーケティングや権威付けに使うとめっちゃ有害になることだね。要するに、ターゲットになった指標はどれもダメになる。公に出ているものは信頼しづらいし(データセットの汚染が明らかだから)、プライベートなものも信頼できないことが多い(提供者が時間とともにほとんどすべての質問を受けるから、こっそり操作できることもあるし)。唯一の真のテストは、自分で書いて、公開せず、オープンモデルで100%動くものだけだよ。商業的な最先端モデルを時々テストしたいなら、それらは「燃え尽きた」と考えて、もっとテストを考えないとね。

それに、正直でいたいと思っても、今のところ、ほとんどの公的または半公的なベンチマークはCommonCrawlの一部になってるんじゃないかな。

グッドハートの法則が面白いのは、人々があなたの指標を最適化しようとすればするほど、全く異なる二つの問題の間をスムーズに移行することだよ。一つは測定の問題で、世界がどうなっているかを示すもの:あるエンジニアが特定のコーディングタスクの何ステップを何時間で終えられるかは、採用される確率に繋がる。測定しているものは逃げたり隠れたりしないから、事実はあなたを誤解させるための意識を持った存在じゃない。測定の問題は統計や最適化の問題で、その目標は関数f: 状態 -> 予測。あなたの問題は通常、数学の問題じゃなくて入力の問題だよ。でも、規模が大きくなって、テストを操作することが価値を持つほど、測定の問題から離れて、敵対的な問題に直面することになる。敵対的な問題は、相手が賢いほど難しくなるし、市場の見えない手が相手になると、さらに厄介になることもある。もう勾配降下法の世界にはいないよ、だって景観は固定されてないから。今はゲーム理論の世界にいて、目標は関数f: (状態) x (時間) x (敵対的能力) x (関数fの履歴) -> 予測。最後の再帰的な部分が、敵対的な問題を brutal にしてるんだ。非常にシンプルな関数でも、わずかな再帰を許すだけで、極めて深いカオス的なダイナミクスにすぐに至ることがあるからね。f(x) = 3.5x(1-x)のような素敵な関数でも、混乱のエルゴード的な塊になる。

公に出ているものを信じるのは本当に難しいよ。 LLMにそれを入力して、意図せずバイアスをほのめかして、ほら、研究や最新のメトリクスを使って、あなたが望むことを証明するんだ。 > 本当に信頼できるテストは、自分で書いて公開せず、オープンモデルで100%機能するものだけだよ。これが十分ならそれでいいけど、オープンモデルでクローゼットの中でやってると、自分のバイアスが出てくるよ。議論やキュレーションされた証拠だけが重要だったら、どんなテストも無効だよ。すべてのテスト、プライベートでもパブリックでも、歴史的に欠陥のある理論を証明してきた。真実は常に捉えにくく、攻撃されてきた。人々はいつも何かを信じるんだ。データは既存の信念や作り上げた信念の基盤に過ぎない。結局、信仰が全てだから、信仰がなければ何もない。

うん、LLMのベンチマークに関するニュース記事は全部無視してる。「GPT 7.3oがX2FGT AGIベンチマークで50%以上のスコアを初めて達成」って、情報ありがとう?って感じ。

責任に関する社会的な問題もあるよね。もし自分のモデルが最高だって主張して、実際にはベンチマークを過剰適合させて68位だったら、詐欺で評判はかなり落ちるべきだよね。それが起こらないなら、ベンチマーク以上の深刻な問題があるってことだ。

AIのパフォーマンスを評価する選択肢は、ベンチマークか雰囲気だね。ベンチマークは持っておくとすごくいい選択肢だよ。

話はそれるけど、リンクを開いて、実際に投稿を読んだり、ブラウザでプロフィールにアクセスできるのは、アカウントなしでもすごく気持ちいいね。マストドンのプロフィールを開くの、Twitterはもういらない。

スタールマンはずっと正しかった。

タオのコメントは、「合理主義者」の悲観論者たちを合わせたよりも、ずっと実用的で洞察に満ちてる。

それって、かなり低いハードルだね :)

(a) いや、違う (b) あなたのコメントは全然話がズレてるよ、彼はどんな意味でも終末論について触れてないから。

一般的にタオには同意するけど、ここで、> AI技術は今、質的から量的な成果への移行点に急速に近づいている。これが理解できない。ディープラーニングの歴史は、ベンチマークでの量的成果によって推進されてきたんだと思う。残りの投稿は、全体的なパフォーマンスに加えてコストに重点を置くことについてだと思うけど、それが質的から量的への移行だとは思えないな。

みんな自分のタスクやユースケースで独自の評価を行うべきだと思う。ちょっと宣伝だけど、誰でもローカルで自分の評価を作れるシンプルなアプリを作ったよ: https://eval.16x.engineer/

例えば、最先端のAIツールがオリンピアレベルの問題を解くために1000ドル分の計算リソースを使えるとしても、成功率が20%しかないなら、問題を解くために実際に必要なコストは平均で5000ドルになる(かなりのばらつきがあるけど)。成功した20%の試行だけが報告されたら、実際に必要なコストについて非常に誤解を招く印象を与えることになる(もしタスクの完了を確認するための費用も無視できないものであれば、さらに高くなる可能性もあるし、解決できなかった失敗が試行間で相関していたらなおさら)。これは非常に重要な指摘だよ。GoogleとChatGPTは専門モデルで金メダルを獲得したと発表したけど、それが具体的に何を意味するのか?もし一方が10億ドルの計算リソースを使って、もう一方がその一部しか使っていなかったら、それについて知っておくべきだよ。エラーレートも同じくらい重要だしね。ここには利害の対立があるから、信頼できるベンチマークを作るには学術界が最適だと思うけど、彼らはクローズドモデルにアクセスする必要があるね。

GoogleとChatGPTを同じカテゴリに入れないで。少なくともGoogleは主催者と協力してたから。

専門モデルで > それが具体的に何を意味するのか テストセットにオーバーフィッティングして、他には何の役にも立たないモデル、それが実際のところだよ。

計算コストは安くなってきてるし、モデルもより最適化されてる。だから、モデルが何かできるようになったら、安くできるようになるのも時間の問題だよ。

計算リソースにそんなに焦点を当てるのは間違ってるかもしれないと思う。トレーニングセットをキュレーションするためにかけられた努力を考える方が有益だと思う。 LLMで数学の問題を解く最も簡単な方法は、非常に似た問題をトレーニングセットに含めることだよ。AIの成果の多くは、トレーニングデータをチェックできれば、ずっと奇跡的に見えなくなるだろうね。一番ひどい例は、OpenAIが昨年FrontierMathのクリエイターに報酬を支払って、評価の前に問題に独占的に秘密アクセスを得たことだよ。[1] 競争形式はこれに脆弱だから、 cheatingに頼らなくても、実際にオリジナルの質問を考えるのは非常に難しい。だから、過去の質問のさまざまなバリエーションを再利用するのに多くのリソースを使うと、実際の競技セットに非常に近いものができあがるだろうね。ニューラルネットワークのトレーニングについて学んだ最初のルールは、トレーニングセットとバリデーションセットの間に重複がないことを確実にすることだよ。このルールがLLMの時代に完全に無視されているのは興味深いね。[1] https://www.lesswrong.com/posts/8ZgLYwBmB3vLavjKE/some-lesso...

LLMを使って数学の問題を解く一番簡単な方法は、非常に似た問題をトレーニングセットに含めることだよね。AIの成果って、トレーニングデータをチェックできたら、もっと普通に見えると思う。この現象が、GeoGuesserみたいなゲームでのLLMの能力に関係してるのは間違いないと思う。あの性能、異常に良いよね。例えば、特徴のないぼんやりしたベンチの写真から、 obscureな場所を特定できるとか。GeoGuesserのデータセット全体、GPSメタデータも含めて、すべての最前線モデルのトレーニングデータセットに入ってるから、あの分野での優れた性能は驚くことじゃないよ。

LLMを使って数学の問題を解く一番簡単な方法は、非常に似た問題をトレーニングセットに含めることだよね。皮肉なことに、Taoのような数学ブログは、画面リーダーにアクセスできないのと同じ理由で、LLMのトレーニングデータに含まれてないかもしれない。数学がいっぱいで、数学が画像として表示されてるから、画像が読めないと意味がないんだよね。(彼のブログの画像には代替テキストがあるけど、それはLaTeXコードだけで、あまり良くない。)

言語モデルは圧縮なんだよ。グラフを削って、重複や関係の薄いデータを減らす感じ。https://arxiv.org/abs/2309.10668 みんなが「cat」というトークンのホストされたコピーを指すことに同意したとしよう。そして、その「cat」を表すユニークなベクトルを生成する。バン!解析にぴったりな無限のユニークベクトルができる。無限の「cat」みたいなテキストのコピーはもういらない。これをグローバルに分散したデータベースにして、AIチップをブートストラップするんだ。データ駆動型プログラミングの夢、ネットワーク上の他のマシンが新しいマシンをブートストラップする。アメリカのテック業界は今やIBMだね。最近のウェブSaaSの成功に囚われて、AIの計画には大きく遅れをとってる。

本当にオリジナルな質問を考えるのは非常に難しい、[...] いや、実際はすごく簡単だよ。特定の難易度のオリジナルな質問を考えるのが難しいんだ。それがコンペには必要なんだ。詳しく言うと、たくさんの初歩的で未解決の質問を見つけるのは簡単だけど、それを実際に解けるかどうか、解くのがどれくらい難しいかは不明だから、LLMのパフォーマンスを判断するのが難しいんだ。 > このルールがLLMの時代に完全に崩れ去ったのは興味深い。いや、崩れてないよ。

余談だけど、Mathstodonのコメントはどうなってるの?月面着陸否定から侮辱、AIを使ってこれを書いたという疑惑まで…ほとんどのコメントがある意味で狂ってるよ。

それが、ピークな人類の姿だね。

大きなBluesky AIスレッドでも同じような行動を見かけるよ。Mathstodonは使ってないし、フォローもしてないけど、同じような返信を見ると悲しくなるね。AIに反対してる人たちは怒ってて、それをこういうコメントで発散してるんじゃないかなって思うけど、これはあくまで私の直感。議論を脱線させることに罪悪感を感じずにこれ以上書くべきことはないと思ってる。

インターネットのほとんどはこんな感じだよね。hnは(ほとんど!)例外的だけど。

真実は、否定派も信者も信念で動いてるってこと。月に行ったことがある人だけが、実際に知ってるんだよね。私たちのほとんどは、メディアや教育、バイアスを通して受け取った情報を信じてる。それって、否定派と根本的に違わないよね。私たちの信念がもっと正当化されてると思ってるだけ。

ツイッタースレッド開いたことある?SNSの人たちはクレイジーだし、オープンソースのSNSもそんなに違うわけないよね?笑

チャレンジができるようになった後は、経済的に意味があるかどうかが次の問題だよね。ARC-AGIのアプローチが好きなのは、スコアと価格の両方を示して、人間のベンチマークを置いているからなんだ。 https://arcprize.org/leaderboard

これ、すごく理にかなってると思う。推論を最適化してGPUを持ってるトップレベルのラボを考えると、4セント/kWhのデータセンターでの電気代が5000ドルだと、R1-0528モデルで約2兆トークンを生成できるんだ。120kWの消費でB200 NVL72ハードウェアと(まだ完全に最適化されていない)sglang推論パイプラインを使ってね。 https://lmsys.org/blog/2025-06-16-gb200-part-1/ 2兆トークンは、難しい数学の問題に高精度な答えを得るには不合理ではないけど、そんなに高いトークン数は、これらのラボで多くの未知の技術が使われていることを強く示唆してるよ。もしGPUの所有やレンタルのコスト、例えば2ドル/h/GPUを加えると、5000ドルでのトークン数は劇的に66Bトークンに減ってしまう。これは、最終的にベストな単一の答えを目指す通常の技術にはまだ高いけど、もし大部分が中間的な思考トークンで、価値の多くがLLMベースの検証から来ているなら、あり得るかもね。