定量的なAIの進展には正確で透明な評価が必要です

2025年7月25日原文(mathstodon.xyz)

概要

MastodonのWebアプリ利用時は JavaScriptの有効化 が必要
JavaScriptが無効な場合は ネイティブアプリ の利用を推奨
各プラットフォーム向けの Mastodon公式アプリ も提供
ユーザーの環境に合わせた アクセス方法の選択 が可能
快適な利用のための 推奨手順 案内

Mastodon Webアプリ利用の前提条件

Mastodon Webアプリ を利用するには JavaScriptの有効化 が必須
ブラウザの設定で JavaScriptが無効 の場合、Webアプリは正常に動作しない
セキュリティやプライバシーの理由で JavaScriptを無効化 している場合も注意が必要

JavaScript無効時の代替案

JavaScriptを有効化できない環境 では、 Mastodonのネイティブアプリ 利用を推奨
iOS、Android、Windows、macOS、Linux 向けのMastodon公式アプリが存在
- 各アプリストアで Mastodon と検索してダウンロード可能
アプリ利用により、 Webアプリと同等の機能 を利用可能

Mastodonアプリ選択のポイント

利便性重視 ならネイティブアプリ
ブラウザ利用 を希望する場合は JavaScriptの有効化 が必須
セキュリティポリシー や 端末環境 に応じて最適な方法を選択

まとめ

MastodonのWebアプリ利用には JavaScriptの有効化 が不可欠
代替として 公式ネイティブアプリ の利用も選択肢
環境や目的に合わせて 最適なアクセス方法 を選ぶことが重要

Hackerたちの意見

ベンチマークの問題は、誠実な研究者にはすごく役立つけど、マーケティングや権威付けに使うとめっちゃ有害になることだね。要するに、ターゲットになった指標はどれもダメになる。公に出ているものは信頼しづらいし（データセットの汚染が明らかだから）、プライベートなものも信頼できないことが多い（提供者が時間とともにほとんどすべての質問を受けるから、こっそり操作できることもあるし）。唯一の真のテストは、自分で書いて、公開せず、オープンモデルで100%動くものだけだよ。商業的な最先端モデルを時々テストしたいなら、それらは「燃え尽きた」と考えて、もっとテストを考えないとね。

└

それに、正直でいたいと思っても、今のところ、ほとんどの公的または半公的なベンチマークはCommonCrawlの一部になってるんじゃないかな。

└

グッドハートの法則が面白いのは、人々があなたの指標を最適化しようとすればするほど、全く異なる二つの問題の間をスムーズに移行することだよ。一つは測定の問題で、世界がどうなっているかを示すもの：あるエンジニアが特定のコーディングタスクの何ステップを何時間で終えられるかは、採用される確率に繋がる。測定しているものは逃げたり隠れたりしないから、事実はあなたを誤解させるための意識を持った存在じゃない。測定の問題は統計や最適化の問題で、その目標は関数f: 状態 -> 予測。あなたの問題は通常、数学の問題じゃなくて入力の問題だよ。でも、規模が大きくなって、テストを操作することが価値を持つほど、測定の問題から離れて、敵対的な問題に直面することになる。敵対的な問題は、相手が賢いほど難しくなるし、市場の見えない手が相手になると、さらに厄介になることもある。もう勾配降下法の世界にはいないよ、だって景観は固定されてないから。今はゲーム理論の世界にいて、目標は関数f: (状態) x (時間) x (敵対的能力) x (関数fの履歴) -> 予測。最後の再帰的な部分が、敵対的な問題を brutal にしてるんだ。非常にシンプルな関数でも、わずかな再帰を許すだけで、極めて深いカオス的なダイナミクスにすぐに至ることがあるからね。f(x) = 3.5x(1-x)のような素敵な関数でも、混乱のエルゴード的な塊になる。

└

公に出ているものを信じるのは本当に難しいよ。 LLMにそれを入力して、意図せずバイアスをほのめかして、ほら、研究や最新のメトリクスを使って、あなたが望むことを証明するんだ。 > 本当に信頼できるテストは、自分で書いて公開せず、オープンモデルで100%機能するものだけだよ。これが十分ならそれでいいけど、オープンモデルでクローゼットの中でやってると、自分のバイアスが出てくるよ。議論やキュレーションされた証拠だけが重要だったら、どんなテストも無効だよ。すべてのテスト、プライベートでもパブリックでも、歴史的に欠陥のある理論を証明してきた。真実は常に捉えにくく、攻撃されてきた。人々はいつも何かを信じるんだ。データは既存の信念や作り上げた信念の基盤に過ぎない。結局、信仰が全てだから、信仰がなければ何もない。

└

うん、LLMのベンチマークに関するニュース記事は全部無視してる。「GPT 7.3oがX2FGT AGIベンチマークで50%以上のスコアを初めて達成」って、情報ありがとう？って感じ。

└

責任に関する社会的な問題もあるよね。もし自分のモデルが最高だって主張して、実際にはベンチマークを過剰適合させて68位だったら、詐欺で評判はかなり落ちるべきだよね。それが起こらないなら、ベンチマーク以上の深刻な問題があるってことだ。

└

AIのパフォーマンスを評価する選択肢は、ベンチマークか雰囲気だね。ベンチマークは持っておくとすごくいい選択肢だよ。

話はそれるけど、リンクを開いて、実際に投稿を読んだり、ブラウザでプロフィールにアクセスできるのは、アカウントなしでもすごく気持ちいいね。マストドンのプロフィールを開くの、Twitterはもういらない。

└

スタールマンはずっと正しかった。

タオのコメントは、「合理主義者」の悲観論者たちを合わせたよりも、ずっと実用的で洞察に満ちてる。

└

それって、かなり低いハードルだね :)

└

(a) いや、違う (b) あなたのコメントは全然話がズレてるよ、彼はどんな意味でも終末論について触れてないから。

Hacker Newsで議論の続きを見る

ハクソク

定量的なAIの進展には正確で透明な評価が必要です

概要

Mastodon Webアプリ利用の前提条件

JavaScript無効時の代替案

Mastodonアプリ選択のポイント

まとめ

Hackerたちの意見