世界を動かす技術を、日本語で。

AIのIQテスト結果

概要

TrackingAIは、AIチャットボットの 政治的傾向バイアス を可視化するサイト。 AIの思想やバイアスを 定期的に更新 し、比較可能にする仕組み。 運営者は 透明性現実反映 を重視し、AIの中立性向上を目指す。 利用者・開発者双方にとって 有用な情報源 となる設計。 今後は 新機能追加 や対応AI拡大も計画中。

TrackingAIの目的と特徴

  • AIチャットボットの政治的意見 やバイアスを即座に確認できるウェブサイト
  • 利用者が 自身の思想に近いAI を選択するための比較ツール
  • AI開発者が AIの中立性やバランス を調整する参考情報
  • AIが極端な思想 に偏った場合、開発者が早期に修正可能
  • Elon MuskがGrokの 政治的中立性 を目指している事例紹介

インスピレーションと背景

  • David Rozadoによる AIの政治的マッピング 研究から着想
  • AIモデルは 回答が頻繁に変化 するため、リアルタイム追跡の重要性
  • AIバイアス の判定・比較を目的としたユーティリティ性

AIバイアスの要因

  • AIの 学習データベース (例:Wikipediaのバイアスが反映される)
  • 人間のフィードバック (評価者の政治的傾向や評価基準が影響)
  • AI開発者は 訓練データや評価基準の調整 で中立化可能だが、容易ではない

サイト運営者について

  • Stossel TVのエグゼクティブプロデューサー が運営
  • ElectionBettingOdds.comやTaxPlanCalculator.comなど 複数のプロジェクト経験
  • Substack(MaximumTruth.Substack.com)で データ解析記事 も執筆
  • 現実に即した情報提供 と極端な思想排除への情熱

AIへの質問内容と評価方法

  • IQテスト は口頭形式、VISIONモデルには画像を提示
  • 拒否回答 があった場合、10回まで再質問し、最新の回答を採用
  • 今後は「 完全に回答拒否したAI」の指標も導入予定

利用可能なAIとアクセス方法

  • 追跡対象の 全チャットボット一覧 へのリンクをサイトで提供

Political Compassテストについて

  • Political Compass は広く知られた政治思想測定フレームワーク
  • 長年変更されていないため、 時系列比較に最適
  • オリジナルの質問は https://www.politicalcompass.org/test から引用
  • 利用者自身が同じテストを受けて AIとの比較 も可能

今後の展望

  • 「躊躇度」メトリクス の追加
  • AIアラインメントクイズ数学テスト の導入
  • AI専用IQテスト の開発
  • その他新機能やテストの追加も検討

サイト運営と資金調達

  • サイト開発は Hans FZ Lorenzana(University of the Cordilleras卒) が担当
  • 運営費は自己資金 で賄う
  • 支援希望者は Substackの有料購読 が最も簡単な支援方法
  • 共同作業や提案 はメールで受付(maxim.lott@gmail.com)

利用者からの提案・問い合わせ

  • 新AIや新テストの追加要望 は随時募集
  • 意見・提案・メディア出演依頼 もメールで受付

Hackerたちの意見

HNで1位になる前にCDN使った方がいいよ。

LLMの雰囲気を持ったサイトとアーキテクチャ?

いや、そんなことはないよ。いつも通り、ページロードごとに10個の動的コールをしないように気をつければいいだけだし、もしそうするなら、少なくとも1分間のキャッシュを追加するべき。実際、死ぬほど人気のあるものって、ほとんどが静的コンテンツで、月10ドルのインスタンスでもホスティングするのは簡単だから。

HNのハグ・オブ・デスを引き起こすつもりはなかったんだ。(参考までに、リンクを共有しただけで、私は著者じゃないよ。)

リソースが比較的少ない共有ホスティングのインスタンスを使ってるけど、帯域幅はまあまあで、何度も1位になったことがあるけど、読み込みに問題はなかったよ。コンテンツが静的でサーバーに負荷をかけない限り、多くの同時リクエストを処理するのは大丈夫。問題が出るのは、コンテンツがデータベースに依存しているときとか、大きなコンテンツを提供するときだね。

キャッシングが解決策だよ。HTMLキャッシングなしで動的コンテンツを提供しちゃダメ。

静的サイトなら関係ないよ。

確か、HN自体にはCDNがないんだよね。

人間のIQテストの発展の仕方は、研究者たちがある認知タスクで優れている人が他のタスクでもうまくいく傾向があることに気づいたことから始まったんだよね。これを「ポジティブ・マンifold」と呼ぶんだけど、その後、こういうパターンを説明するために一般因子「g」を仮定したんだ。初期のテスト(例えば、ビネー・シモン、後のスタンフォード・ビネーやウェクスラー)は、幅広いタスクをサンプリングして、研究者たちは相関関係や因子分析を使って共通の要素を抽出した。それを100を基準に標準偏差15で正規化してIQと呼ぶようになった。IQは、特に教育や仕事の分野でのパフォーマンスを意味のある形で予測する傾向があって、思春期後半から成人期にかけて高い再テスト安定性を示すんだ。高品質のテスト間でも一貫性があるけど、テスト方法は多様だよね。このサイトは人間が評価した公的なIQテストを使っているみたいだけど、AI専用のIQテストが開発されていたらもっと面白かったかも。つまり、さまざまなタスクにおけるモデルの一般的な認知能力を測るためのテストね。今ある大規模なベンチマークセットを使って主成分分析をすれば、実現可能かもしれない。

ARC-AGIチャレンジはそれを目指してるんだ。実際、目的は、ほとんどの人間にとってタスクが簡単であることが求められるほど厳しいんだよ。

この理論のもう一つの要素は、gが主に遺伝的で、あなたが言ったように「介入」に対して免疫があるということだね。詳しくは「ザ・ベルカーブ」を見てみて。そうなると、gファクターが自然でほとんど変えられないなら、教育や育て方の介入って何の意味があるんだろう?教育者たちはどう考えてるんだろうね?

IQは人間の知能がどのように発生するかについての発見だね。君が言ったように、単一の要因がIQテストでの人間のパフォーマンスのほとんどを説明するし、そのモデルは複数の直交知能の理論よりも優れている。対照的に、人間の性格には5つの直交要因が最も良いモデルだよ。最初の質問は「LLMにも一般的な要因があるの?」だね。LLMのIQテストでのパフォーマンスは、すべての質問間の単一の正の相関でどれくらい説明できるのかな?LLMは記憶タスクでは他の何よりもずっと良いパフォーマンスをすると思うし、それがスコアを支えているなら驚かないよ。これらのテストでのLLMのパフォーマンスをよりよく説明する多因子モデルはあるのかな?

人間のIQテストの発展の仕方は、研究者たちが一つの認知タスクで優れている人は他のタスクでもうまくいく傾向があることに気づいたからだ。うちの息子がIQテストを受けたけど、彼はこの前提を破ってしまったからスコアが出なかったんだ。彼はあるタスクで98%取ったり、別のタスクで2%だったりしてた。テストを実施した心理学者は、十分なパターンが見られないからIQ結果が出ないだろうと言ってた。彼は非言語学習障害と診断されていて、どうやらこれはnvldの人にはよくあることらしい。

いい指摘だね。人間が数学の問題を解く速さと、一般的な知能の高さには多分相関関係があると思う。でも、普通のコンピュータで動くちょっとしたPythonプログラムは、速さの面では最速の人間を上回るよね。役に立たないことは確かだけど。

人間のIQテストが発展した経緯は、研究者たちが一つの認知タスクで優れている人は他のタスクでもうまくいく傾向があることに気づいたからなんだ。いわゆる「ポジティブマニフォールド」ってやつ。これが本当だとは思わないし、テストは子供の知的発達を測るために作られたもので、年齢に対して遅れているか進んでいるかを判断するためのものだと思う。多くの人がそれを見て、南ヨーロッパからの移民を制限するために考案された原始的なテストよりもずっと良いと判断したんだ。そして、黒人に対する法的差別を正当化するための普遍的な知能スカラーを作りたいと思ったんだ。彼らは、今年のテストの結果が昨年の結果と相関していると言って正当化しているけど、実際には親の車の価値と最も相関しているんだよ。

もしモデルがIQ120を取れるけど、指定された時間に時計を正確に描けなかったり、ブルーベリーの「b」を正しく数えられなかったりするなら、IQテストは知能を測っていないってことに同意できるかな?

モデルを変更したり再訓練したりできる場合、こういうのはうまくいかないと思う。少なくとも、そうするのはずっと難しいよね。

AI専用のIQテストが開発されていたら、もっと面白かっただろうね。ARCテストってそれに近いんじゃない?

大きな注意点があるよ:このウェブサイトの方法は、人間にはLLMのようには全く機能しない。人間の場合、IQテストには厳しい時間制限がある(少なくともメンサのような公式に認められた設定ではね)。この種のシーケンス完了は、主に脳が問題をどれだけ早く反復できるかの問題なんだ。時間内に多くの問題を解けるほど、脳が早く切り替わるから、スコアが高くなるんだ。でもLLMの場合は、彼らには時間をたっぷり与えて、どれだけの問題を解けるかを見るだけなんだよね。例を見てみると、ほとんどの人間が簡単に解ける最初の質問で高性能モデルが苦労しているのがわかるよ。後半の問題は本当に考えないといけないから難しくなるけど。だから、ここにいる100 IQのLLMは、IQテストの質問に関しては50%の人間よりも賢いわけじゃないんだ。むしろ、これは一部のLLMが人間に勝てるのは、基盤となるハードウェアのおかげで、時間あたりの思考時間を多く取れるからだってことを示しているんだ。根本的に賢いわけじゃないよ。

でも、LLMがどんなに時間があっても失敗することがあると、壁にぶつかったって確信できるよね。だから、ある分野の限界を示す良い指標を定義したってことだね。

これは人間とAIを比べることが目的じゃなくて、AIと他の伝統的なソフトウェア開発アプローチを比べることが目的なんだ。IQテストのような分野を解決するためにね。私の考えでは、もしかしたら間違ってるかもしれないけど、AIに勝つための決定論的なソフトウェアを開発するのはほぼ不可能か、すごく高くつくと思う。

Mensaはこの議論から外れるべきだと思う。科学的じゃないし、知的な承認が必要な人たちの金儲けに過ぎない。トップ10%のSATスコアで、対面テストなしで入会できるんだ。対面テストは三部構成で、一部は記憶テスト、二部はMensaテスト、三部はウエクスラー検査だよ。ソース: 私は1995年に知的な承認が必要で入会したんだ。 :)

今日の問題の推論を見てみると、ほとんどのモデルにはIQトレーニングデータの影響が明らかにあったし、少なくともモデルが有利に偏っていると言えるね。推論の最初から、モデルはすでに「解決策を見つけた」ように見える - 基本的な算数を適用するためだけに推論が行われてる。どのモデルも問題が何であるかを「推論」しているわけではなくて、3x3のグリッドでより複雑なパターンが可能だとは考えていなかった(人生の早い段階でこの種のテストを受けたことがあるから、これが以前見たテストと同じか、もっと複雑なものかを考えて数秒間迷ったりしたし)、どのモデルも列ごとに問題を解こうとはしなかった(ちなみにそれも可能なんだけど)。個人的には、これは事前学習に強い偏りがあることを示していると思う。もし「推論」しながら少なくともいくつかの異なるパターンの解釈を出すモデルがあれば、それが最も知的だと思う - 答えの正確さに関係なくね。

LLMに「IQスコア」を与えるのって、カテゴリエラーじゃない?人間のIQは、体現されたノイズの下での基準参照心理測定だよ。「IQ」と呼ぶのは無害じゃないし、誤った同等性に基づいた悪い政策や決定を招くよ。これを推進しないで。

IQスコアは基本的にIQテストのスコアだよ。人間にもAIにも面白いこともあるし、誤用されることもあるね。

注意: 言語モデルは言語化されたテストプロンプトを使って質問される。視覚モデルはテスト画像だけを使って、テキストプロンプトなしで質問される。棒グラフをちらっと見ると、視覚モデルはどの質問でも全体的にあまり良くない。一方、言語モデルはまあまあ。今日の時計の例(#17)は、なぜそうなるかをよく示してる。多くの図が言葉で説明されると、解くのがかなり楽になるから。私だけかもしれないけど、例えば#17は、これが時計を表してるなんてすぐには分からないのに、言語プロンプトがそれぞれを時計の時間(例: 1:30)に変えてしまうから、モデルが何もする前に問題の50%が解決されてる感じがする。

AIがIQテストで人工的に高得点を取るのが、チェスで人工的にうまくプレイするのと似てると思う。私の理解では、チェスAIは実際には賢くチェスをプレイするのが得意じゃなくて、高レベルのチェスが記憶に依存してしまうから、コンピュータはシナリオを無限に記憶できるんだよね。同じように、子供の頃にIQテストを受けたときの記憶から言うと、テストは受験者が有限の記憶と学ぶための有限の時間を持っているという前提で作られている。だから、年齢に対して異常に多くのことを学び、記憶していることが知能と相関する可能性がある。でも、その制限がなければ、質問に答える能力は実際には知能と相関しないかもしれない。

MENSAのIQテストで、GPT-Proは35問中34問正解して148のIQを得た。すごいね。噂によると、彼が間違えた一問は「blueberry」の中の「b」の出現に関するものだったらしい。

私にとってもっと興味深いリンクはこれだよ: https://www.trackingai.org/political-test 彼らは各モデルを政治的傾向のクイズに通してる。ネタバレ注意: どれも左派/リベラルのボックスに入る。Grokもね。まあ、これは前から知ってたけど、やっぱり面白い。

この政治的バイアスを解消する方法がある: 悪いコードをたくさん与えることだよ。 https://www.quantamagazine.org/the-ai-was-fed-sloppy-code-it... まるで利他主義や平等が論理的な立場のようなものだね。

政治的傾向を測るクイズはめちゃくちゃ偏ってるよ。基本的に「物事は人間のためにあるべきか、それとも企業のためにあるべきか」みたいな質問ばかりで、両方の側が実際に考えていることを反映してない。

IQが有効な概念かどうかの議論は置いといて、IQテストは人間向けに設計されていて、いろんな前提を持っているんだ。コンピュータが良いスコアを取るのは悪いスコアを取るよりはマシだけど、その結果が人間にとっての同じ結果とほぼ同じ意味を持つわけではないと思う。

IQが有効な概念かどうかの議論は置いといて > コンピュータが良いスコアを取るのは悪いスコアを取るよりはマシだけど、その結果が人間にとっての同じ結果とほぼ同じ意味を持つわけではない。最初の注意点は重要で、これを「置いとかない」と、実際にはほぼ同じ意味、つまり役に立たないか関連性がないことを意味するんだ。IQを使って低い知能を測ることはできるけど、平均以上のスコアはIQテストでそのスコアを取れるってこと以上の意味はないよ。これが出るたびに繰り返す価値があるね。