AIのIQテスト結果

2025年8月17日原文(trackingai.org)

概要

TrackingAIは、AIチャットボットの 政治的傾向 や バイアス を可視化するサイト。 AIの思想やバイアスを 定期的に更新 し、比較可能にする仕組み。運営者は 透明性 と 現実反映 を重視し、AIの中立性向上を目指す。利用者・開発者双方にとって 有用な情報源 となる設計。今後は 新機能追加 や対応AI拡大も計画中。

TrackingAIの目的と特徴

AIチャットボットの政治的意見 やバイアスを即座に確認できるウェブサイト
利用者が 自身の思想に近いAI を選択するための比較ツール
AI開発者が AIの中立性やバランス を調整する参考情報
AIが極端な思想 に偏った場合、開発者が早期に修正可能
Elon MuskがGrokの 政治的中立性 を目指している事例紹介

インスピレーションと背景

David Rozadoによる AIの政治的マッピング 研究から着想
AIモデルは 回答が頻繁に変化 するため、リアルタイム追跡の重要性
AIバイアス の判定・比較を目的としたユーティリティ性

AIバイアスの要因

AIの 学習データベース （例：Wikipediaのバイアスが反映される）
人間のフィードバック （評価者の政治的傾向や評価基準が影響）
AI開発者は 訓練データや評価基準の調整 で中立化可能だが、容易ではない

サイト運営者について

Stossel TVのエグゼクティブプロデューサー が運営
ElectionBettingOdds.comやTaxPlanCalculator.comなど 複数のプロジェクト経験
Substack（MaximumTruth.Substack.com）で データ解析記事 も執筆
現実に即した情報提供 と極端な思想排除への情熱

AIへの質問内容と評価方法

IQテスト は口頭形式、VISIONモデルには画像を提示
拒否回答 があった場合、10回まで再質問し、最新の回答を採用
今後は「 完全に回答拒否したAI」の指標も導入予定

利用可能なAIとアクセス方法

追跡対象の 全チャットボット一覧 へのリンクをサイトで提供

Political Compassテストについて

Political Compass は広く知られた政治思想測定フレームワーク
長年変更されていないため、 時系列比較に最適
オリジナルの質問は https://www.politicalcompass.org/test から引用
利用者自身が同じテストを受けて AIとの比較 も可能

今後の展望

「躊躇度」メトリクス の追加
AIアラインメントクイズ や 数学テスト の導入
AI専用IQテスト の開発
その他新機能やテストの追加も検討

サイト運営と資金調達

サイト開発は Hans FZ Lorenzana（University of the Cordilleras卒） が担当
運営費は自己資金 で賄う
支援希望者は Substackの有料購読 が最も簡単な支援方法
共同作業や提案 はメールで受付（maxim.lott@gmail.com）

利用者からの提案・問い合わせ

新AIや新テストの追加要望 は随時募集
意見・提案・メディア出演依頼 もメールで受付

Hackerたちの意見

HNで1位になる前にCDN使った方がいいよ。

└

LLMの雰囲気を持ったサイトとアーキテクチャ？

└

いや、そんなことはないよ。いつも通り、ページロードごとに10個の動的コールをしないように気をつければいいだけだし、もしそうするなら、少なくとも1分間のキャッシュを追加するべき。実際、死ぬほど人気のあるものって、ほとんどが静的コンテンツで、月10ドルのインスタンスでもホスティングするのは簡単だから。

└

HNのハグ・オブ・デスを引き起こすつもりはなかったんだ。（参考までに、リンクを共有しただけで、私は著者じゃないよ。）

└

リソースが比較的少ない共有ホスティングのインスタンスを使ってるけど、帯域幅はまあまあで、何度も1位になったことがあるけど、読み込みに問題はなかったよ。コンテンツが静的でサーバーに負荷をかけない限り、多くの同時リクエストを処理するのは大丈夫。問題が出るのは、コンテンツがデータベースに依存しているときとか、大きなコンテンツを提供するときだね。

└

キャッシングが解決策だよ。HTMLキャッシングなしで動的コンテンツを提供しちゃダメ。

└

静的サイトなら関係ないよ。

└

確か、HN自体にはCDNがないんだよね。

人間のIQテストの発展の仕方は、研究者たちがある認知タスクで優れている人が他のタスクでもうまくいく傾向があることに気づいたことから始まったんだよね。これを「ポジティブ・マンifold」と呼ぶんだけど、その後、こういうパターンを説明するために一般因子「g」を仮定したんだ。初期のテスト（例えば、ビネー・シモン、後のスタンフォード・ビネーやウェクスラー）は、幅広いタスクをサンプリングして、研究者たちは相関関係や因子分析を使って共通の要素を抽出した。それを100を基準に標準偏差15で正規化してIQと呼ぶようになった。IQは、特に教育や仕事の分野でのパフォーマンスを意味のある形で予測する傾向があって、思春期後半から成人期にかけて高い再テスト安定性を示すんだ。高品質のテスト間でも一貫性があるけど、テスト方法は多様だよね。このサイトは人間が評価した公的なIQテストを使っているみたいだけど、AI専用のIQテストが開発されていたらもっと面白かったかも。つまり、さまざまなタスクにおけるモデルの一般的な認知能力を測るためのテストね。今ある大規模なベンチマークセットを使って主成分分析をすれば、実現可能かもしれない。

└

ARC-AGIチャレンジはそれを目指してるんだ。実際、目的は、ほとんどの人間にとってタスクが簡単であることが求められるほど厳しいんだよ。

└

この理論のもう一つの要素は、gが主に遺伝的で、あなたが言ったように「介入」に対して免疫があるということだね。詳しくは「ザ・ベルカーブ」を見てみて。そうなると、gファクターが自然でほとんど変えられないなら、教育や育て方の介入って何の意味があるんだろう？教育者たちはどう考えてるんだろうね？

└

IQは人間の知能がどのように発生するかについての発見だね。君が言ったように、単一の要因がIQテストでの人間のパフォーマンスのほとんどを説明するし、そのモデルは複数の直交知能の理論よりも優れている。対照的に、人間の性格には5つの直交要因が最も良いモデルだよ。最初の質問は「LLMにも一般的な要因があるの？」だね。LLMのIQテストでのパフォーマンスは、すべての質問間の単一の正の相関でどれくらい説明できるのかな？LLMは記憶タスクでは他の何よりもずっと良いパフォーマンスをすると思うし、それがスコアを支えているなら驚かないよ。これらのテストでのLLMのパフォーマンスをよりよく説明する多因子モデルはあるのかな？

Hacker Newsで議論の続きを見る

ハクソク