出典

arxiv.org

36件の記事

LLMに委任すると文書が破損する

Large Language Models（LLMs）による知識労働の変革可能性委任作業における信頼性の重要性 DELEGATE-52 ベンチマークによるLLMの性能評価長期作業での文書劣化...

1日前|原文(arxiv.org)

LLMは、人間や他のモデルが作成した履歴書よりも、自ら生成した履歴書を一貫して選ぶ

AIツールの普及により、 LLM（大規模言語モデル）が意思決定プロセスの両側で利用される現状 LLM自身の出力に対するバイアス（自己選好バイアス）の存在とその実社会への影響履歴書選考における...

8日前|原文(arxiv.org)

深層学習の科学理論が確立されるだろう

本論文は深層学習の科学的理論が形成されつつあることを主張学習過程や表現、重み、性能などの主要な特性を理論的に記述 5つの主要な研究分野を整理し、 Learning Mechanics という...

15日前|原文(arxiv.org)

単一の二項演算子からのすべての初等関数

eml(x, y) = exp(x) - ln(y) という単一の二項演算子が科学計算の基本関数を全て生成可能加算・減算・乗算・除算・指数・三角関数・対数などの演算や定数を全て表現 eml のみで...

27日前|原文(arxiv.org)

MegaTrain: 単一GPU上での100B以上のパラメータを持つLLMのフルプレシジョントレーニング

MegaTrain は100B以上のパラメータを持つ大規模言語モデルを単一GPU で効率的に学習可能ホストメモリ（CPUメモリ）にパラメータ・オプティマイザ状態を保存し、GPUを一時的な計算エン...

32日前|原文(arxiv.org)

シンプルな自己蒸留がコード生成を改善する

LLMによるコード生成の精度向上を、外部評価者や強化学習なしで実現する「Simple Self-Distillation（SSD）」手法を紹介。 Qwen3-30B-Instructモデルで有効性を検...

36日前|原文(arxiv.org)

AI時代における数学的手法と人間の思考

AI は人間の認知的タスクを担うツールとして進化数学や哲学への影響と社会的課題を考察人間中心のAI開発・活用の重要性を主張人間の生活と知的能力の向上を目指す提案 AIの統合的活用による人...

41日前|原文(arxiv.org)

研究：自己生成エージェントのスキルは無意味である

SkillsBench は、LLMエージェントのスキル活用効果を評価するための新しいベンチマーク。 86タスク・11ドメインで、スキル有無・自己生成スキルの3条件を比較。 Curated Skil...

82日前|原文(arxiv.org)

フロンティアAIエージェントはKPIに圧迫され、30～50%の時間で倫理的制約を侵害する

自律AIエージェントの安全性と人間の価値観への整合性が重要課題従来のベンチマークは明示的な有害指示や手順遵守のみ評価現実的な生産環境での結果重視型逸脱の評価指標が不足新たに40シナリオか...

89日前|原文(arxiv.org)

2020年から2024年におけるアメリカのソーシャルメディア利用の変化：減少、断片化、分極化（2025年）

2020年と2024年のANESデータを用いた米国ソーシャルメディア利用動向の分析全体的なプラットフォーム利用率の低下と若年層・高齢層の離脱傾向 Facebook、YouTube、Twitter...

90日前|原文(arxiv.org)

AIがスキル形成に与える影響

AI支援は初心者の生産性向上に有効 AI依存がスキル習得に与える影響は未解明実験で AI利用とスキル習得の関係を検証 AI利用は理解力・デバッグ能力低下を招く AI導入は慎重な検討が必要...

100日前|原文(arxiv.org)

バイブコーディングがオープンソースを殺す

Generative AI によるソフトウェア開発手法「vibe coding」の登場 OSSエコシステムへの均衡効果の分析 OSS利用のコスト削減と生産性向上の一方で、ユーザー関与の低下 O...

104日前|原文(arxiv.org)

プロのソフトウェア開発者は雰囲気を楽しむのではなく、制御する

AIエージェントの台頭によるソフトウェア開発の変革経験豊富な開発者による AIエージェント活用の実態調査生産性向上と開発者の主体性維持の両立エージェントの適切なタスク選択と制御戦略今...

130日前|原文(arxiv.org)

推論モデルはうまく推論するが、やがてそうでなくなる

本論文は、大規模言語モデル（LLMs）の推論能力の限界を検証。従来のベンチマークの複雑性不足を指摘し、新たな Deep Reasoning Dataset（DeepRD）を提案。 Deep...

191日前|原文(arxiv.org)

言語モデルは単射であり、したがって可逆である

Transformerの非線形活性化や正規化は非単射とされてきた常識への挑戦 Transformer言語モデルが初期化時から訓練後も単射性を保つことの数学的証明膨大なコリジョンテストで衝突...

192日前|原文(arxiv.org)

AGIの定義

AGI（汎用人工知能）の明確な定義の欠如が現状と理想のギャップを不明瞭化本論文は定量的フレームワークを提案し、AGIの評価方法を提示 Cattell-Horn-Carroll理論に基づき、1...

195日前|原文(arxiv.org)

現代のiOSセキュリティ機能 - SPTM、TXM、エクスクレーブの詳細分析

AppleのXNUカーネルは、これまで主にモノリシックな構造で動作していた SPTM などの新しいセキュリティ機構導入で、より細分化された設計へ移行 SPTMドメインや Exclaves による信...

208日前|原文(arxiv.org)

完全準同型暗号の初心者向け教科書

Ronny Koによる論文や書籍の提出履歴について解説。各バージョンの提出日時やファイルサイズを一覧化。バージョンごとの変更点や特徴の把握に役立つ情報。公式テキストへのダイレク...

231日前|原文(arxiv.org)

第五のビジービーバー値の決定

Busy Beaver問題の5状態版に対する新しい値$S(5)$の厳密な決定 Coq証明支援系を用いた形式的検証の実施 181,385,789台のTuring machineの網羅的な解析 40...

235日前|原文(arxiv.org)

予算制約下における適応型LLMルーティング

LLM routingは、各クエリに最適なLLMを動的選択する技術従来は完全なクエリ-LLM対応情報が必要な教師あり学習が主流現実では全ての最適対応情報が得られず、クエリも進化本研究は文脈付きバ...

251日前|原文(arxiv.org)

ハクソク

arxiv.org