概要
- AI/ML Product Management の授業で Voice AI を活用した 口頭試験 を導入
- LLM利用の課題 に対応し、従来の筆記試験の限界を克服
- ElevenLabs Conversational AI で試験官エージェントを構築
- コスト削減 と フィードバック品質向上 を実現
- 運用上の問題点 とその 改善策 を詳細に分析
AI/ML Product Management授業におけるVoice AI口頭試験の導入
- Cold Calling から始まった、課題提出内容と実際の理解度のギャップ発見
- LLM(大規模言語モデル)利用により、 課題提出物の信頼性低下
- リアルタイムでの説明・防御 を求める口頭試験の必要性
- 従来の 対面口頭試験の非効率性 (大人数対応困難)という課題
ElevenLabs Conversational AIの活用
- 音声認識・合成、会話制御 等を一括で提供するプラットフォーム
- ダイナミック変数 による個別化と ワークフロー設計 による複数エージェント運用
- 認証エージェント:学生ID確認
- プロジェクト議論エージェント:プロジェクト内容に基づく質問
- ケース議論エージェント:授業内ケースをもとに質疑
- RAG(Retrieval Augmented Generation) の今後の活用可能性
試験運用の実績
- 36名の学生 を 9日間 で実施、1人平均 25分
- 1人あたりコスト42セント (合計15ドル)、従来比 50倍以上の効率化
- 3モデル(Claude, Gemini, ChatGPT) による合議制自動採点
- フィードバックの質の向上 (構造化された強み・弱み・改善案)
Voice Agent運用で発生した課題と改善策
- 声が威圧的 :学生の不安増大→ 複数声質のA/Bテスト を今後実施
- 質問の多重化 :1ターンで複数質問→ 1問ずつのルール徹底、部分解答でも全得点
- 質問の言い換え問題 :再質問時に内容が変化→ 逐語的リピート を指示
- 思考時間の不足 :沈黙をすぐ遮る→ 待機時間延長 と追い質問の抑制
- ケース選択の非ランダム性 :LLMのバイアス→ 外部で乱数生成し割当
LLM合議制採点の実際
- 初回採点はバラバラ (例:Geminiは甘く、Claudeは厳格)
- 相互評価・証拠提示 後、 採点一致率が大幅向上
- 評価の不一致は学生回答の曖昧さに起因 (特に実験設計の項目)
- 人間教員との採点比較でもLLMの方が一貫性・厳格性あり
- フィードバック内容も人間より詳細・具体的
導入の意義と今後の展望
- AIによる口頭試験 は、 LLM時代の理解度評価 として現実的選択肢
- 低コスト・高効率・高品質なフィードバック の実現
- 声質や質問設計などUXの継続的改善 が今後の課題
- AI合議制採点 は人間以上の一貫性・透明性確保に寄与
- 教育現場の評価方法のパラダイムシフト の可能性