概要
- 2024年8月から9月初旬にかけて、Claudeの応答品質がインフラバグにより断続的に低下
- 三つの異なるインフラバグを特定し、すべて修正完了
- バグの発生原因、検知・解決の遅れ、今後の対策を詳細に説明
- Claudeの品質は需要やサーバ負荷ではなく、バグのみが原因で低下
- ユーザーからの継続的なフィードバックの重要性を強調
Claudeの応答品質低下と原因
- 8月初旬より一部ユーザーからClaudeの応答品質低下の報告
- 通常のフィードバック変動と区別が難しく、8月下旬に調査を開始
- 調査の結果、 三つの独立したインフラバグ を特定
- Claudeの品質は 需要やサーバ負荷 により意図的に下げることは一切なし
- 一連のインシデントについて、 ユーザーへの説明責任 を重視
Claudeの大規模提供体制
- Claudeは 自社API、Amazon Bedrock、Google Cloud Vertex AI を通じて数百万人に提供
- AWS Trainium、NVIDIA GPU、Google TPU など複数ハードウェアで運用
- プラットフォームごとに最適化が必要だが、 品質の均一性 を厳格に維持
- インフラ変更時には 全環境での慎重な検証 が必須
インシデント発生のタイムライン
- 8月5日:Sonnet 4リクエストの0.8%に影響する最初のバグ発生
- 8月25-26日:追加の二つのバグが新たに発生
- 8月29日: ロードバランシング変更 により影響範囲が拡大
- 問題が重なり、 診断を困難 にする要因に
三つの重複するインフラバグ
-
1. コンテキストウィンドウのルーティングエラー
- Sonnet 4の一部リクエストが誤ったサーバ(1Mトークン対応)にルーティング
- 8月31日には最大16%のSonnet 4リクエストが影響
- "スティッキー"なルーティングで影響が継続
- 9月4日に修正、順次各プラットフォームへ展開中
-
2. 出力の破損
- 8月25日、TPUサーバへのミスコンフィグによりトークン生成時に誤った確率割当
- 英語プロンプトにタイ語や中国語の文字が混入、コードに構文エラー
- Opus 4.1, Opus 4, Sonnet 4が対象、サードパーティは無影響
- 9月2日にロールバック、異常文字検出テストを導入
-
3. Approximate top-k XLA:TPUの誤コンパイル
- 8月25日、トークン選択改善コードの展開でXLA:TPUコンパイラの潜在バグが顕在化
- Haiku 3.5, 一部Sonnet 4, Opus 3に影響、サードパーティは無影響
- 9月4日と12日に順次ロールバック、XLA:TPUチームとバグ修正を進行中
XLAコンパイラバグの詳細
- Claudeのトークン生成時、 確率計算とサンプリング で複雑な分散処理
- 2024年12月、TPU実装で最頻トークンが消失するバグを発見しワークアラウンドを実装
- bf16(16bit)とfp32(32bit)の混在計算 による精度不一致が原因
- 8月26日、サンプリングコードの書き換えで根本原因に対応したが、別のバグが露呈
- Approximate top-kの最適化が特定条件下で誤った結果を返す問題
- Exact top-k への切り替えと fp32標準化 で品質優先の対応
検知が困難だった理由
- 通常はベンチマーク・安全評価・パフォーマンス指標で検証
- Claudeは 単発ミスからの回復力が高く、劣化を検出しにくい
- プライバシー保護 のため、エンジニアがユーザーのやりとりを直接確認できない
- バグごとに症状や発生率が異なり、レポートが分散
- 評価指標のノイズ に依存しすぎ、ユーザー報告との紐づけが遅延
今後の対策
- より高感度な評価指標 の開発・導入
- 本番環境での継続的な品質評価 の実施
- デバッグツールの強化 とユーザープライバシー両立
- ユーザーからの 具体的なフィードバック の重要性を再認識
- 例外的な挙動や変化の報告が、問題特定に非常に有用
ユーザーへのお願い
- Claudeの応答品質に異常や変化を感じた場合、 具体的な例や状況を含めてフィードバック 送信を推奨
- 継続的なユーザー協力が、 品質維持と迅速なバグ修正 に不可欠