概要
- Maasai Maraで過ごす現地生活と、Silicon Valleyでの開発者生活の両立
- 撮影データの膨大なアーカイブ管理と編集作業の課題
- 既存AI編集ツールの限界と「インデックス化」の重要性
- ローカル環境でのAIベース自動インデックス構築プロセス
- 実践を通じて得た技術的教訓と今後の展望
Maasai MaraとSilicon Valley、二つの世界
- Maasai Maraのロッジ で3ヶ月間、動物や村の友人、子どもたちとの日常
- iPhone、DJI Pocket、ドローン、Nikon Z8、Ray-Ban Metas など多様な機材での撮影
- 撮影データの編集が追いつかない という共通課題
- 残り半年は Silicon Valleyで長時間開発作業
- 空港での大量機材持ち運び と、未編集データの山
編集作業のボトルネックとAIツールの限界
- ロッジのSNSが 編集時間不足 で停止、素材は膨大に存在
- SaaS型AI編集ツール (Eddie AI、Higgsfield MCP、Submagic、Buffer)を検討
- コスト高 (月額約$140)
- AI生成映像 はリアルな旅行ブランドに不適切
- 投稿頻度の見積もり誤り で現実的でない運用
- DaVinci Resolve Studio の既存機能(IntelliSearch、Smart Bins、Voice to Subtitle)で大部分をカバー
- AI編集ツールは「ラベル付き素材」を前提 にしており、未整理アーカイブには不向き
真の課題:「インデックス化」とその構築
- 最大の課題は「アーカイブのインデックス化」
- クリップ内容の検索性確保が最優先
- ローカル環境でインデックスを構築
- 物理SSD に保存されたアーカイブ
- sidecarファイル(.description.md) で各クリップに詳細情報を付与
- 一度のビジョンコールで全情報抽出 (評価、画質、照明、時間帯、色、音質、人数、キーワード、顔、位置、トランスクリプト、説明文)
- 三種のビジョンバックエンド (Claude CLI、Anthropic API、LM Studioローカル)
技術スタックと具体的な処理フロー
-
ffprobe :メタデータ抽出
-
exiftool :GPS情報取得
-
Nominatim :逆ジオコーディング
-
ffmpeg :フレーム抽出
-
WhisperX :多言語トランスクリプトと話者識別
-
insightface :顔認識と特徴量DB保存
-
ビジョンモデル :フレーム・トランスクリプト・文脈からYAML+説明文生成
-
sidecarファイル :各クリップに付随、検索性と移植性を両立
- フォルダ単位で _INDEX.json や _INDEX.md も生成
MacBook Pro M1 Maxの実力とAIローカル処理
- 2021年製16インチMacBook Pro M1 Max(64GB RAM) でローカルAI処理
- Gemma 4 31B Q4モデル をLM Studioで稼働
- 物理RAMとスワップ合計100GB超 の負荷でも安定動作
- 旧世代ハードウェアでも最新AIモデルが実用的に稼働
開発中に遭遇したバグと学び
- WhisperXのAPI変更 による互換性問題と防御的プログラミング
- Claude CLIのパーミッションエラー を正常応答と誤認した問題
- Gemmaの人数カウント仕様 ("many" vs int)によるスキーマ設計の重要性
- 動画の「キープ/カット」基準 の見直し(思い出重視 vs ポートフォリオ重視)
最後に得た知見
- Enum制約 によるAIの誤判断防止
- インデックス化の重要性 とAI活用の本質的なレイヤー
- ローカルAI環境の進化 とハードウェア選定の新基準
この体験を通じて、 真に価値あるAI活用は「編集」よりも「インデックス化」 にあると確信。 ローカル処理の柔軟性とプライバシー、 ハードウェアの長寿命化、 スキーマ設計や運用基準の明確化 が、今後のクリエイター活動に不可欠であると実感。