世界を動かす技術を、日本語で。

M1 MaxコンピュータとローカルMLモデルを使用して、669GBのGoPro動画をインデックス化しました

2026年6月15日

概要

  • GoPro動画2,207本 の中からサイクリングの面白い瞬間を抽出するプロジェクト
  • M1 Max とオープンソースの MLモデル でローカルにインデックス作成
  • 検索したクリップを DaVinci Resolve のタイムラインへ自動転送
  • 628本(約669GB、15時間13分)の動画をインデックス化
  • 詳細なメトリクスは記事最後のテーブルに記載

GoPro動画のインデックス化プロジェクト

  • 2,207本のGoPro動画 を効率的に再視聴する課題

  • 面白い瞬間 を見つけるための自動化ニーズ

  • M1 Max 上でのローカル処理によるプライバシー保護

  • オープンソースの機械学習モデル を活用した動画解析

  • 動画から得られた 特徴量やメタデータ による高速検索

  • DaVinci Resolve への 自動クリップ転送 による編集効率化

    • タイムラインへの直接配置機能
    • 編集作業の大幅な時短実現

インデックス化の実績とメトリクス

  • 628本の動画 をインデックス化
    • 合計 668.68GB
    • 15時間13分18秒 の映像データ
  • 動画ごとの詳細なメトリクスは 記事末尾のテーブル に集約
  • 精度・速度・ストレージ使用量 のバランスに配慮した設計

技術スタックと実装ポイント

  • Python および オープンソースMLライブラリ の採用
  • ローカル環境 での処理によるデータ流出リスクの回避
  • カスタム検索機能 による柔軟なクリップ抽出
  • DaVinci Resolve API を利用した自動連携

まとめと今後の展望

  • 大量の動画資産 を効率的に活用するワークフローの構築
  • 個人の映像アーカイブ から価値ある瞬間を簡単に抽出
  • 今後は さらなる精度向上他ジャンルへの応用 を検討

Hackerたちの意見

リンクはこちらです:https://iliashaddad.com/blog/i-indexed-669-gb-of-my-gopro-vi...

ありがとう!

ポルノコレクションにも使えるの?

これにはLoraが必要だよ。ポルノコンテンツの拒否が厳しいからね。もしくは、アブリテレイテッドモデルが必要かも。Visionが使えるかは分からないけど、シーン検出や顔認識のためにYOLOファインチューニングみたいなものを追加した方がいいかも。

大事な質問だね。

皮肉で言ってるのか分からないけど、面白い質問だと思う。Deep Seekはローカルだから役に立つかな?

前にWhisperを試したとき、叩く音やうめき声から複雑な会話を作り出して、全部のセリフを吐き出すのに数分かかったよ。

なんでいつも同じ質問なんだろう?ハハハ。Redditにプロジェクトを投稿したら、同じ質問が来たよ、ハハハ。

M1 Max CPUがARM/SoCだって知って驚いた。11世代のIntel i9に匹敵するって合ってる?Windows ARMのパフォーマンスもそのCPUと似てるのかな?参考: https://www.cpubenchmark.net/compare/4585vs4245/Apple-M1-Max...

いくつかの理由で、ちょっとリンゴとオレンジみたいな比較だけど、一番のポイントは「統合RAM」で、システムのRAMが全部VRAMとして使えることかな。あと、専用のAIコアクセラレーターもあるし。この2つの理由で、AppleシリコンチップはこういうAIモデルのワークロードで従来のCPUを圧倒できるんだよね。WindowsのARMがどれくらいのことができるかは分からないけど、クアルコムのSnapdragonチップを使ってるのは知ってる。

「同等」と言えるのはシングルコアのパフォーマンスについてだけかも。でもメモリ帯域幅に関しては、M1 Maxは約8倍速いよ。バス幅が広くて、レイテンシも低いし、全然近くもない。

あなたの質問には、まだWindowsマシンやこの構成のマシンで試してないから、否定も肯定もできないな。

Hacker Newsで議論の続きを見る