世界を動かす技術を、日本語で。

コンピュータビジョンの基礎 (2024)

概要

本書は MIT Press から出版された コンピュータビジョンの基礎 に関する書籍 画像処理機械学習 の観点から、基礎概念を多くの可視化と共に解説 学部生・大学院生 を主な対象とし、実務家にも有用な内容 全体を短くまとめる方針だったが、分野の広さから必要な内容を厳選 深層学習革命 など分野の進化とともに執筆された経緯も紹介

本書の概要と執筆経緯

  • 本書は コンピュータビジョンの基礎 を画像処理・機械学習の視点から解説
  • 読者の 直感的理解 を促進するため、多数の ビジュアル化 を利用
  • 主な対象読者は 学部生・大学院生、ただし 実務家 にも価値ある内容
  • 当初は分野全体を網羅する大型書籍を目指したが、分野の膨大さから 重要概念 に絞った短い構成に
  • 各章は 最大5ページ に制限し、エッセンスのみ抽出
  • しかし、実際には 10年以上 かかり、短い本という目標も達成できず
  • 執筆の過程は 非線形的 で、ページ数も増減を繰り返した経緯
  • 2012年の深層学習革命 が分野に大きな進化をもたらし、基礎がより強固に
  • 新しいアプローチの流行で古いアイデアが一時忘れられたが、再評価される流れ
  • 執筆期間中に起きた AI分野の主要イベント も図で紹介

構成と各パートの内容

  • 本書は 複数のパート で構成、各パートは数章で一つのテーマを扱う
  • 章の順番通りの読書を推奨、前提知識の積み上げ型構成
  • Part I: ビジョン問題の導入と社会的文脈、簡単な視覚システムと基礎数学の復習
  • Part II: 画像生成プロセス
  • Part III: 学習の基礎、視覚例を通じた汎用的概念の紹介
  • Part IV: 信号・画像処理の基礎
  • Part V: 有用な線形フィルタ(ガウシアンカーネル、バイノミアルフィルタ、画像微分、ラプラシアン、時系列フィルタなど)と応用
  • Part VI: マルチスケール画像表現
  • Part VII: ニューラルネットワーク(CNN、RNN、Transformer等)によるビジョン
    • 主要原理に焦点を当て、具体的なアーキテクチャの詳細は割愛
  • Part VIII: 画像の統計モデルとグラフィカルモデル
  • Part IX: ニューラルネット時代の強力なモデリング手法(生成モデル・表現学習)
    • 生成画像モデルは自然画像生成と幾何学的整合性を重視
    • 表現学習は画像の抽象的特徴表現(ベクトル埋め込み等)を探求
  • Part X: 学習型ビジョンシステム構築時の課題
  • Part XI: 幾何学ツールと2D画像からの3D構造再構築
  • Part XII: 画像列処理とモーション計測
  • Part XIII: シーン理解と物体検出
  • Part XIV: 若手研究者向けアドバイス(プレゼン・論文執筆・研究者マインドセット)
  • Part XV: Part Iで紹介したシンプルな視覚システムへ立ち返り、応用例を提示

取り上げない内容

  • 現時点の最先端技術のレビュー は行わず、 基礎概念 に集中
  • 形状解析、物体追跡、姿勢推定、顔認識など 応用分野 は詳細に扱わず
  • これらの応用は 最新論文や専門書 の参照を推奨

謝辞

  • 世界中の 教師・学生・同僚 への感謝
  • 多くの コンピュータビジョン講義資料 を参考に内容を選定
  • MITの「Advances in Computer Vision」講義準備時に多くの素材を作成
  • コメント・助言・校正・実験協力への 個人名での謝意
  • 各著者による家族・支援者への個別の感謝表明

本書の引用方法

  • BibTeX形式での引用例を提示
    • タイトル: Foundations of Computer Vision
    • 著者: Torralba, A. / Isola, P. / Freeman, W.T.
    • 出版社: MIT Press
    • 年: 2024
    • URL: https://mitpress.mit.edu/9780262048972/foundations-of-computer-vision/

教員向けリソース

  • 印刷版 はMIT Pressで購入可能
  • 本書に対応した スライド資料 もダウンロード提供

Hackerたちの意見

「研究、執筆、スピーチについて」という本の中に、すごく面白い部分があるんだよね。そこにはこんな名言が載ってる。「これは大変そうだね。」その通り。もう賢さだけじゃないんだ。周りのみんなも賢いから。大学院では、努力する人が先に進むんだよ。

確かに鋭い指摘だね。みんなが賢さだけでやっていけるレベルに達する時が来る。多くの人は大学に入った時にそのことに気づくけど、大学ではまだ定義された範囲の学習だから、なんとかやっていける人もいる。博士課程はそうじゃない。大学の授業みたいに、毎週読むべき論文の数が決まってるわけじゃないし、「これは試験に出ない」なんてこともない。何でも対象になる。賢さのリターンは決して頭打ちにならないけど、上限がないんだ。もっとやれるし、文献の洪水についていくためにもっと読む必要があるし、実験や方法を改善することも求められる。ソフトスキルやネットワークも必要だよ。カンファレンスに行ったり、人と知り合ったり、コーヒーを飲んだり、ディナーに行ったりして、コミュニティの動向を把握する必要がある。大学の時みたいに指示を待ってるんじゃなくて、自分から動かないといけない。既存の方法に対してちょうどいいくらいの懐疑心と批判的な視点を持って、新しいことを考え出す必要があるけど、同時にコミュニティに理解され、受け入れられ、関連性や面白さを感じてもらわないといけない。時間管理や自分で締切を設定して、大学の講義や試験による外部の同期がない中でルーチンを維持することも大事だよ。これらには基本的に上限がなく、期待も曖昧に定義されてる。徹底的にやったのに、レビューアが新しさを感じなかったり、今の流行に合わなかったりして、初めて拒否されることもある。言いたいのは、博士課程はみんなを精神的な限界に挑戦させるってこと。フラストレーションが溜まるし、多くの博士課程の学生にとっては厳しい時期なんだ。もちろん、ただ卒業して博士号を取得することが唯一の目標なら、「流す」ための戦略もあるけど、学術的な道を選ぶ人は、特に大学で良い結果を出して流していた人は、最低限以上の成果を期待することが多いよ。

この本が無料で手に入るなんて信じられない!著者や出版社、誰でもいいけど、ありがとう!

機械学習、コンピュータビジョン、ロボティクスのコミュニティは、オンラインで本を無料で公開するのが本当に素晴らしい。これらの分野のトップの教科書を無料で手に入れられるんだ。他の分野では、教授が最新の版を何百ドルも払わせることが多いのと大違いだよ。しかも、これによって貧しい国の人たちも最高のリソースにアクセスできるようになる。多くの人がコースの資料や動画もオンラインで共有してるしね。

この分野でのもう一つの素晴らしい本は、「コンピュータビジョン 第5版」E.R. デイビス、アカデミックプレス、ISBN-13 978-0128092842 だよ。

もう一つの主要な本は、2022年のSzeliskiの『Computer Vision 2nd Ed』だよ。Forsyth & Ponceもいいけど、今となってはちょっと古いかな。3Dに関しては、やっぱりHartley & Zissermanの『Multiple View Geometry』がクラシックだね。

誰か、機械ビジョンに関する良い本を推薦してくれない?効果的な機械ビジョン、さらにはコンピュータビジョンの基礎は、正しいカメラや光学、照明を選ぶことにあると思う。高品質な画像が必要なんだ。悪い入力は悪い出力につながるからね。

こんにちは、これらのことが実際に違いを生んだ具体的な事例をいくつか教えてもらえる?

「この本を書くこと」セクションは、偶然にもLLMが原稿の3分の2に使われたことを示唆してるね。多分、LLMが彼らに書くことをたくさん提供したって意味だと思うけど、明確にした方がいいと思う。

こんなふうには読んでないよ。実際、ChatGPTは彼らが文章を書くのを手伝える最初のものだったし、この本の3分の1もChatGPTのリリース後に書かれたわけじゃない。俺には、ML/AI分野の重要なイベントをグラフにマークしてるようにしか見えない。

この分野で働いてる人、内容がどれくらい relevancy あるかコメントしてくれない?最近のML、特にCVは、外から見る限り、ここ2年の進展で完全に変わっちゃったように思えるんだけど。

すごく relevancy あるよ。最近の技術は本当に革命的ってわけじゃない。全部、同じ基盤の上に成り立ってる。もっと古いものを読むのもいいと思う。Hough変換やCannyエッジ、SIFT、Harrisコーナーみたいなクラシックな手法に基づいた、実際に利益を上げてるコンピュータビジョンのアプリケーションがたくさんあるからね。基礎を理解せずにバズワードを並べたりAPIをくっつけたりするだけのハイプボーイみたいには見られたくないなら、これらには詳しくなっておくべきだよ。

「クラシカル」なコンピュータビジョンを使って解決すべき問題はまだまだたくさんあるよ。特にGPUアクセラレーションに簡単にアクセスできないシステムではね。俺は計算制限のあるプラットフォームで同時位置特定とマッピングをやってる実践者だから、『Structure from Motion』の章は絶対に読むつもり。