概要
本書は MIT Press から出版された コンピュータビジョンの基礎 に関する書籍 画像処理 と 機械学習 の観点から、基礎概念を多くの可視化と共に解説 学部生・大学院生 を主な対象とし、実務家にも有用な内容 全体を短くまとめる方針だったが、分野の広さから必要な内容を厳選 深層学習革命 など分野の進化とともに執筆された経緯も紹介
本書の概要と執筆経緯
- 本書は コンピュータビジョンの基礎 を画像処理・機械学習の視点から解説
- 読者の 直感的理解 を促進するため、多数の ビジュアル化 を利用
- 主な対象読者は 学部生・大学院生、ただし 実務家 にも価値ある内容
- 当初は分野全体を網羅する大型書籍を目指したが、分野の膨大さから 重要概念 に絞った短い構成に
- 各章は 最大5ページ に制限し、エッセンスのみ抽出
- しかし、実際には 10年以上 かかり、短い本という目標も達成できず
- 執筆の過程は 非線形的 で、ページ数も増減を繰り返した経緯
- 2012年の深層学習革命 が分野に大きな進化をもたらし、基礎がより強固に
- 新しいアプローチの流行で古いアイデアが一時忘れられたが、再評価される流れ
- 執筆期間中に起きた AI分野の主要イベント も図で紹介
構成と各パートの内容
- 本書は 複数のパート で構成、各パートは数章で一つのテーマを扱う
- 章の順番通りの読書を推奨、前提知識の積み上げ型構成
- Part I: ビジョン問題の導入と社会的文脈、簡単な視覚システムと基礎数学の復習
- Part II: 画像生成プロセス
- Part III: 学習の基礎、視覚例を通じた汎用的概念の紹介
- Part IV: 信号・画像処理の基礎
- Part V: 有用な線形フィルタ(ガウシアンカーネル、バイノミアルフィルタ、画像微分、ラプラシアン、時系列フィルタなど)と応用
- Part VI: マルチスケール画像表現
- Part VII: ニューラルネットワーク(CNN、RNN、Transformer等)によるビジョン
- 主要原理に焦点を当て、具体的なアーキテクチャの詳細は割愛
- Part VIII: 画像の統計モデルとグラフィカルモデル
- Part IX: ニューラルネット時代の強力なモデリング手法(生成モデル・表現学習)
- 生成画像モデルは自然画像生成と幾何学的整合性を重視
- 表現学習は画像の抽象的特徴表現(ベクトル埋め込み等)を探求
- Part X: 学習型ビジョンシステム構築時の課題
- Part XI: 幾何学ツールと2D画像からの3D構造再構築
- Part XII: 画像列処理とモーション計測
- Part XIII: シーン理解と物体検出
- Part XIV: 若手研究者向けアドバイス(プレゼン・論文執筆・研究者マインドセット)
- Part XV: Part Iで紹介したシンプルな視覚システムへ立ち返り、応用例を提示
取り上げない内容
- 現時点の最先端技術のレビュー は行わず、 基礎概念 に集中
- 形状解析、物体追跡、姿勢推定、顔認識など 応用分野 は詳細に扱わず
- これらの応用は 最新論文や専門書 の参照を推奨
謝辞
- 世界中の 教師・学生・同僚 への感謝
- 多くの コンピュータビジョン講義資料 を参考に内容を選定
- MITの「Advances in Computer Vision」講義準備時に多くの素材を作成
- コメント・助言・校正・実験協力への 個人名での謝意
- 各著者による家族・支援者への個別の感謝表明
本書の引用方法
- BibTeX形式での引用例を提示
- タイトル: Foundations of Computer Vision
- 著者: Torralba, A. / Isola, P. / Freeman, W.T.
- 出版社: MIT Press
- 年: 2024
- URL: https://mitpress.mit.edu/9780262048972/foundations-of-computer-vision/
教員向けリソース
- 印刷版 はMIT Pressで購入可能
- 本書に対応した スライド資料 もダウンロード提供