概要
- 物体検出モデルは、画像内に写っている物体の分類及び位置を行う
- R-CNN: Selective Searchにより物体の位置の候補領域を求める。その後、各領域をCNNに入力して、特徴マップを取得し特徴マップと教師を用いて、SVMにより分類し、領域 (バウンディングボックス) の回帰を行う。
- 短所としては、候補領域ごとにCNNを行うため、処理の速度が低い
- Fast R-CNN:先に画像全体をCNNで複数回畳み込み、取得した特徴マップから候補領域を抜き出すモデル。これによりR-CNNよりは速く処理が行えるようになった。
- Faster R-CNN: 領域候補の提案をニューラルネットワークによって実現させ、Selective Searchを排除したモデル。
- この領域候補の提案を行うニューラルネットワークをRegion Proposal Network (PRN) と呼ぶ。
- これにより、学習を一気に行うこと出来るようになる、GPU で候補領域の計算もできるようになったことで、速度が向上した
余談
- Mask R-CNN: Fasterと同じ構造を持ちながら、矩形領域の物体検出だけではなく、ピクセルレベルでの物体検出を行うモデル。
- より詳細に物体の輪郭を認識して、識別する。