R-CNN, Fast R-CNN, Faster R-CNN の流れ

物体検出モデルは、画像内に写っている物体の分類及び位置を行う
R-CNN: Selective Searchにより物体の位置の候補領域を求める。その後、各領域をCNNに入力して、特徴マップを取得し特徴マップと教師を用いて、SVMにより分類し、領域 (バウンディングボックス) の回帰を行う。
- 短所としては、候補領域ごとにCNNを行うため、処理の速度が低い
Fast R-CNN：先に画像全体をCNNで複数回畳み込み、取得した特徴マップから候補領域を抜き出すモデル。これによりR-CNNよりは速く処理が行えるようになった。
- しかし、依然として外部のアルゴリズムであるSelective Search を用いていることが、学習を通しで行うことが出来なかったり、候補を２０００個も出したりすることで、検出速度向上のためのボトルネックになっていた
Faster R-CNN: 領域候補の提案をニューラルネットワークによって実現させ、Selective Searchを排除したモデル。
- この領域候補の提案を行うニューラルネットワークをRegion Proposal Network (PRN) と呼ぶ。
- これにより、学習を一気に行うこと出来るようになる、GPU で候補領域の計算もできるようになったことで、速度が向上した

Mask R-CNN: Fasterと同じ構造を持ちながら、矩形領域の物体検出だけではなく、ピクセルレベルでの物体検出を行うモデル。
- より詳細に物体の輪郭を認識して、識別する。

大福餅