大福餅

大福餅

R-CNN, Fast R-CNN, Faster R-CNN の流れ

概要

  • 物体検出モデルは、画像内に写っている物体の分類及び位置を行う
  • R-CNN: Selective Searchにより物体の位置の候補領域を求める。その後、各領域をCNNに入力して、特徴マップを取得し特徴マップと教師を用いて、SVMにより分類し、領域 (バウンディングボックス) の回帰を行う。
    • 短所としては、候補領域ごとにCNNを行うため、処理の速度が低い
  • Fast R-CNN:先に画像全体をCNNで複数回畳み込み、取得した特徴マップから候補領域を抜き出すモデル。これによりR-CNNよりは速く処理が行えるようになった。
    • しかし、依然として外部のアルゴリズムであるSelective Search を用いていることが、学習を通しで行うことが出来なかったり、候補を2000個も出したりすることで、検出速度向上のためのボトルネックになっていた
  • Faster R-CNN: 領域候補の提案をニューラルネットワークによって実現させ、Selective Searchを排除したモデル。
    • この領域候補の提案を行うニューラルネットワークをRegion Proposal Network (PRN) と呼ぶ。
    • これにより、学習を一気に行うこと出来るようになる、GPU で候補領域の計算もできるようになったことで、速度が向上した

余談

  • Mask R-CNN: Fasterと同じ構造を持ちながら、矩形領域の物体検出だけではなく、ピクセルレベルでの物体検出を行うモデル。
    • より詳細に物体の輪郭を認識して、識別する。