ニュース

【GTC Japan 2016】ディープラーニングについて学ぶハンズオンセミナー「DIGITSによる物体検出入門」

物体検出のための学習を実施する流れなどを紹介

2016年10月5日 開催

スライディング・ウィンドウ方式による物体検出の流れ。検出すべき物体を区別できる画像パッチを用意し、それを学習させていく

 NVIDIAが開催した「GTC Japan 2016」では、ディープラーニングについて学ぶハンズオンセミナーが実施された。その1つである「DIGITSによる物体検出入門」では、NVIDIAが公開するディープラーニング学習システムであるDIGITSを利用し、画像に含まれる物体をディープラーニングにより検出するための方法について解説が行なわれた。

 例題として使われたのはクジラの画像で、畳み込みニューラルネットワークの学習により、画像内のクジラの位置を特定する「物体検出」を行なうことが目的となる。その方法の1つ目として解説されたのが「スライディング・ウィンドウ」と呼ばれる方法で、目的の物体とそれ以外を区別する画像パッチを用意し、ニューラルネットワークの分類器を学習させる。

 ただ、スライディング・ウィンドウ方式では予測に時間がかかる場合があるほか、冗長な計算が大量に生じたり、誤検出に強いバランスの取れたトレーニング・データセットを生成することが難しかったりするケースがある。その問題を解決できる物体検出方法として紹介されたのが「全畳み込みネットワーク(FCN:Fully Convolutional Networks)」だ。こちらはスライディング・ウィンドウ方式よりも高い精度で物体検出が可能なほか、推論時間も短縮できると説明された。

全畳み込みネットワークを利用した物体検出。スライディング・ウィンドウよりも高い精度で物体を検出することができる
全畳み込みネットワークによる学習回数(エポック)ごとの精度の推移。5回目の学習で100%に近いレベルにまで精度を高めていることが分かる

 さらにDIGITSの最新バージョンであるDIGITS 4に追加された「DetectNet」と呼ばれる新しいネットワークを利用し、物体検出のための学習を実施する流れについても紹介された。その結果、非常に短時間で高精度に物体を検出できることが確認された。ただ、この種のネットワークの学習では、すべての対象物体に正確な境界ボックスでラベルが付けられた、専用のトレーニングデータが必要であるという。自動運転においても物体検出は重要な鍵を握るが、それを高精度で実現するためには学習データをどう確保するかが大きなポイントになるようだ。

境界ボックスがある画像を使って学習する、DetectNetでの物体検出。トレーニングデータの整備に労力がかかる一方、極めて低い誤検出率を実現できる