2014年4月2日水曜日

Fast Color-Based Object Recognition Independent Of Position and Orientation from Giessen and Schmidhuber 論文翻訳修行

日本語の論文って少ないよね、研究に必要なノウハウが足りない…。

英語読みます。実践あるのみ、現在研究中の色による分類に関する論文を翻訳してみる。
(間違っているところがあるかもしれません、お気軽にご指摘ください)


まずは簡単そうな論文から。

Fast Color-Based Object Recognition
Independent of Position and Orienation

ftp://ftp.idsia.ch/pub/juergen/icann2005giessen.pdf
(ftpって…、不便なんですけど)

以下、訳です。(数式が見づらいのはご容赦ください。原文が見やすいです)

Abstract(抜粋):小さなモバイルロボットはビジョンアルゴリズムを実行するのに、
一般的に小さなオンボードのプロセッサーを持っています。
ここでは、私たちがカラー画像からどのように非常に密度が高く、
また非常に有用な情報を抽出しているか見てみましょう。
画像の全ての画素を通るひとつのパスはセグメントを提供する。
色に依存する領域や、領域のコンパクトな短いリストで表した平均色相、
彩度、色の強さです。
他のすべての情報は破棄します。
2つの画像データベース(後述されるZuBuD、Coil-100という画像集を用いた2つの画像DB)を使った実験では、90%のケースで「その破棄した後に
残った情報」で、位置や方向、部分的などのクエリ画像を認識するための簡単な
加重投票アルゴリズムに十分でした。


1. Introduction

小さく、早い、画像ベースのモバイルロボットは、制限時間で反応するために、毎秒多くの
画像を処理しなければなりません。
最初の瞬間に適切に認識されないことがあっても、大きな問題にはならなりません。
ロボットのシーケンシャルなビジョンシステムが画像上にそのオブジェクトが
存在しているかどうかについて、信用を段階的に増加してくれます。
原則として、不確実性やノイズに対処するための、このようなシーケンシャルな
ビジョンシステム(SVS)はベイジアン逐次決定や機械学習で得られるニューラルネットワークで
実装されます。
画像プリプロセッサーは素早く、SVSによって提供される現在の画像のコンパクトで
有益な記述子を作り出せるはずです。
私たちは、まともな物体の認識のために必要すべての情報を含んだ画像の記述子を
(必ずしもいつもでなく)素早くつくるアルゴリズムに興味があります。
当然ですが、より信頼性の高いプリプロセッサーは、SVSへの負担が少なくなります。

物体認識の以前のたくさんのアプローチは,
制限されたモバイルロボットのオンボードやオブジェクトの位置や回転などの
とても小さい変化だけを許可した、計算上あまりにも厳しいものでした。

ここでは私達は、単独で同様の色を有する画像領域の数に基づいて、
シンプルで早くて、むしろ信頼性の高い方法を提案します。

以下では、私達は2つのメソッドを説明します。
画像符号化のための高速な方法(Section 2)と、物体認識のための十分な情報であることを、
画像DBで実証します(Section 3)。

後者(画像DB)を検索して、加重投票を元に、クエリ画像とデータベース画像との類似度
を計算します。
認識率と速度はセクション4で評価します。


2. 画像処理
2.1 HSV images
私たちは、画像をHSV色空間で表します。HSVは色の3つのプロパティ
(hue, saturation, value(illumination))との間に良い区別を提供します。
これらのプロパティの関連が図1です。
HSVコードでは、illumination(value)またはsaturationが低い領域
は、堅実で無い色の情報です。(ほとんど灰色の領域)
図1の網掛け部分は、堅実でない色が含まれています。


2.2 領域抽出
認識プロセスにおいて、全てのステップが「速い」必要があります。
我々はTuytellarsとVan Goolの手法に輝度ベースのゆるい領域分割方法にインスパイア
されたアルゴリズムを使用します。
画像をラスター走査し、隣接する画素が存在する全ての画素 j をその上及び左隣の領域
と比較します(境界では、jは上または左隣の存在するほうと比較します)。
我々は領域iの平均の色相(Hi)、彩度(Si)、明度(Vi)と画素jの色相(Hj)、彩度(Sj)、明度(Vj)
との差がそれぞれ閾値th、ts、tvより小さいかどうかを見る。

式(1)

Hueは図1の円を表します。画素 j は最も似ている色リージョンに加えます、1つが両方の
色リージョンに保持された場合、新しい色リージョンを作成します。
画素jを色リージョンに加えた時、Jに隣接する領域が | Pj - Pk | < tp を満たす場合、
Jを含む領域とマージされます。
Pj と Pk はそれぞれ「画素 j を含む領域の平均色相、彩度、明度」、「画素 j に隣接する領域の
平均色相、彩度、明度」です。
隣の画素と比較する代わりに、隣の領域の特性の平均を比較することの利点はより密着した(まとまった)
領域を生成することが出来る。
これは、平均値は領域が成長するときによりゆっくりと変化することに事を利用しており、画素の急激な
変化は領域に追加されない。

全ての領域が抽出されたら、非常に小さい面積(50pixels以下)の領域と、図1に示したような
領域が平均彩度と平均明度によって、破棄されます。
小さな領域が破棄されたひとつの理由は、それらは異なる角度からみたり、スケールが異なった場合に
画像に現れない可能性があるということです。
もうひとつの理由は、小さい領域が領域のエッジに画素があった際の歪みに敏感であることです。
私達は全ての領域において、色相、彩度、明度の平均を保存します。この情報は、位置や姿勢から独立です。


3. Querying Images
3.1 最初の処理
以下の物体認識の手順はモバイルロボットにとって必須ではありません。画像がデータベースとマッチしなくても、
ただ画像をコンパクトにする必要があり、SVSベースのコントローラに供給します。
ただしそれは、画像コードに物体を記述する基本的な情報が残っていることを証明します。
階層形式でデータベースを配置することで、さらに手順の高速化が可能です。

クエリ画像中の物体と似ている物体の画像を検索するには、まず上記のように後者の領域を抽出する。
クエリ画像内のすべての領域は、データベース内のすべての画像のすべての領域と比較されます。
大きく異なる領域間の複雑な距離尺度を計算する時間を無駄にしないように、
まず明らかにクエリ領域と類似しないものを捨てます。
これはNeneとNayarの方法と似ている方法です。[5]
すべての領域は、色相、彩度、明度の3次元空間と考えられます。
3次元空間上のボックスは、中心にあるクエリ領域と垂直な3軸で与えられる平面で計算されます。
このボックスの外側にあるデータベース領域は破棄されます。
このようにして、類似領域のグループはクエリ画像の領域ごとに作成されます。

3.2 投票比率
各グループ内のすべてのデータベース領域 i は、加重投票 Wij を得ます。
この投票は以下の「距離」によって定義します。

Dij = 5^(-1/2)((Vi - Vj)^2 + (Si * cosHi - Sj * cosHj)^2 + (Si * sinHi - Sj * sinHj)^2)^(1/2)

式(2)

データベースの領域 i とクエリ画像の領域 j 間の色です。
上記H、S、V は それぞれ 色相、彩度、明度を表し、添字は領域を表します。

私たちは、クエリ画像の独自性とデータベースの複雑さを補っています。

2つの領域の平均色相、彩度、明度の「距離」は文献[6]を参考にしています。

領域の独自性は、3.1に示した最初の処理の後、いくつの領域が生き残ったかによって
決定される。
ボックス内の領域の数が多ければ、その領域の独自性は減ります。
より独自性のある領域に多くの加重を与えるために、残った似ている領域数(Nsimilar)で割ります。
これは、クエリの領域に近い特徴をもった大きなチャンスのあるたくさんのDB領域の複雑な
画像を補うのに訳に立ちます。
これが、私達が画像が含む領域数(Nrpi)で割り算する理由です。

すると、加重投票は以下のようになります。

Wif = (1 - Dij) / (Nsimilar * Nrpi)

式(3)

物体の総合投票は、物体の全ての領域の加重投票の和となります。

4. 実験結果
4.1 ZuBuD 建物データベース

後は実験結果ですが、これはまあいいんじゃないでしょうか。

3時間くらいかかった。
次はもっと早くする。

とういことで英語論文に慣れてくぞー。

0 件のコメント:

コメントを投稿