Between-class Learning for Image Classification
Yuji Tokozume, Yoshitaka Ushiku and Tatsuya Harada
1711.10284
Munetaka Minoguchi

概要

Between-Class learning(BC learn)という画像分類タスクにおける新学習方法の提案。まず、異なるクラスの2枚の画像をランダムな比率で混合したbetween-class imageを作成。そして、画像を波形として扱うためにミキシングを行う。混合画像をモデルに入力し、学習することで混合した比率を出力する。これにより、特徴分布の形状に制約をかけることができるため、汎化性能が向上する。

180506Between-class.jpg

新規性

もともとは、混合できるデジタル音声のために開発された手法。CNNは“画像を波形として扱っている”という説から、本手法を提案。2つの画像を混合する意味に疑問はあるが、実際にパフォーマンスが向上している。

結果・リンク集

混合とミキシングの提案手法によって分類精度が向上。画像の混合にどんな意味があるのかを解明してほしい。

[#1]
CleanNet: Transfer Learning for Scalable Image Classifier Training with Label Noise
Kuang-Huei Lee, Xiaodong He, Lei Zhang and Linjun Yang
CVPR 2018
Munetaka Minoguchi

概要

ラベルノイズを使って、画像分類モデルを学習するCleanNetの提案。人間による“ラベルノイズの低減”という作業を低減する。事前知識として人の手で分類されたクラスの一部の情報だけを使い、ラベルノイズを他のクラスに移すことができる。また、CleanNetとCNNによるクラス分類ネットワークを1つのフレームワークとして統合。ラベルノイズ検出タスクと、統合した画像分類タスクの両方で、ノイジーなデータセットを使って精度検証。

新規性

人間がラベルのアノテーションをすると時間がかかり、学習はスケーラブルじゃない。逆に人間に頼らない手法はスケーラブルだが、有効性が低い。少し人間に頼って、あとは自動的にノイズ除去をするというハイブリットな手法。

結果・リンク集

弱教師付き学習と比較して、ノイズを41%低減。画像分類タスクにおいて、47%パフォーマンスが向上。

[#2]
Vision-based Engagement Detection in Virtual Reality
Ghassem Tofighi, Kaamraan Raahemifar, Maria Frank, Haisong Gu
1609.01344
ShusukeShigenaka

概要

ビジョンベースのインタフェースにおけるユーザの精神状態検出は最も重要な研究の1つである.本研究は4つの異なる状態を有する有限状態変換器(FST)を使用したフレームベースの精神状態検出システムを提案.カメラセンサを使用した2Dおよび3Dの仮想現実の画像データから,素早く,そして正確にユーザの精神状態(エンゲージメント)を知ることができる.

Vision-based_Engagement_Detection_in_Virtual_Reality.png

新規性

非言語の動きの分類のデータと精神状態の指標を組み合わせることで精神状態(エンゲージメント)を量子的に表示.

結果・リンク集

提案手法のラベル付けのパフォーマンスは4つの合計平均で92.3%の精度である.さらに各フレームの処理時間は10ms未満であることからアルゴリズムのリアルタイム性も示している.

[#3]
2018.4.19 13:57:11
FaceForensics: A Large-scale Video Dataset for Forgery Detection in Human Faces
Andreas Rössler, Davide Cozzolino, Luisa Verdoliva, Christian Riess, Justus Thies, Matthias Nießner
ECCV 2018 Submission

概要

2016年に出た他人の顔表情を操るFace2Faceの続編的研究であり、(1)操られた顔を見破る(Real/Fake)識別、(2)操られた顔領域をセグメント、(3)Face2Faceした領域をより自然になるように補正を行なった。同タスクを解決するために、本論文ではリアルの顔表情の変化が含まれる動画とFace2Faceにより作成した1000動画を含むFaceForensics Datasetを作成して識別問題に取り組んだ。識別においてはSVM/CNNを含めベンチマーク的に複数の実装を評価した。セグメンテーションタスクには識別で良好な性能だったXceptionNetを用いた。さらに、RefinementにおいてはAutoencoder構造を用いた。

180415FaceForensics

新規性・結果

顔表情操作によるフェイク動画を作るのみならず、それを見破る識別器/セグメンテーション/修正器を作成したことが新規性として挙げられる。また、Real/Fakeのペアを多数含むデータセットを構築したことも貢献した。識別では簡単な場面ではほぼ100%、難しい状況でも90%弱くらいでの識別が可能である。詳細な結果はYouTubeの動画を参照されたい。

コメント・リンク集

[#4]
2018.4.15 09:07:22
Speaking the Same Language: Matching Machine to Human Captions by Adversarial Training
Rakshith Shetty, Marcus Rohrbach, Lisa Anne Hendricks, Mario Fritz and Bernt Schiele
ICCV2017
arXiv:1703.10476v2
Kota Yoshida

概要

groundtruthキャプションの再生から人間のキャプションンとの見分けが付かないキャプション生成言葉の統計にマッチする偏りのない多様なキャプションの生成 敵対的キャプションジェネレータによるキャプション生成,ハイパーパラメータの調整にGANを使用することで精度も向上

result

新規性

  • 人間のキャプションと画像キャプショニングによる区別をつけるのは容易(欠陥or不自然)

結果・リンク集

  • 提案されたadversarial modelによって、膨大なボキャブラリーかつ多くの斬新なキャプションを生成することができた

  • 論文

[#5]
2018.4.12 21:28:21
Neural Baby Talk
Jiasen Lu,Jianwei Yang,Dhruv Batra and Devi Parikh
CVPR2018
arXiv:1803.09845v1
Takumu Ikeya

概要

画像から認識された物体から自然言語を生成することが出来るイメージキャプショニングのための新たなフレームワークを作った.画像領域と明らかに関係する言葉と枠を持つテンプレを生成した後,画像領域と一致する物体を認識することで枠に言葉をはめ込む.

手法概要

新規性

  • 文章の生成と同時に画像内に局所的に存在する物体に対して視覚的に関係するものをキャプショニングする部分が新しい
  • COCOとFlickr30kデータセットを用いた実験で標準的なイメージキャプショニングよりも高精度であった

リンク集

[#6]
2018.4.12 20:53:14
Grabity: A Wearable Haptic Interface for Simulating Weight and Grasping in Virtual Reality
Inrak Choi, Heather Culbertson, Mark R. Miller, Alex Olwal, and Sean Follmer
UIST2017
10.1145/3126594.3126599
Kenichiro Wani

概要

VRアプリケーションのためのハプティックデバイスは把持された仮想オブジェクトの剛性及び重量の感覚を正確に提示することが困難である。そこでVR空間上のオブジェクトをつかむためのグリップ力及び重さをシミュレーションするために設計されたGrabityを使った仮想オブジェクトの把持時の力覚フィードバックを提示する手法を提案した。

Image

新規性・結果

*非対称な振動の振幅を操作することによる仮想オブジェクトの剛性と重さを提示する

リンク集

[#7]
2018.4.12 17:14:22
Image2song: Song Retrieval via Bridging Image Content and Lyric Words
Xuelong Li, Di Hu and Xiaoqiang Lu
ICCV2017
arXiv:1708.05851
Kota Yoshida

概要

画像のセマンティックごとに関連する曲を自動選択,画像内容と歌詞の単語との間の相互関係を学習する意味ベースでの歌検索フレームワークを構築する.

画像コンテンツタグをR-CNNによって予測,歌詞はLSTMが対応する歌詞をモデル化する.

提案手法概要

新規性

  • セマンティックベースの曲検索タスクのテキストデータモダリティ
  • ニューラルネットワークに基づくマルチモーダルモデルの開発
  • インターネットのソーシャル上のモーダルデータから収集された(画像,音楽クリップ,歌詞)のデータセットを構築

結果・リンク集

  • ほかの手法よりも優れた性能で与えられた画像に対して適切な歌を推奨
  • 時間の短縮,人間の感覚との相関を確立することが課題
  • 論文
[#8]
2018.4.12 15:26:01
Rico: A Mobile App Dataset for Building Data-Driven Design Applications
B. Deka, Z. Huang, C. Franzen, J. Hibschman, D. Afergan, Y. Li, J. Nichols, R. Kumar
UIST2017
pp. 845-854
Ryota Suzuki

概要

5つのデータ駆動アプリケーション(デザイン検索,UIレイアウト生成,UIコード生成,UIモデリング,ユーザ知覚推測) での使用を目的とした, モバイルアプリケーションのデザインの大規模データセットを作った. 9,700のアンドロイドアプリ,27カテゴリ.

データセットの作成に当たり,クラウドソーシングと自動生成を組み合わせたシステムを作った.アンドロイドアプリを実行したときにデザインとインタラクションを取ってくる.

UIレイアウトの類似性を評価するオートエンコーダを学習させてみて,デモンストレーションする.

Figure1

クラウドワーカーのインタフェース

評価点

あるUIがあった時に,どのようにUIが使われるかのモデリングを行う分野があるが,そこにもビックデータを効率的に収集したい要請がある. UIデザインのような,少し抽象的なデータ集めの枠組みの作り方は参考にすべきと思う.

実際に学習させてみるところまでやっている.CVPRな研究者は得意そう.

[#9]
2018.4.12 14:08:03
Modeling Photo Composition and its Application to Photo Re-Arrangement
Jaesik Park et al.
ICIP 2012

概要

構図のモデル化及び最適化手法の提案。画像からSaliencyを検出し、PCAにより次元を圧縮したものを構図を表す特徴量として扱う。 また、MAP推定によって入力画像を美化するためのクロッピング領域を決定する。

Item3Image

新規性・結果

実験の結果、従来手法で扱われている三分割法などを定義することなく表現することに成功。

リンク集

[#10]
2018.4.11 16:03:23
Image Generation from Scene Graphs
Justin Johnson et al.
CVPR 2018

概要

物体同士の関係を表すScene Graphsから画像を生成する手法の提案。従来のテキストから画像を生成する手法よりも物体の数が多く複雑なシーンの画像を生成することができる。 初めに、Scene Graphsを処理するネットワークによってScene Graphsを表現するベクトルを取得し、そこから画像のレイアウトを作成する。 次にレイアウトからCRN(参考文献)を用いて画像を作成する。 作成された画像は、画像全体のリアルさと各物体のリアルさを評価するDiscriminatorによってリアルな画像であるかを評価する。

Item3Image

新規性・結果

ユーザースタディの結果、StackGANと比較して合成結果が良いと答えた人が68%、認識可能な物体を生成できてると答えた人が59%という結果が得られた。

リンク集

[#11]
2018.4.11 15:58:22
SketchMate: Deep Hashing for Million-Scale Human Sketch Retrieval
Peng Xu, et al.
CVPR 2018
Munetaka Minoguchi

概要

スケッチ検索のためのディープハッシングフレームワークの提案。3.8mの大規模スケッチデータセットを構築。CNNでスケッチの特徴抽出。RNNでペンストロークの時間情報をモデル化。CNN-RNNでエンコードすることで、スケッチ性質に対応した新しいhashing lossを導入。

新規性・差分

従来のスケッチ認識タスクに従う代わりに、より困難な問題のスケッチハッシュ検索を行う。ネットワークをスケッチ認識のために再利用することもでき、どちらも高パフォーマンス。大規模なデータセットを利用することで、従来の文献ではあまり研究されていなかった、スケッチのユニークな特性を見出す。

[#12]
MakeupGAN: Makeup Transfer via Cycle-Consistent Adversarial Networks
Huiwen Chang et al.
CVPR 2018

概要

ソース画像のメイクをターゲット画像へ転写やメイクの除去をする研究。ターゲット画像とメイク済み画像の2枚を入力としメイクを転写するネットワークGとメイク済み画像らメイクを取り除くネットワークFを考え、2つのネットワークによって元の画像に戻るように学習していく。 その際、Fによってxに付与されたメイクがyのメイクと同じものであるかを評価するロスを加えることでメイクの特徴を捉える。 従来手法ではメイク転写・除去を独立した問題として考えていたが、この研究ではセットとして考えている。

Item3Image

新規性・結果

Youtubeのメイクチュートリアルの動画から、1148枚のメイクなし画像と1044枚のメイクあり画像を収集。ユーザースタディによって2つの既存手法と比較し、提案手法が一番いいと答えた人が65.7%(2番目と答えた人が31.4%) 従来手法では肌の色や表情の違いがあると上手くいかないのに対し、ソースとターゲット間でこれらが違ってもうまく転写できる。

[#13]
2018.4.8 01:45:44
The Unreasonable Effectiveness of Deep Features as a Perceptual Metric
Richard Zhang et al.
CVPR 2018

概要

2枚の画像の類似度を表す指標は数多く提案されているが、その類似度は必ずしも人間の知覚と一致していない。近年はDNNにより高次の特徴を得ることが可能となっており、人間の知覚に近づいている。 そこで、既存の類似度の評価尺度とDNNベースの類似度判定を比較することでDNNベースの手法がより人間の知覚に近い類似度を表現できることを確認した。 具体的には、ある画像を異なる方法で加工したもの2つを用意し、どちらが元の画像に近いかを人間とコンピュータ両方に判定させることで検証を行った。

Item3Image

新規性・結果

データセットとして、画像に様々な加工を施したデータを人間に類似度を評価してもらったものを作成。加工の例としては、ノイズの付与やオートエンコーダによる画像の復元などが挙げられる。 検証の結果、DNNベースの類似度の方が既存の尺度より人間の知覚に乗っ取ってることを示した。 また、DNNのネットワーク構造そのものは重要ではないことが分かった。

[#14]
2018.4.8 01:36:55
How to Make an Image More Memorable? Deep Style Transfer Approach
Aliaksandr Siarohin et al.
ICMR 2017

概要

スタイルトランスファーによって画像をより記憶に残るようにする研究。入力画像に対して、どのスタイル画像がMemorablityを上昇するかを調べることによって実現する。 具体的には、Synthesizer、Scorer、Selectorの3つのネットワークを使用する。 Synthesizerはスタイルトランスファーのためのネットワーク、ScorerはMemorabilityを調べるネットワーク、Selectorは適切なスタイル画像を選択するネットワークとなっている。 学習時には、学習データに対してSynthesizerでスタイルの変換を施し、その画像に対してScorerでスコア付けを行い、スタイルを変化させた画像とソース画像のペア及びScorerによって得たスコアを学習データとしてSelectorの学習を行う。

Item3Image

新規性・結果

提案手法によって選択したスタイル画像を用いた際のスコア上昇は、全スタイル画像の平均上昇スコアよりも大きいことを示した。

リンク集

[#15]
2018.4.8 01:30:24
Unsupervised Representation Learning by Predicting Image Rotations
Spyros Gidaris, Praveer Singh, Nikos Komodakis
ICRA 2018
Munetaka Minoguchi

概要

CNNにおいて、入力画像に適用された2次元回転を認識するように学習する、自己管理特徴学習手法を提案。この単純なタスクによって、semantic feature learningの質の向上。

新規性

2018年現在、CNNは画像の意味的要素まで学習できるようになってきた。しかし、これには大量のデータが必要なため、教師なし学習に着目。回転を認識させる学習によって、物体認識、物体検出、セグメンテーションなどのさまざまな視覚的認識タスクに有用な意味的特徴を学習させることに成功。

結果・リンク集

ImageNet分類、PASCAL分類、PASCAL検出、PASCALセグメンテーション、CIFAR-10分類の教師なし特徴学習精度を大幅に改善。

[#16]
Non-local Neural Networks
Xiaolong Wang et al.
CVPR 2018

概要

NLPなどで効果を発揮しているself-attentionを多次元に一般化し、2D/3DCNNに導入することで新たな「non-local block」を形成し、画像や動画での実験を行った。 行動認識@Kineticsでは非常に高い精度を達成。Instance segmentationやkey point detectionなどのタスクでも汎用的に効果を発揮。

手法

位置jと位置iに依存してアテンションを出力する関数f(.)とjのみに依存する関数g(.)の積を入力位置jに関して和をとることによって位置iの出力値を決定する。 位置情報の保存、可変入力サイズ、などの性質を持ち、全結合、畳み込みを特殊な形として含む。またf(.)の定義の仕方によってはself-attentionと一致する。 f(.)は様々な形が提案されているが、種類によらず効果を発揮している。実際に使用する場合は図のような残差構造を使用している。

自由記述欄

コメント・リンク

効果のインパクトがすごい。学習曲線からもうまくいっていることが明らか。C2Dに対してspace-timeにnon-local blockを適用すると3Dconvよりも時系列方向への拡大として効果があったのが興味深い。 結局残差を用いたnon-local blockを使用していたので、単純にnon-local layerのみでの性能もきになる。 位置情報の保存は重要でも、局所性はあまり重要ではなかったのかと感じられる。
[#17]
Tomoyuki Suzuki
Fashion Forward: Forecasting Visual Style in Fashion
Ziad Al-Halah et al.
ICCV 2017

概要

ファッションの流行遷移をCV的アプローチによって予測する研究。オンラインショッピングなどにおいてついているタグは不正確なことが多い。 そこで、画像からファッション特徴を抽出することでトレンドを予測する。 CNNによって画像からファッション特徴を抽出したのち、NMFを用いてスタイルに分解する。 最後にファッションの売り上げデータを用いて近い将来ファッションの人気がどのように遷移するかを予測する。

Item3Image

Towards Open-Set Identity Preserving Face Synthesis
Jianmin Bao, et al.
CVPR 2018
Munetaka Minoguchi

概要

顔画像からidentityとattributesを別々に再構成する、GANに基づいたOpen-Set Identity Generating Adversarial Networkの提案。 face synthesis networkは、ポーズや感情、照明、背景などをキャプチャする属性ベクトルを抽出することができる。図中の2つの入力画像AおよびBから抽出された識別を再結合することによって、A0およびB0を生成することができる。

新規性・結果・リンク集

顔の正面化、顔属性モーフィング、 face adversarial example detectionなど、より広範なアプリケーションに応用可能。

[#18]
End-to-End Multi-Task Learning with Attention
Shikun Liu, Edward Johns, Andrew J. Davison
submitted to ECCV 2018
Munetaka Minoguchi

概要

グローバル特徴プールを含む単一の共有ネットワークと、end-to-endで学習可能なタスク固有のsoft-attention modulesで構成された、multi-task learningアーキテクチャであるMulti-Task Attention Network (MTAN)の提案。図の(a)は、セマンティックセグメンテーションと深度推定のタスクのための、学習したアテンションマスクの例。(b)は、MTANの概要。

新規性

MTANによって、グローバル・プールからのタスク固有の機能の学習が可能になると同時に、異なるタスク間で機能を共有できる。本アーキテクチャは、任意のfeed-forward neural network上に構築することができ、実装が簡単かつパラメータ効率が良い。

結果・リンク集

CityScapesを用いた実験より、単一タスクとマルチタスク学習の両方でいくつかのベースラインよりも優れている結果。

[#19]
Unsupervised Textual Grounding: Linking Words to Image Concepts
Raymond A. Yeh, Minh N. Do, Alexander G. Schwing
CVPR 2018
Munetaka Minoguchi

概要

単語を検出された画像の概念に関連付けるための、仮説検定を用いた教師なしTextual grounding手法の提案。ネットワークにはVGG-16を採用し、画像内のオブジェクト/単語の空間情報やクラス情報、およびクラス外の新しい概念を学習できる。

新規性

Textual grounding、すなわち画像内のオブジェクトと単語をリンクさせる既存の技法は、教師付きのディープラーニングとして定式化されており、大規模なデータセットを用いてバウンディングボックスを推定する。しかし、データセットの構築には時間やコストがかかるので教師なしの手法を提案。

結果・リンク集

ReferIt GameとFlickr30kを用いたベンチマークでそれぞれ7.98%と6.96%以上の精度。

[#20]
Motion-Appearance Co-Memory Networks for Video Question Answering
Jiyang Gao, Runzhou Ge, Kan Chen, Ram Nevatia
CVPR 2018
Munetaka Minoguchi

概要

ビデオQAのための、 Dynamic Memory Network(DMN) のコンセプトに基づいたmotion-appearance comemory networkの提案。本研究の特徴は次の3つである。(1)アテンションを生成するために動きと外観情報の両方を手がかりとして利用する共メモリアテンションメカニズム。(2) multi-level contextual factを生成するための時間的conv-deconv network。(3)異なる質問に対して動的な時間表現を構成するdynamic fact ensemble method。

新規性

本手法は、次のようなvideo QA特有の属性に基づいている。(1)豊富な情報を含む長い画像シーケンスを扱う。(2)動き情報と出現情報を相互に関連付け、アテンションキューを他の情報に応用できる。(3)答えを推論するために必要なフレーム数は質問によって異なる。

結果・リンク集

TGIF-QAの4つのタスクすべてにおいて、最先端技術よりも優れている。

[#21]
Context-aware Synthesis for Video Frame Interpolation
Simon Niklaus, Feng Liu
CVPR 2018
Munetaka Minoguchi

概要

入力フレームだけでなく、ピクセル単位の文脈情報を用いて、高品質の中間フレームを補間するためのコンテキスト認識手法の提案。まず、プレトレインモデルを使用して、入力フレームのピクセルごとのコンテキスト情報を抽出。オプティカルフローを使用して、双方向フローを推定し、入力フレームとそのコンテキストマップの両方をワープする。最後にコンテキストマップをsynthesis networkに入力し、補間フレームを生成。

新規性

従来のビデオフレーム補間アルゴリズムは、オプティカルフローまたはその変動を推定し、それを用いて2つのフレーム間の中間フレームを生成する。本手法では、 2つの入力フレーム間の双方向フローを推定し、コンテキスト認識という方式をとることで精度向上を図る。

結果・リンク集

高品質のビデオフレーム補間実験において、従来を上回る性能。

[#22]
Referring Relationships
Ranjay Krishna, Ines Chami, Michael Bernstein, Li Fei-Fei
CVPR 2018
Munetaka Minoguchi

概要

referring relationshipsを利用して同カテゴリのエンティティ間の曖昧さを解消するタスクの提案。特徴抽出後、アテンションを生成。述語を使用することで、アテンションをシフトさせる。この述語シフトモジュールを介して、subjectとobjectの間でメッセージを反復的に渡すことで、2つのエンティティをローカライズ。

新規性

画像中のエンティティ間の関係にはそれぞれ意味があり、画像の理解に役立つ。例えば、図のサッカーの試合の画像では、複数の人写っているが、それぞれは異なる関係を持っている。一人はボールを蹴っており、もう一人はゴールを守っている。 に着目すると、述語の”kick”を理解することにより、画像内のどの人物が”ball”を蹴っているのかを正しく識別する。

[#23]
HDLTex: Hierarchical Deep Learning for Text Classification
Kamran Kowsari, et al.
ICMLA 2017
Munetaka Minoguchi

概要

テキスト分類のためのDNNアプローチで階層的分類を行うHierarchical Deep Learning for Text classification (HDLTex)の提案。第1段階の分類(図の左側)がDNN。第2段階の分類は、1段階目の出力と接続されている。1段階目の出力がComputer Scienceの場合、2段階目(Ψ1)は全てComputer Scienceの文章のみで学習する。よって、1段階目は全ての出離の文章、2段階目は指定された文章のみで学習する。

新規性

テキストの検索や整理のための情報処理方法の改善が必要となっており、文書分類が重要。従来の分類器の性能は、文書の数が増えるにつれて低下傾向にあり、これはカテゴリ数が増加したためだと指摘。そこで、この問題を多クラス分類と見なす従来の文書分類方法とは異なるアプローチを提案。

結果・リンク集

Web of Scienceから入手したドキュメントのデータセットでテスト。高レベルRNNと低レベルDNNまたはCNNの組み合わせが、naïïveBayesまたはSVMを使用する従来のアプローチよりも高精度。

[#24]
Who Let The Dogs Out? Modeling Dog Behavior From Visual Data
Kiana Ehsani, et al.
CVPR 2018
Munetaka Minoguchi

概要

犬視点の大規模ビデオデータセットを作成し、このデータを使用した、犬の行動や行動計画のモデル化。次の3つの問題に焦点を当てる。(1)犬の行動予測。(2)入力された画像対から犬のような行動計画を見出す。(3)例えば、歩行可能な表面推定などのタスクについて、学習された表現を利用。

新規性

視覚情報からintelligent agent(知的エージェント)を直接的にモデリングするタスク。犬の視覚情報を使うことで、行動をモデル化する斬新な取り組み。得られたモデルをAIなどに応用する。特に、歩行可能な表面推定のタスクで良い結果となる。

結果・リンク集

様々なエージェントやシナリオで使用でき、ラベルがないにもかかわらず有用な情報を学習することが可能。今後は、モデルやデーセットの拡張に挑む。

[#25]
Weakly-Supervised Action Segmentation with Iterative Soft Boundary Assignment
Li Ding, Chenliang Xu
CVPR 2018

概要

時系列の行動検出/セグメンテーション(Action Segmentation)に関する問題をWeakly-Supervised(WS学習)に解いた。ここではTemporal Convolutional Feature Pyramid Network (TCFPN)とIterative Soft Boundary Assignment (ISBA)を繰り返すことで行動に関する条件学習ができてくるという仕組み。TCFPNではフレームの行動を予測し、ISBAではそれを検証、それらを繰り返して行動間の境界線を定めながらWS学習の教師としていく。さらに、WS学習を促進するためにより弱い境界として行動間の繋がりを定義することでWS学習の精度を向上させる。学習はビデオ単位の誤差を最適化することで境界についても徐々に定まる(ここがWS学習の所以)ように学習する。

180329ISBATCFN

新規性・結果

Breakfast dataset, Hollywood extended datasetにて弱教師付き学習とテストを行いState-of-the-artな精度を達成した。

コメント・リンク集

弱い教師データを大量に集めると、そろそろ(ある程度の)教師ありデータによる精度を超えそう?もっと汎用的に学習できる枠組みが必要か。

[#26]
2018.3.29 14:27:12
MaskRNN: Instance Level Video Object Segmentation
Yuan-Ting Hu, Jia-Bin Huang, Alexander G. Schwing
NIPS 2017
Munetaka Minoguchi

概要

マスクを生成するbinary segmentation netとバウンディングボックスを生成するlocalization net 、2つのネットワークの出力を融合させることでインスタンスレベルのビデオオブジェクトセグメンテーションを行うMaskRNNの提案。時間経過による逆伝搬によってend-to-endで学習でき、2つのネットワークを最適化する。

新規性

2つのネットワークを使用することで、ビデオデータの長期的な時間的情報を利用でき、ノイズも低減できる。マルチオブジェクトに対応、図は人と自転車の2つのオブジェクトにおける例。

結果・リンク集

DAVIS-2016、DAVIS-2017、Segtrack v2の3つのマークデータセットで検証し、すべてにおいて最先端のパフォーマンス。

[#27]
Iterative Visual Reasoning Beyond Convolutions
Xinlei Chen, Li-Jia Li, Li Fei-Fei, Abhinav Gupta
CVPR 2018
Munetaka Minoguchi

概要

CNNのような理由を突き止める能力がない認識システムを超えた、反復的なvisual reasoningのための新しいフレームワークの提案。畳み込みベースのローカルモジュールとグラフベースのグローバルモジュールの2コアで構成。2つのモジュールのを繰返し展開し、予測結果を相互にクロスフィードして絞り込む。最後に、両方のモジュールの最高値をアテンションベースのモジュールと組み合わせてプレディクト。

新規性・結果・リンク集

ただ畳み込むだけでなく、Spatial(空間的)およびSemanticの空間を探索することができる。下図のように、「人」は「車」を運転するというSpatialとSemanticの双方を兼ね備えた認識を行うことで精度向上を図る。

通常のCNNと比較して、ADEで8.4%、COCOで3.7%の精度向上。

[#28]
Deep Depth Completion of a Single RGB-D Image
Yinda Zhang, Thomas Funkhouser
CVPR 2018
Munetaka Minoguchi

概要

RGB画像から表面の法線とオクルージョン境界を予測し、 RGB-D画像と組み合わせて、欠けている奥行き情報を補完するDeep Depth Completionの提案。また、奥行き画像と対になったRGB-D画像のデータセットであるcompletion benchmark datasetを作成し、性能を評価。これは、低コストのRGB-Dカメラでキャプチャした画像と、高コストの深度センサで同時にキャプチャした画像で構成されている。

新規性

深度カメラは、光沢があり、明るく、透明で、遠い表面の深さを感知しないことが多い。 このような問題を解決するために、本手法ではRGB画像から得た情報と組み合わせて、 RGB-D画像の深度チャネルを完全なものにする。

結果・リンク集

深さ修復および推定において従来よりも優れた性能。

[#29]
LayoutNet: Reconstructing the 3D Room Layout from a Single RGB Image
Chuhang Zou, Alex Colburn, Qi Shan, Derek Hoiem
CVPR 2018
Munetaka Minoguchi

概要

単一のパースペクティブまたはパノラマ画像から屋内3Dルームレイアウトを推定するLayoutNetの提案。最初に、消失点を分析し、水平になるように画像を整列。これにより、壁と壁の境界が垂直になり、ノイズ低減。画像からコーナー(レイアウト接合点)と境界を、エンコーダ/デコーダ構造のCNNで出力。最後に、3D Layoutパラメータを、予測したコーナーと境界に適合するように最適化する。

新規性

アーキテクチャはRoomNetと似ているが、消失点に基づいて画像を整列させ、複数のレイアウト要素(コーナー、境界線、サイズ、平行移動)を予測し、 “L”形の部屋のような非直方体のマンハッタンレイアウトに対しても適応できる。

結果・リンク集

従来手法と比較して、処理速度と正確さにおいて性能の向上。

[#30]
Explicit Reasoning over End-to-End Neural Architectures for Visual Question Answering
Somak Aditya, Yezhou Yang, Chitta Baral
AAAI 2018
Munetaka Minoguchi

概要

VQAタスクにおける、DNNの最後から2番目の層にexplicit reasoning layerを追加する。 これにより、常識的な知識が必要な質問に対する回答が可能となり、出力した回答を人間が解釈できるようなインタフェースを提案。reasoning layerは、視覚的な関係、質問の意味解析、word2vecとConceptNetのオントロジーなどを推論するProbabilistic Soft Logic(PSL)ベースのエンジンとなっている。

新規性

VQAなどのvisionや言語タスクでは、DNNを使用して精度向上を図っている。しかし、更なる精度向上には画像や自然言語処理以外の常識的知識を使った推論が必要とされている。また、このようなシステムは一般に不透明(人間が理解できない)であり、予備知識が必要とされる質問を理解するのは困難。本手法によって、常識的知識を追加し、人間に理解できるインタフェースを提案。

結果・リンク集

explicit reasoning layerによって回答と、回答の証拠の両方を生成することが可能。性能向上と、説明能力の向上を実現。

[#31]
Efficient Interactive Annotation of Segmentation Datasets with Polygon-RNN++
David Acuna, Huan Ling, Amlan Kar, Sanja Fidler
CVPR 2018
Munetaka Minoguchi

概要

Polygon-RNNのアイデアを踏襲し、ヒューマン・イン・ザ・ループを使って対話的にオブジェクトのポリゴンアノテーションの生成。また、新しいCNNエンコーダアーキテクチャの設計、強化学習によるモデルの効果的な学習、 Graph Neural Networkを使用した出力解像度の向上を行う。これらのアーキテクチャをPolygon-RNN ++と呼ぶ。

新規性・結果・リンク集

アノテーション作成時の負担を軽減。より正確にアノテーションを付加できるため、雑音の多いアノテーターに対しても頑健である。

高い汎化能力となり、既存のピクセルワイズメソッドよりも大幅に改善。ドメイン外のデータセットにも適応可能。

[#32]
Multi-Level Factorisation Net for Person Re-Identification
Xiaobin Chang, Timothy M. Hospedales, Tao Xiang
CVPR 2018
Munetaka Minoguchi

概要

人間の視覚的外観を、人の手によるアノテーションなしかつ、複数のセマンティックレベルで識別因子に分解する Multi-Level Factorisation Net(MLFN)の提案。 MLFNは、複数のブロックで構成されており、各ブロックには、複数の因子モジュールと、各入力画像の内容を解釈するための因子選択モジュールが含まれている。

新規性

効果的なRe-IDを目指すには、高低のセマンティックレベルでの人の差別化かつ視界不変性をモデル化することである。 近年(2018)のdeep Re-IDモデルは、セマンティックレベルの特徴表現を学習するか、アノテーション付きデータが必要となる。MLFNではこれらを改善する。

結果・リンク集

3つのRe-IDと、CIFAR-100の結果で最先端。

[#33]
CSfM: Community-based Structure from Motion
Hainan Cui, Shuhan Shen, Xiang Gao, Zhanyi Hu
ICIP 2017
Munetaka Minoguchi

概要

頑健性と効率性を考慮した、 Structure-from-Motionアプローチであるcommunity-based SfM(CSfM)の提案。画像をコミュニティにクラスタ化することで、内側が密、外側は疎になるように接続することができる。まず、エピポーラ幾何学グラフを別々のコミュニティに分割し、各コミュニティで並列に再構成処理を行う。そして、新しいグローバル類似度平均法によってマージする。

新規性

SfMのアプローチは、次の2つのクラスに大きく分けられる。 (1)インクリメンタル方式は外れ値に対して堅牢だが、誤差の蓄積と計算時の負荷が大きい。 (2)グローバルな方法は、すべてのカメラポーズを同時に推定するという利点があるが、通常、エピポーラ幾何学を算出する際に異常値を生じやすい。これらの、従来のSfMの問題を解決。

結果・リンク集

従来のアプローチと比較して、計算効率がよく、類似度や再構成精度、堅牢性の点でも優れている。

[#34]
PDNet: Prior-model Guided Depth-enhanced Network for Salient Object Detection
Chunbiao Zhu, Xing Cai, Kan Huang, Thomas H. Li, Ge Li
ICME 2018
Munetaka Minoguchi

概要

RGB-Dの顕著な物体の検出のための、深度拡張ネットワークであるPDNetの提案。画像ピクセルのRGB-D値をネットワークに直接送るのではなく、RGB値を処理するためのマスターネットワークと、D値(深度)を組み込むサブネットワークで生成した特徴をマスタネットワークに追加する。ラベル付きRGB-Dデータセットは少ないため、大規模なRGBデータセットを使用してマスターネットワークをプレトレインする。

新規性

FCNは、多くのタスクにおいて優れているが、顕著性検出において2つの問題があると指摘。 1つ目は、ネットワークを学習するための大規模なラベル付きデータがないこと。2つ目は、ノイズがあるシーンなどにおいて、頑健でないこと。PDNetでは上記を改善。

結果・リンク集

5つのデータセットで評価し、精度向上を確認。

[#35]
Pyramid Stereo Matching Network
Jia-Ren Chang, Yong-Sheng Chen
CVPR 2018
Munetaka Minoguchi

概要

空間ピラミッドプーリングと3D CNNの2つのモジュールから構成された、ステレオ画像対からの奥行き推定を行うPyramid Stereo Matching Network(PSMNet)の提案。空間ピラミッドプーリングは、異なるスケールおよび位置でコンテキストを集約し、コストボリュームを形成する。 3D CNNは、複数のhourglass networksを重ねて、コストボリュームを規則化することを学習。

新規性

現在(2018)ではステレオ画像からの奥行き推定を、CNNの教師あり学習で解決されてきている。 コンテキスト情報を利用することで精度向上を図る。

結果・リンク集

最先端の手法よりも優れている結果。

[#36]
Learning Shape-from-Shading for Deformable Surfaces
Jan Bednarık, Pascal Fua, Mathieu Salzmann
ECCV 2018
Munetaka Minoguchi

概要

2D画像からメッシュ、法線、深度マップなどの3D表現を予測できるフレームワークを提案。人が着用するTシャツのしわなど、表面をより詳細に、正確にモデル化できる。基本的にはShape-from-Shading技術に関連する技術。

新規性

画像から、テクスチャを加えることで表面の3D形状を再現する手法は開発されている。しかし、テクスチャのない表面の3D形状を回復することはできていない。

結果・リンク集

メッシュはテクスチャありの場合はとても良い精度だが、テクスチャなしの場合だとあまり適さない。

[#37]
P2P-NET: Bidirectional Point Displacement Net for Shape Transform
Kangxue Yin, Hui Huang, Daniel Cohen-Or, Hao Zhang
SIGGRAPH 2018
Munetaka Minoguchi

概要

2つの領域(例えば、骨格と表面、部分的および完全なスキャンデータ)からポイントベースの形状表現に幾何学的変換するための、汎用DNNであるP2P-NETの提案。データから学習された点群に変換、またはその逆の変換を行う双方向点変位ネットワーク。lossは、予測された点集合と目標点集合との間の形状的類似性を比較する幾何学的損失と、逆方向に進む変位ベクトル間の相互正規化項とを組み合わせる。

新規性

ポイントセットを1つのドメインから別のドメインにマッピングするように学習することにより、2Dまたは3D空間に配置できる。また、マッピングは2Dプロファイルを3D形状に変換することも可能。

結果・リンク集

P2P-NETをもちいたアプリケーションを複数開発し、様々なポイントベースの形状変換問題を解決するネットワークの有効性、汎用性、および可能性を示唆。

[#38]
Fast and Accurate Single Image Super-Resolution via Information Distillation Network
Zheng Hui, Xiumei Wang, Xinbo Gao
CVPR 2018
Munetaka Minoguchi

概要

元の低解像度画像から高解像度画像を再構築するための、深くてコンパクトなCNNを提案。提案モデルは、特徴抽出ブロック、積み重ね情報蒸留ブロック、再構成ブロックの3部構成。これにより、情報量が豊富かつ効率的に特徴を徐々に抽出できる。

新規性

CNNが超解像殿画像を扱うようになってきたが、ネットワークが増大するにつれて、計算上の複雑さとメモリ消費という問題が生じる。これらの問題を解決するためのコンパクトなCNN。

結果・リンク集

PSNR、SSIM、IFCの4つのデータセットで検証し、精度向上を確認。デシジョンおよび圧縮アーチファクト低減などの他の画像修復問題にも応用可能?

[#39]
ITERATIVE LOW-RANK APPROXIMATION FOR CNN COMPRESSION
Maksym Kholiavchenko
ECCV 2018
Munetaka Minoguchi

概要

CNNを圧縮するために、低ランク近似を適用する反復アプローチの提案。入力モデルを反復して圧縮していき、構成と重みを出力する。反復の中でノイズ低減をアルゴリズムを追加し、精度低下を避ける。

新規性

CNNには数千万のパラメータが含まれているため、組み込み機器で効率的に動作することは不可能。AlexNet、VGG-16、YOLOv2、およびTiny YOLOネットワークを圧縮することで、CNNを多様化。

結果・リンク集

より高い圧縮率かつ、精度の低下が少ない。

[#40]
Coherence in One-Shot Gesture Recognition for Human-Robot Interaction
Maria E. Cabrera, Richard M. Voyles, Juan P. Wachs
HRI'18 LBR
pp. 75-76
Ryota Suzuki

概要

ロボットのジェスチャをワンショットで認識する時,人間と機械でどんな違いがあるのかを見た.ロボットは2腕あるロボット腕のBaxter. 機械側はワンショット骨格情報からHMM,SVM,CRF,DTWで認識.人間側は10人. モーションのサンプルは,動きが大きく変わる顕著な時点を選んだ.

人間は'Shoot'が比較的わかりにくい(3/10人わからなかった).

Figure1

評価点

ロボットのジェスチャのワンショット認識をHRIに水平思考しただけだが,HRIとしての話題としてだけ見れば結構面白い. 「選ぶジェスチャとか機械側の手法に大きく依るじゃん」などのツッコミが多々あるが,そこは今後に期待.

リンク集・コメント

[#41]
2018.3.30 15:47:02
HMDを用いた3次元ジェスチャ操作による没入型天体教材の開発
田尻圭佑, 瀬戸崎典夫
日本教育工学会
Kenichiro Wani

生徒にとって、相対的な考えを必要とする星座の日周運動や年周運動を理解することが困難である。

仮想環境内における教員の介入による指導が可能な、没入型天体教材の開発。

3次元ジェスチャ装置によって学習者及び講師の手の動きを認識し,仮想空間に手のCGモデルを表示する。

学習者はHMDを装着(教員は3次元ジェスチャ装置を用いて仮想空間内で手のジェスチャしながら説明)。

新規性

生徒に星座を教えるのに仮想現実(Virtual Reality:以下VR)。

3次元ジェスチャ装置(Leap Motion)を用いて教師の手の動きを認識し、仮想空間に手のCGモデルを表示する。

結果

実験後にアンケートにより回答を得たところ、肯定的な回答では「たのしい・おもしろい」、「没入感があって星の動き・位置が分かりやすい」となった。否定的な回答では「目が痛い・疲れる」、「酔った」、「Leap Motionの位置がわかりずらい」となった。

[#42]
Learning Intelligent Dialogs for Bounding Box Annotation
K. Konyushkova et al.,
arXiv:
1712.08087

概要

Bounding Boxのアノテーションを効率的に行うためのシステムを提案. 手動でBounding Boxを描く,Detectorが生成したBounding Boxが正しいかを判定するという2つの作業を どのようにやらせると効率的かをシステムが学習. 確信度が高そうなBounding Boxを判定させて,ダメだったら手動で描かせる,など. Boxがacceptされる確率を推定して最適なアノテーション方法を決定する方法と, 強化学習ベースで決定する方法の2つを提案. 固定された戦略でアノテーションするよりも, 提案手法により決定する戦略を用いる方が多くの場合で効率的なことを実験的に示した.

新規性・結果

  • 効率的なBounding Boxのアノテーションを支援するためのシステムを提案

自由記述欄

  • Bounding Boxがacceptされる確率って本来はそのBoxのスコアで完結されているべきな気もする
[#43]
Kensho Hara
Social GAN: Socially Acceptable Trajectories with Generative Adversarial Networks
A. Gupta et al.,
arXiv:
1803.10892

概要

歩行者の移動軌跡の予測に関する研究. 複数人がすれ違うときにぶつかったり極端に近づいたりしないような, 自然な軌跡を予測したい. 従来手法では主に,人ごとに周辺のみを考慮しシーンにいる全体のインタラクションを効率的に考慮できていないという点と, 平均的な一つの振る舞いを学習しており,複数の可能性を考慮できていない点の2つが欠点としてあった. この研究ではそれらをGANベースの手法 (Social GAN) を提案して解決している. シーン中のすべての人の関係を扱う新たなPooling方法を提案して一つ目の問題を解決し, 過去の軌跡を入力として未来の軌跡を生成するGANにより二つ目の問題を解決した.

新規性・結果

  • 幅広い出力を得るためのロス関数を提案
  • シーン中のすべての人の関係のエンコードを学習する新しいPoolingを提案

自由記述欄

  • Stanford (Fei-fei Li) のグループ
  • GANでの軌跡予測は自然な発想でまだなかったのかという感じもする
  • 成功させるのが難しい?
[#44]
Kensho Hara
Movie Editing and Cognitive Event Segmentation in Virtual Reality Video
A. Serrano, et al.
SIGGRAPH 2017

概要

VRビデオ鑑賞において多数ユーザの視線トラッキングを解析してVR動画の編集を行う研究を実施した。

180330VRVideo

新規性・結果

VRのビデオ編集において最新の認知科学を適用、VRビデオ鑑賞におけるコンテンツを強化した。

コメント・リンク集

[#45]
2018.3.30 14:59:04
VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera
A. Uthors, B. Uthors and C. Uthors

概要

Single RGBからの入力で姿勢推定を行い、3次元空間に投影してマーカレスモーキャプを実現。自己遮蔽や複雑姿勢などが発生してもロバストにキーポイントの追跡に成功した。

180330VNNect

新規性・結果

結果は動画を参照。

コメント・リンク集

[#46]
2018.3.30 14:44:20
Discovering and synthesizing humanoid climbing movements
K. Naderi, et al.
SIGGRAPH 2017

概要

シミュレーション上でヒューマンノイドのエージェントが壁を登る様子を学習する研究。エージェントの体の動かし方も含めて経路探索を実施する。提案手法ではk-shortest Pathsによるアルゴリズムを用いて同タスクを解決した。

180330HumanoidMovement

新規性・結果

多数の関節を同時に動かし、ボルダリングのための経路探索を行う問題を提供した。シミュレーション結果はYouTube動画中にて示されている。

コメント・リンク集

[#47]
2018.3.30 14:21:16
Phase-Functioned Neural Networks for Character Control
D. Holden, et al.
SIGGRAPH 2017

概要

ニューラルネットによりリアルタイムにキャラクターを操作するPhase-Functioned Neural Networkを提案する。ある動作(ここでは主に歩行、runningという意味で走行、ジャンプ、登る)というのはある周期性を持つと仮定して重みを計算し、ユーザの操作に応じて動作を柔軟に変更することができる。より柔軟な動きにするために、モーションキャプチャのデータを大量に使用してニューラルネットを学習した。

180330PhaseFunctionedNN

新規性・結果

モーキャプデータを大量に使用してニューラルネットを学習することで、ユーザフレンドリな動作表現を実現した。動的な結果についてはYouTubeを参照されたい。

コメント・リンク集

モーキャプxニューラルネットの有効な組み合わせ例かもしれない。次はデータを効果的に増やす方にも活用できるのでは?

[#48]
2018.3.30 14:08:53
DeepLoco: Dynamic Locomotion Skills Using Hierarchical Deep Reinforcement Learning
X. B. Peng, et al.
SIGGRAPH 2017

概要

階層的強化学習により、3次元アニメーションにおいて道順さえ教えれば歩行動作を自動で獲得するアルゴリズムを提案した。より速いレートで関節やバランスをコントロールするLLC(Low-level Controller)と道を外れずにゴールを目指すことができるHLC(High-level Controller)を階層的に組み合わせて歩行動作を獲得する。

180330DeepLOCO

新規性・結果

階層的な強化学習(Hierarchical Reinforcement Learning)により歩行動作を自動で獲得した。曲がりくねった道、サッカーボールのドリブル、障害物中の歩行(いずれも図に示されている)などの場面でより自然な歩行動作を獲得した。

コメント・リンク集

道筋(やボールの操作)に関するインストラクションさえできれば歩行動作を獲得してくれるので、より柔軟にグラフィックスが作れる?さらに研究が進めば歩行と追加動作が指定できそう。

[#49]
2018.3.30 13:53:45
Regularized Kelvinlets: Sculpting Brushes based on Fundamental Solutions of Elasticity
Fernando de Goes, Doug L. James
SIGGRAPH 2017

概要

より自然な物理的な拘束を保持しつつ弾力によるグラフィックモデルの変形を実現した。キャラクターを擬似的につかむ、ねじる、はさむなどの影響を弾性的に表現した。

180330Kelvinlets

新規性・結果

グラッフィクスに弾力を持たせるような表現を実現した。詳細な結果はProject Pageの動画を参照。

リンク集

[#50]
2018.3.30 12:21:25
Variance-Minimizing Transport Plans for Inter-surface Mapping
M. Mandad et al.
SIGGRAPH 2017

概要

密な3次元サーフェイス同士のマッピング計算に関する研究。より効率的かつ歪みが少ないモデルの生成を実現した。関節情報など意味的な点探索やサーフェイスの対応付けでなく直接的に分散を最適化して対象のサーフェイス間の転移を行う手法(variance-minimizing trannsport plan)を提案。

180330InterSurface

新規性・結果

凸最適化によりこれを計算し、なおかつ疎密探索により効率的な計算ができることが判明した。モデルの例は図を参照。

リンク集

[#51]
2018.3.30 12:08:00
Needs and Expectations for Fully Autonomous Vehicle Interfaces
T. Amanatidis, P. Langdon, P. J. Clarkson
HRI'18 LBR
pp. 51-52
Ryota Suzuki

概要

完全自動走行車両のインタフェースに対する要望・期待を調査した.運転できる人,(障害など身体的に)運転できない人に,グーグルの自動走行車両プロトタイプのビデオ映像を見せ, 聞き取り調査を行った. 身体的に運転できない人の利用について様子を見るつもりだったが, 結果,個人所有か共有かでフィードバックしてほしい情報が異なることが分かった(右表). イギリス・ケンブリッジ大学の研究.

Figure1

他わかったこと

  • 車両への指示は会話の邪魔なので声でやりたくない
  • テーブルほしい,地図ほしい
  • エンタテインメント,作業機能は個人所有にしたい.備え付けは好まれない
  • 車両との,カレンダー以外の個人的な情報共有に寛容になる

リンク集・コメント

LBRならではの調査.UXの知見の共有は,自動走行車両の倫理的議論にも関わると思う.

[#52]
2018.3.30 13:25:21
Learning Transferable Architectures for Scalable Image Recognition
Barret Zoph, Vijay Vasudevan, Jonathon Shlens, Quoc V. Le

概要

遺伝的アルゴリズムを参考にしてニューラルネット構造のシードとその周辺探索を行うNeural Architecture Search (NASNet)を提案。自動でアーキテクチャを探索するという手法を考案し、TensorFlowやGoogleのサービスであるAutoMLに搭載した。

180330NASNet

新規性・結果

ImageNetの識別にて82.7%(top1)、96.2%(top5)を達成した。この精度は人間が探索したアルゴリズムであるSE-Net(ILSVRC2017勝者)よりも1.2%高い精度である。CIFARにおいても同様にState-of-the-art、さらにFaster R-CNNと組み合わせて物体検出を行った場合でもCOCOにて43.1%でSoTA。

コメント・リンク集

[#53]
2018.3.30 11:45:54
MentorNet: Regularizing Very Deep Neural Networks on Corrupted Labels
Lu Jiang, Zhengyuan Zhou, Thomas Leung, Li-Jia Li, Li Fei-Fei
arXiv 1712.05055

概要

データ自体を正則化し重み付けを行い、各データサンプルに重要度を与えて柔軟に学習する仕組みを考案した。データの入力に対して、MentorNetはミニバッチごとにどの程度の重みをつければ良いのかを返却してDeepCNNを学習する。知識蒸留などと同様にMentorNetとStudentNetが存在してCurriculum Learningにより徐々に学習を進める。

180329MentorNet

新規性・結果

あまり整備されていないデータの場合(e.g. ウェブ画像)にはノイズが誤っていたり、なかったり、崩れていたりするが、本論文で提案のMentorNetではデータに重要度を与えて、どのデータをどの程度信頼して良いのかを与えた。Weakly Supervised学習よりも精度が高いことを示した。

コメント・リンク集

[#55]
2018.3.29 16:00:41
Long-term Tracking in the Wild: A Benchmark
Jack Valmadre, Luca Bertinetto, João F. Henriques, Ran Tao, Andrea Vedaldi, Arnold Smeulders, Philip Torr, Efstratios Gavves
arXiv 1803.09502

概要

従来データよりも(最低でも2分以上のビデオが含まれる)長期にわたる物体追跡のビデオデータセットを提供、さらには評価用サーバも提供して長期物体追跡の研究に貢献する。同データセットは366シーケンスを含め、14時間以上のビデオ、150万のフレームを含みこれはOTB-100の約26倍のデータサイズである。

180329LongTermTrackingDB

新規性・結果

データセットを提供すると同時に、ベンチマークとして代表的なトラッキング手法を実装して精度を算出した。手法はSiamFC、TLD、MDNet、SINT、SiamFC、ECO-HC、EBT、BACF、Staple、LCTを比較した。

コメント・リンク集

トラッキングはより長期になるし、するべき。

[#56]
2018.3.29 15:16:07
Am I Done? Predicting Action Progress in Videos
Federico Becattini, Tiberio Uricchio, Lorenzo Seidenari, Alberto Del Bimbo, Lamberto Ballan
ECCV 2018 Submission

概要

人物行動の進行を予測するDNNNのネットワークであるProgressNetを提案する。ProgressNetでは動画の入力において、現在フレームからその後の行動の未来の進行状況を予測する。Faster R-CNNのフレームワークを参照して、さらにLSTMのネットワークを統合してフレームを予測する。

180329ProgressNet

新規性・結果

実験はUCF-101とJ-HMDBデータセットにて行った。Faster R-CNN + LSTMベースの手法で従来法よりもよく、行動推定とbbox検出を同時に達成した。

[#57]
2018.3.29 14:56:48
WebSeg: Learning Semantic Segmentation from Web Searches
Qibin Hou, et al.
ECCV 2018
Munetaka Minoguchi

概要

特定のキーワードに関連したFlickr画像を用いて、ユーザーのアノテーションに頼ることなく、自動的でセマンティックセグメンテーションの学習を行うWebSegの提案。(1)ウェブクローラによって、ユーザ定義のキーワードに関連する画像をダウンロード。(2)数種類の低レベルキュー(顕著性、エッジなど)を抽出し、それらを学習のヒューリスティクスとして結合。(3)Noise Filtering Module(NFM)を備えたセマンティックセグメンテーションネットワーク。の3部構成。ベースはDeeplab-Large-FOV。

新規性

フリーのWeb画像からセマンティックセグメンテーションを学習。ノイズの多いWeb画像と不完全なproxy ground-truthに関して、学習に望ましくないノイズの多い領域を除去するオンラインノイズフィルタリングメカニズムを考案。

結果・リンク集

Web画像のみを使った学習にもかかわらず、従来の最先端の方法と比較して同等の結果を出している。

[#58]
Three Birds One Stone: A Unified Framework for Salient Object Segmentation, Edge Detection and Skeleton Extraction
Qibin Hou, et al.
ECCV 2018
Munetaka Minoguchi

概要

顕著性オブジェクトセグメンテーション、スケルトン抽出、エッジ検出など、ピクセル単位のバイナリ問題における類似点を見出し、一つのフレームワークに統一。 CNNをより有効的に活用するために、異なるレベルのフィーチャマップから信号を受け取るtransition nodeという概念を導入している。

新規性

異なるタスクを一つのフレームワークに統一させることで、全てのタスクにおいて精度向上を図っている。他のバイナリピクセルラベリングタスクも統一できる可能性を示している。

結果・リンク集

本質的に異なるタスクでも、統一してしまうことで、それら全てで効率よく機能し、現在(2018年)の単一の最先端の手法よりはるかに優れている。

[#59]
Towards Human-Machine Cooperation:Self-supervised Sample Mining for Object Detection
Keze Wang, et al.
CVPR 2018
Munetaka Minoguchi

概要

物体検出の課題を考慮し、既存のActive Learning(AL)の欠点を改善することを目的とした、Self-Supervised Sample Mining(SSM)の提案。ラベルなし、もしくは一部ラベルのないデータを使って学習することができる。交差検証後のスコアによってサンプルを選別。低い場合にはユーザによってアノテーション、高い場合にはそのままラベルとして採用。

新規性

既存のAL法では主に、単一の画像コンテクスト内でサンプル選択基準を定義し、大規模な物体検出において最適ではなく、頑強性および非実用的である。SSMによって、ユーザが必要な部分にだけ介入し、アノテーションの作業を軽減。

結果・リンク集

アノテーションが少ないデータセットにおいても最先端の精度。

[#60]
Image Semantic Transformation: Faster, Lighter and Stronger
Dasong Li, Jianbo Wang
ECCV 2018
Munetaka Minoguchi

概要

画像の意味的変換を施し,画像を再構成する,facenet‘sのユークリッド空間を使ったモデルであるImage-Semantic-Transformation-Reconstruction-Circle(ISTRC)の提案。その名の通り、構造が円になっている。画像を識別するために、FaceNetの最後の層を用いて、画像をユークリッド空間に変換。意味理解のためにユークリッド空間ベクトルを操作し、マッピング。GANを使って、ベクトルから画像を再構成。

新規性・結果・リンク集

本論文では10種類の変換(「男性と女性」「笑顔を加える」「口を開ける」「大きい/小さい鼻」「年をとる」など)を実施。今後は、種類を拡張し、より高解像度の画像に適応できるように改良予定。

[#61]
A New Target-specific Object Proposal Generation Method for Visual Tracking
Guanjun Guo, et al.
IEEE Transactions on Cybernetisc
Munetaka Minoguchi

概要

映像のコンテキスト情報を活用した、bject proposal手法であるTpecific Object Proposal Generation(TOPG)の提案。具体的には、対象物体のobject proposalを生成する際に、色とエッジの情報を統合する。これにより,様々な環境に適応することができ、 TOPGのリコールが大幅に増加。また、生成したobject proposalのランク精度を高めるためのランク付け手法を提案。そして、TOPGをvisual trackingに適応したTOPG-based tracker (TOPGT)を提案。

新規性

既存のobject proposal手法をビデオなどのタスクに適用したときに発生する、モーションブラー、低コントラスト、変形などの問題を解決。

結果・リンク集

TOPGおよびTOPGT共に既存の研究より精度向上。

[#62]
Robust Depth Estimation from Auto Bracketed Images
Sunghoon Im, Hae-Gon Jeon, In So Kweon
CVPR 2018

概要

HDRの画像の明るさを補正するためのブラケット撮影からの距離画像やカメラ姿勢を同時推定する手法を提案する論文。ブラケット撮影とは通常の露出撮影以外に意図的に「少し明るめの写真」と「少し暗めの写真」を同時に撮影。距離画像推定は幾何変換をResidual-flow Networkに統合したモデルにより行う。ここでは学習ベースのMulti-view stereo手法(Deep Multi-View Stereo; DMVS)を幾何推定(Structure-from-Small-Motion; SfSM)と組み合わせる。

180323BracketedImages

新規性・結果

距離画像推定において、スマートフォンやDSLRカメラなど種々のデータセットにてSoTAな精度を達成。モバイル環境でも動作するような小さなネットワークと処理速度についても同時に実現した。

リンク集

[#63]
2018.3.23 19:11:04
Unsupervised Representation Learning by Predicting Image Rotations
Spyros Gidaris, Praveer Singh, Nikos Komodakis
ICRA 2018
Munetaka Minoguchi

概要

CNNにおいて、入力画像に適用された2次元回転を認識するように学習する、自己管理特徴学習手法を提案。この単純なタスクによって、semantic feature learningの質の向上。

新規性

2018年現在、CNNは画像の意味的要素まで学習できるようになってきた。しかし、これには大量のデータが必要なため、教師なし学習に着目。回転を認識させる学習によって、物体認識、物体検出、セグメンテーションなどのさまざまな視覚的認識タスクに有用な意味的特徴を学習させることに成功。

結果・リンク集

ImageNet分類、PASCAL分類、PASCAL検出、PASCALセグメンテーション、CIFAR-10分類の教師なし特徴学習精度を大幅に改善。

[#64]
Fusion of stereo and still monocular depth estimates in a self-supervised learning context
Diogo Martins, Kevin van Hecke, Guido de Croon
ICRA 2018
Munetaka Minoguchi

概要

自律ロボットにおける、奥行き推定能力を向上させる手法の提案。ロボットが教師あり学習(CNN)でステレオビジョン深度を学習し、静止画像からの深さを推定。このとき、ステレオ視からの深度推定結果だけでなく、単眼深度推定と静止画像をマージすることで精度向上を図る。

新規性

ステレオとモノラルの両方を融合された場合の推定値が、ステレオだけの場合よりも高パフォーマンス。近距離を除くほとんどの距離において、単眼視力よりも立体視がより正確に行える。

結果・リンク集

KITTIデータセットとParrot SLAMDunkで実験した結果、ステレオ視覚ロボットに自律走行させるための、より正確なデプスマップを作成できることを示唆。

[#65]
Dynamic Sampling Convolutional Neural Networks
Jialin Wu, Dai Li, Yu Yang, Chandrajit Bajaj, Xiangyang Ji
ECCV 2018
Munetaka Minoguchi

概要

現在の位置だけでなく、動的な位置特有のカーネルを学習させることで、複数の隣接領域の特徴を融合させて学習することができるDynamic Sampling Convolutional Neural Networks (DSCNN)の提案。上図より、kernel branchで位置特有のカーネルを生成。 feature branchで、各位置ごとに畳み込んで特徴を生成。 attention branchで、各サンプルされた隣接領域からフィーチャを融合させるためのアテンション重みを生成。

新規性・結果・リンク集

下図より、各位置で、個々のカーネルと各サンプルのアテンションの重みを別々に学習。 次に、これらの学習されたアテンションの重みを使用して、複数のサンプルの特徴を結合。十字の付いたボックスは、アテンションの重みを生成する位置を示し、赤色のものはサンプリング位置を示し、黒色のものはサンプリングされた位置を示す。

Effective Receptive Field(ERF)を拡張できることから、認識精度が向上。一般的な深層学習タスクにおいて有効性を示した。

[#66]
Show, Tell and Discriminate: Image Captioning by Self-retrieval with Partially Labeled Data
Xihui Liu, Hongsheng Li, Jing Shao, Dapeng Chen, Xiaogang Wang
ECCV 2018
Munetaka Minoguchi

概要

自己検索モジュールを学習時のガイダンスとし、識別キャプションの生成を促す画像キャプションフレームワークを提案。(1)自己検索ガイダンスによって、キャプションの識別性を評価し、生成されたキャプションの品質を保つ。(2)生成されたキャプションと画像との対応は、アノテーションを伴わない生成プロセスに自然に組み込まれており、大量の未ラベル画像を使用して、面倒なアノテーションを付けを行わずにキャプションのパフォーマンスを向上。

新規性

従来の主流なアプローチのほとんどは言語構造パターンを模倣しており、頻繁なフレーズや文章を複製して、各イメージのユニークな側面を無視するというステレオタイプになる傾向。本手法では、似たような画像を入力した場合でも、キャプションの弁別性を向上させることができる。

結果・リンク集

MS-COCOとFlickr30kデータセットで提案された有効性を実証し、優れた字幕演出をより差別的な字幕とともに示す。

[#67]
Exploiting deep residual networks for human action recognition from skeletal data
Huy-Hieu Pham, Louahdi Khoudour, Alain Crouzil, Pablo Zegers, Sergio A. Velastin
CVIU 2018
Munetaka Minoguchi

概要

デプスセンサによって得られる骨格情報を用いて人間の行動認識に深いResNetsを適用する。スケルトンシーケンスで、人体関節の3D座標を画像ベースの表現に変換し、RGB画像として格納。これらの画像は、3D運動の空間 - 時間的進化をとらえることができ、D-CNNによって効率的に学習可能。次に、得られた画像ベースの表現から特徴量を学習し、行動クラスに分類するためにResNetsにて学習。

新規性・リンク集

MSR Action 3D、KARD、およびNTU-RGB + Dデータセットを含む3つのデータセットで評価。最先端の精度かつ、計算量の削減。

[#68]
A Minimalist Approach to Type-Agnostic Detection of Quadrics in Point Clouds
Tolga Birdal, Benjamin Busam, Nassir Navab, Slobodan Ilic, Peter Sturm
CVPR 2018

概要

オクルージョンが発生している場合/複雑な環境下でも簡単な形状がポイントクラウドから検出できる枠組みを提案する。手法は3D楕円形状のフィッティング、3次元空間操作、4点取得により構成。

180324Quadrics

新規性・結果

タイプに依存しない3次元の二次曲面(楕円球形状)検出を点群の入力から行う手法を考案した。さらに、4点探索問題を3点探索にしてRANSACベースの手法で解を求めた。モデルベースのアプローチよりはフィッティングの性能がよいが、キーポイントベースの手法よりは劣る。

コメント・リンク集

曖昧な教示のみで3次元形状探索問題が解決できるようになる?

[#69]
2018.3.24 13:04:44
Zero-shot Recognition via Semantic Embeddings and Knowledge Graphs
Xiaolong Wang, Yufei Ye, Abhinav Gupta, The Robotics Institute, Carnegie Mellon University
CVPR 2018
Munetaka Minoguchi

概要

カテゴリの単語の埋め込みと他のカテゴリとの関係(視覚データが提供される)を使用するだけで、学習例がないカテゴリの分類器を学習するゼロショット認識モデルを提案。 knowledge graph (KG) を入力とし、Graph Convolutional Network(GCN)を基に、セマンティック埋め込みとカテゴリの関係の両方を使用して分類器を予測する。

手法

学習済のKGが与えられると、各ノードに対する意味的埋め込みとして入力を得る。一連のグラフ畳み込みの後、各カテゴリの視覚的分類器を予測する。トレーニング中に、カテゴリの視覚的分類器が与えられ、GCNパラメータを学習。テスト時に、これらのフィルタを使用して、見えないカテゴリの視覚的分類器を予測する。

結果・リンク集

KGのノイズに対してロバストであり、最先端の精度。

[#70]
Actor and Action Video Segmentation from a Sentence
Kirill Gavrilyuk, Amir Ghodrati, Zhenyang Li, Cees G.M. Snoek
CVPR 2018 (oral)

概要

センテンスの入力から、行動者と行動(Actor and Action)を同時に特定する研究である。複数の同様の物体から特定の人物など、詳細な分類が必要になる。ここではFully-Convolutional(構造の全てが畳み込みで構成される)モデルを適用してセグメンテーションベースで出力を行うモデルを提案。図は提案モデルを示す。I3Dにより動画像のエンコーディング、自然言語側はWord2Vecの特徴をさらにCNNによりエンコーディング。その後、動画像・言語特徴を統合してDeconvを繰り返しセグメントを獲得していく。

1803ActorAction

新規性・結果

文章(と動画像)の入力から行動者と行動の位置を特定すべくセグメンテーションを実行するという問題を提起した。また、二つの有名なデータセット(A2D/J-HMDB)を拡張して7,500を超える自然言語表現を含むデータとした。同問題に対してはSoTA。

コメント・リンク集

CVxNLPの問題はここにも進出して来た。画像キャプションに限らず、この手の統合は進められるはず。

[#71]
2018.3.24 12:47:10
Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatial-Temporal Patterns
Jianming Lv, et al.
CVPR 2018
Munetaka Minoguchi

概要

歩行者の時空間パターンを用いた、教師なし学習の人物再同定アルゴリズムであるTFusionを提案。既存の人物再同定アルゴリズムのほとんどは、小サイズのラベル付きデータセットを用いた教師付き学習手法である。そのため、大規模な実世界のカメラネットワークに適応することは困難である。また、そこで、ラベルなしデータセットも用いたクロスデータセット手法によって精度向上を図る。

手法

まず、歩行者の空間的-時間的パターンを学習するために、ラベル付きデータセットを用いて学習した視覚的分類器を、ラベルなしデータセットに転送。次に、Bayesian fusion modelによって、学習された時空間パターンを視覚的特徴と組み合わせて、分類器を改善。最後に、ラベルのないデータを用いて分類器を段階的に最適化。

結果・リンク集

人物再同定のための、教師なしクロスデータセット学習手法の中では最先端。

[#72]
HATS: Histograms of Averaged Time Surfaces for Robust Event-based Object Classification
Amos Sironi, et al.
CVPR 2018
Munetaka Minoguchi

概要

イベントベースカメラにおける、識別アルゴリズムの提案。本研究では、(1)イベントベースのオブジェクト分類のための低レベル表現とアーキテクチャの欠如、(2)実世界における大きなイベントベースのデータセットの欠如、の2つの問題に取り組む。新しい機械学習アーキテクチャ、イベントベースの特徴表現(Histograms of Averaged Time Surfaces)、データセット(N-CARS)を提案。

新規性

イベントベースのカメラは、従来のフレームベースのカメラと比較して、高時間分解能、低消費電力、高ダイナミックレンジという点で優れており、様々なシーンで応用が利く。しかし、イベントベースのオブジェクト分類アルゴリズムの精度は未だ低い。特徴表現には過去時間の情報を使用。

結果・リンク集

過去の情報を使うことで、既存のイベントベースカメラによる認識手法よりも優れた結果となった。

[#73]
Speech-Driven Facial Reenactment Using Conditional Generative Adversarial Networks
Seyed Ali Jalalifar, Hosein Hasani, Hamid Aghajan
ECCV 2018
Munetaka Minoguchi

概要

音声入力から、正確な口パク画像(実写の顔)を生成するための新規アプローチの提案。まず、RNN(LSTM)を用いて、音声特徴から口のランドマーク位置をラベルとして生成。次に、ランドマークからC-GANを用いて顔を生成。これらの2つのネットワークによって、入力オーディオトラックと同期し、自然な顔を生成することが可能。

新規性

音声入力から、正確な口パク画像(実写の顔)を生成するための新規アプローチの提案。まず、RNN(LSTM)を用いて、音声特徴から口のランドマーク位置をラベルとして生成。次に、ランドマークからC-GANを用いて顔を生成。これらの2つのネットワークによって、入力オーディオトラックと同期し、自然な顔を生成することが可能。

結果・リンク集

LSTMとC-GANのネットワークは、独立しているので、ターゲットの人物ではなく、他ソースからのオーディオでターゲットの顔を口パクさせることが可能。 顔の変換、アプリなど、多くの新しいアプリケーションに応用可能。

[#74]
Facial Landmarks Detection by Self-Iterative Regression based Landmarks-Attention Network
Tao Hu, et al.
AAAI 2018
Munetaka Minoguchi

概要

Cascaded Regression(CR)ベースの顔ランドマーク検出モデルの効率を改善するSelf-Iterative Regression(SIR)の提案。また、各ランドマーク周辺のフィーチャを同時に学習し、全体的な位置増分を取得するLandmarks-Attention Network(LAN)を提案。これにより、一回の回帰分析で反復的にパラメータを更新することができる。

新規性

CRは、細かい段階と荒い段階で別々に学習することができるが、以前の回帰の出力が次の回帰時のデータとなるので十分に頑強とは言えない。さらに、複数の回帰を学習するにはかなりのリソースが必要。SIRはこれらの問題を解決できる。

結果・リンク集

最先端の手法に匹敵する精度を持ち、学習済みモデルのパラメータおよびメモリ使用量を大幅に減らせる。 将来的には、人間の姿勢推定などに応用する予定。

[#75]
Zoom and Learn: Generalizing Deep Stereo Matching to Novel Domains
Jiahao Pang, et al.
CVPR 2018
Munetaka Minoguchi

概要

学習済みデータと新しいドメイン(ground-truthなし)の両方を用いて、ディープステレオマッチングを行うZoom and Lean(ZOLE)の提案。これにより,他のドメインに一般化できるプレトレインモデルを作成することができる。一般化に際する不具合を抑制しながらアップサンプリングを行う、反復最適化問題を定式化する。

新規性

ground-truthデータが不足しているため、CNNを用いたステレオマッチングでは学習済みステレオモデルを新規ドメインに一般化することが困難とされていた。CNN学習時のイテレーションごとに最適化していくイメージ。

結果・リンク集

スマートフォンで収集したデータを従来の手法に入力すると、物体のエッジがぼやけてしまうが、提案手法のZOLEではこれらを改善できる。

[#76]
Alive Caricature from 2D to 3D
Qianyi Wu, et al.
CVPR 2018
Munetaka Minoguchi

概要

2Dの似顔絵画像から3Dの似顔絵を作成するためのアルゴリズムの提案。似顔絵画像のテストデータとしてはカリカチュアを使用し、カリカチュア画像の3Dモデルとテクスチャ化された画像を生成する。データは、標準の3D顔の変形を座標系に配置(下図、 xは口の開き具合)し、金のオリジナルデータから線形結合によって白い顔を生成する。

新規性・結果・リンク集

カリカチュアを集めたデータセットを作って学習するのではなく、標準の3D顔のデータセットから実装でき、アプリケーションの柔軟さを推している。

3DMMやFaceWareHouseなどの従来手法と比較して、形の歪みが少なく、従来のものよりも綺麗な3D顔の出力が可能。顔以外にも、概形の予測が可能なオブジェクトなら応用できる?

[#77]
Face2Text: Collecting an Annotated Image Description Corpus for the Generation of Rich Face Descriptions
Albert Gatt, et al.
LREC 2018
Munetaka Minoguchi

概要

顔の記述に特化し、より具体的に記載できるイメージキャプショニングの提案。シーン記述のようなオブジェクトやその関係性などではなく、画像から得られた属性に依存した記述となる。データはクラウドソーシングを使ってアノテーションを収集し(The Face2Text dataset)、アノテーションの解析まで行う。

新規性

“顔についてのキャプション”という新しいテーマのデータセットを提案、およびその解析。

結果・リンク集

The Face2Text datasetは、感情的または推論的な属性を含んだアノテーションを含む。

[#78]
Style Aggregated Network for Facial Landmark Detection
Xuanyi Dong, Yan Yan, Wanli Ouyang, Yi Yang, University of Technology Sydney, The University of Sydney
CVPR 2018
Munetaka Minoguchi

概要

顔のランドマーク検出。顔そのもののばらつきの他に、グレースケールやカラー画像、明暗などの画像スタイルが変わっても同様に検出できるStyle Aggregated Network(SAN)の提案。まず、(1)入力画像をさまざまなスタイルに変換し、スタイルを集約し、(2)顔のランドマーク予測する。(2)は、元画像とスタイルを集約した特徴の両方を入力し、融合してカスケード式のヒートマップ予測を生成する。

結果・リンク集

Flickr8kとFlickr30kを使った実験において、最先端モデルと同等かそれ以上の結果。より正確で、より多様なキャプション生成。

[#79]
phi-LSTM: A Phrase-based Hierarchical LSTM Model for Image Captioning
Ying Hua Tan, et al.
ACCV 2016
Munetaka Minoguchi

概要

フレーズベースでの画像キャプショニングを行うphrase-based hierarchical Long Short-Term Memory (phi-LSTM)の提案。(1)画像に関連した名詞句を生成(低レベル)、(2)コーパス内のフレーズと他の単語から適切なキャプションを生成(高レベル)、それぞれの処理に専念するRNNモデルを実装することでフレーズベースを実現している。

新規性

従来までは、オブジェクトを検出/名前付けし、その属性を記述して、その関係/相互作用を認識するモデルが提案されている。従来研究では単語のシーケンスだけでキャプションを生成していたが、本研究ではフレーズと単語の組み合わせのシーケンスとして文章をエンコードする。

結果・リンク集

Flickr8kとFlickr30kを使った実験において、最先端モデルと同等かそれ以上の結果。より正確で、より多様なキャプション生成。

[#80]
Discriminative Learning of Latent Features for Zero-Shot Recognition
Minghui Yan Li, et al
CVPR 2018
Munetaka Minoguchi

概要

Zero-shot learning(ZSL)における、視覚的および意味的インスタンスを別々に表現し学習するLatent Discriminative Features Learning(LDF)の提案。 (1)ズームネットワークにより差別的な領域を自動的に発見することができるネットワークの提案。(2)ユーザによって定義された属性と潜在属性の両方について、拡張空間における弁別的意味表現の学習。

新規性

ZSLは、画像表現と意味表現の間の空間を学習することによって、見えない画像カテゴリを認識する。 既存の手法では、視覚と意味空間を合わせたマッピングマトリックスを学習することが中心的課題。提案手法では、差別的に学習するとうアプローチで識別精度向上を図る。

結果・リンク集

2つのコンポーネントによって、互いに支援しながら学習することで最先端の精度に。

[#81]
Boosted Convolutional Neural Networks
Mohammad Moghimi et al.
BMVC, 2016.
Yuta Matsuzaki

概要

CNNとBoostingのメリットを組み合わせ,BoostingするためのBoostCNNを提案.このモデルを学習するための,重みを更新アルゴリズムを設計.具体的にはBoostingの各反復において,Boostingの重みを近似するためのネットワークの学習を行う.また,異なるネットワークにおいても使用可能であり,優れた性能を示すだけでなく,適切なネットワーク構造を探索するための効率を上げることができると示唆.

新規性

fine-grained認識においてSOTA.

結果・リンク集

[#82]
Rotation-Sensitive Regression for Oriented Scene Text Detection
Minghui Liao, et al.
CVPR 2018
Munetaka Minoguchi

概要

自然画像から文字を検出する。単なる検出ではなく、文字の方向を考慮したバウンディングボックスによる検出手法であるRotation-sensitive Regression Detector (RRD)の提案。回帰ブランチによって、畳み込みフィルタを回転させて回転感知特徴を抽出。分類ブランチによって、回転感性特徴をプーリングすることによって回転不変特徴を抽出。

新規性

文字をテーマにした研究では(1)テキストの向きを無視した分類方法と,(2)向きを考慮したバウンディングボックスによる回帰がある。従来研究では、両方のタスクの共有の特徴を使用していたが、互換性がなかったためにパフォーマンスが低下(図b)。そこで、異なる2つのネットワークから抽出した、異なる特性の特徴を分類および回帰することを提案(図d,e)。

結果・リンク集

ICDAR 2015、MSRA-TD500、RCTW-17およびCOCO-Textを含む3つのシーンテキストのデータセットで最先端のパフォーマンスを達成。向きがある一般物体検出にも応用可能?

[#83]
Weakly-Supervised Action Segmentation with Iterative Soft Boundary Assignment
Li Ding, Chenliang Xu
CVPR 2018

概要

時系列の行動検出/セグメンテーション(Action Segmentation)に関する問題をWeakly-Supervised(WS学習)に解いた。ここではTemporal Convolutional Feature Pyramid Network (TCFPN)とIterative Soft Boundary Assignment (ISBA)を繰り返すことで行動に関する条件学習ができてくるという仕組み。TCFPNではフレームの行動を予測し、ISBAではそれを検証、それらを繰り返して行動間の境界線を定めながらWS学習の教師としていく。さらに、WS学習を促進するためにより弱い境界として行動間の繋がりを定義することでWS学習の精度を向上させる。学習はビデオ単位の誤差を最適化することで境界についても徐々に定まる(ここがWS学習の所以)ように学習する。

180329ISBATCFN

新規性・結果

Breakfast dataset, Hollywood extended datasetにて弱教師付き学習とテストを行いState-of-the-artな精度を達成した。

コメント・リンク集

弱い教師データを大量に集めると、そろそろ(ある程度の)教師ありデータによる精度を超えそう?もっと汎用的に学習できる枠組みが必要か。

[#84]
2018.3.29 14:27:12
COCO-Stuff: Thing and Stuff Classes in Context
Holger Caesar, Jasper Uijlings, Vittorio Ferrari
CVPR 2018

概要

MSCOCOデータセットに対してThing(もの)やStuff(材質)に関する追加アノテーションを行い、さらにコンテキスト情報も追加したCOCO-Stuffを提案した。このデータセットには主にシーンタイプ、そのものがどこに現れそうかという場所、物理的/材質的な属性などをアノテーションとして付与する。COCO2017をベースにして164Kに対して91カテゴリを付与し、スーパーピクセルを用いた効率的なアノテーションについてもトライした。

180329COCOStuff

新規性・結果

材質的なアノテーションは画像キャプションに対して重要であることを確認、相対的な位置関係などデータセットのリッチなアノテーションが重要であること、セマンティックセグメンテーションベースの方法により今回のアノテーションを簡易的に行えたこと、などを示した。

コメント・リンク集

さらにリッチなアノテーションは今後重要になる。この論文ではスーパーピクセルという弱い知識を用い、人間のアノテーションと組み合わせることでボトムアップ・トップダウンを効果的かつ効率的に組み合わせてアノテーションを行っている点が素晴らしい。ラストオーサのVittorio Ferrariは機械と人の協調によるアノテーションが得意(なので、既存データセットへのよりリッチなアノテーションを早いペースで提案できる)。

[#85]
2018.3.29 13:59:43
Semantic Part Detection with Object Context
Abel Gonzalez-Garcia, Davide Modolo, Vittorio Ferrari
arXiv 1703.09529

概要

物体の全体をbboxで検出するのみならず、相対的なパーツ検出も同時に達成した。物体検出・パーツ検出はEnd-to-Endでの学習が可能である。パーツ検出のモデルは図に示す通りである。

180329PartDetection

新規性・結果

ベースラインと比較して+5 mAP @PASCAL-Part dataset/CUB200-2011 datasetを達成した。

リンク集

[#86]
2018.3.29 13:11:12
Show, Tell and Discriminate: Image Captioning by Self-retrieval with Partially Labeled Data (2)
Xihui Liu, Hongsheng Li, Jing Shao, Dapeng Chen, Xiaogang Wang
Submission to ECCV 2018

概要

画像キャプションの研究においてSelf-Retrieval(自己検索?)の機能を追加して学習時の教示することで識別性に優れたキャプションの生成に成功した。Self-Retrievalの効果により、欠損のある画像ーキャプションの対応関係ラベルデータにおいても効率的に学習ができることを示した。識別性に優れたキャプションの生成により、画像中の物体を発見する能力が向上し、より表現力のあるキャプション生成となった。

180326SelfRetrieval

新規性・結果

図を参照。強化学習の枠組みによりSelf-Retrievalの報酬を定義してラベルに欠損を含む状態でもキャプショニングの精度を向上させた。

コメント・リンク集

物体認識や検出、セグメンテーションなどあらゆる精度が向上して来たので、多数決を取るように強化学習を行うとラベルが貧弱でも多少は問題解決に向かうようになるのか?

[#87]
2018.3.26 20:52:24
YOLOv3: An Incremental Improvement
Joseph Redmon, Ali Farhadi
Tech Report

概要

物体検出手法であるYOLO(You Only Look Once)に関する続報であり早くもv3となった。OpenImagesの使用、bboxのスケール間での推定結果統合、スキップコネクション適用や畳み込み層の増加(Darknet-53)など軽微な改良を行ってYOLO自体の精度を向上させ速度を維持した。また、TechReport中にはやってもうまくいかなったこと(Anchor box x, y offset predictions, Linear x,y predictions instead of logistic, Focal loss, Dual IOU threshold and truth assignment)が書かれている。

180327YOLOv3

新規性・結果

精度はSSDとほぼ同等でかつ3倍の速さを実現した。また、Focal Lossを用いて学習したRetina Netとも同等で3倍以上の速さを実現した(YOLOv3-608 57.9 mAP, 51 ms/img vs. RetinaNet-101 57.5, 198 ms/img)。

コメント・リンク集

全体にわたりネタが仕込まれつつも、新規性や学びが含まれている論文。ネタを仕込むことで論文を読ませ、引用に繋げている好例。動画も性能の高さを示しているので参照されたい。さらに、ネットを賑わせすぐに記事が多数アップされる。論文まとめかきづらい、犬はずるい。

[#88]
2018.3.29 09:28:32
Teleoperation of a Robot through Audio-Visual Signal via Video Chat
Hisato Fukuda, Yoshinori Kobayashi and Yoshinori Kuno
HRI'18 LBR
pp. 111-112
Ryota Suzuki

概要

ロボット操作者と対話相手のモデレーションをする遠隔コミュニケーション支援ロボットにおいて,ビデオチャット通信とロボット操作通信の両方を用意するのは, 通信品質を保ちにくく,規模も大きくなり,扱いが難しい. そこで,ビデオチャットの映像に,人間にも直観的に解釈可能なアイコン画像として 遠隔ロボットへのコマンドを埋め込んでしまおうという新たな視点を提案.

Figure1

評価点

ロボットがハートの動きをしている,と人間が知覚しやすくなる.人間とロボットがモーダル・認知を共有しつつ,通信の規模も抑えて実装しやすくする (信頼度の高い既に用意されているビデオチャット通信回線1本あればいい)という一石二鳥の視点が面白い.

リンク集

[#89]
2018.3.29 13:55:50
Deep Reinforcement Learning of Abstract Reasoning from Demonstrations
Madison Clark-Turner and Momotaz Begum
HRI'18
pp. 160-168
Ryota Suzuki

概要

深層強化学習により,人対人インタラクションの高度なダイナミクスにおける一般化ルールの抽出を行う枠組みを提案.音声およびカメラ画像の疎な時系列を入力とし,2エージェント間の動きの介入セッションを規定する規則のセットの学習を行う.

Figure1

評価点

インタラクションのルール付けが深層学習でできるというのが感慨深い.

リンク集

[#90]
2018.3.27 12:18:23
Learning to Judge Like a Human: Convolutional Networks for Classification of Ski Jumping Errors
H. Brock et al.,
Ubicomp 2017

概要

CNNを用いたスキージャンプの評価手法を提案. 体につけたセンサで人の各部位のモーションを計測. センサを付けた位置を縦軸,時間を横軸,センサ種類をチャンネルに取ったモーション画像として CNNに入力してジャンプのエラーの有無を識別.SVMやHMMよりも高い性能を示した. Conv層の数は1と3を比較して,1で十分という結論.

新規性・結果

  • 多次元CNNを用いて複数センサを組み合わせて利用し,識別する手法を提案.

自由記述欄

  • Session 19: Sports 2
[#91]
Kensho Hara
DNN-HMM based Automatic Speech Recognition for HRI Scenarios
José Novoa, Jorge Wuth, Juan Pablo Escudero, Josué Fredes, Rodrigo Mahu and Néstor Becerra Yoma
HRI'18
pp. 150-159
Ryota Suzuki

概要

動くロボットの頭部に載せたマイクで音声認識する場合,ロボットのノイズや環境によるエコーの影響などの認識率低下の要素が多い. そこで,自動音声認識に,音声入力だけでなく,ユーザの音響情報,ロボットの情報,環境情報も与えると, DNN-HMM,少ない学習データでも精度が良くなる.

  1. Clean Database : 英語発話データベースAurora4を別のマイクで録音
  2. Environment-based Database : 25%-ロボット固定,75%-ロボット動きながらロボマイクで録音+ノイズ合成

Figure1

評価点

DNN-HMM+ロボット+音響考慮

(なんか読みづらい)

[#92]
2018.3.27 08:58:36
TOM-Net: Learning Transparent Object Matting from a Single Image
Guanying Chen, Kai Han, Kwan-Yee K. Wong
CVPR 2018 (spotlight)

概要

透明物体の切り抜き(Transparent Object Matting; TOM)と反射特性を推定することが可能なネットワークTOM-Netを提案する。TOM-Netにより、物体の反射特性を保存しながら他の画像にレンダリングして、同画像のテクスチャを反映させることができる。同問題を反射フローの推定問題と捉えてDNNのモデルを構築することで解決した。荒い部分は多階層のEncoder-Decorderで推定し、詳細な部分はResidualNetで調整する。この問題を解決するために、データセットを構築した。

180324TOMNet

新規性・結果

178Kの画像を含むデータセットを構築した。同DBには876サンプル、14の透明物体、60種の背景を含む。透明物体の推定と反射特性のレンダリングはGitHubページを参照。

コメント・リンク集

[#93]
2018.3.24 18:05:46
Multi-Frame Quality Enhancement for Compressed Video
Ren Yang, Mai Xu, Zulin Wang, Tianyi Li
CVPR 2018

概要

圧縮した動画像に対して画質を向上させる研究。Peak Quality Frames (PQFs)を用いたSVMベースの手法やMulti-Frame CNN (MF-CNN)を提案。提案法により、圧縮動画における連続フレームからアーティファクトを補正するような働きが見られた。

180324PQF

新規性・結果

動画の画質改善手法においてState-of-the-art。動画に対する画質改善の結果は図を参照。

リンク集

[#94]
2018.3.24 15:14:35
Don’t count, predict! A systematic comparison of context-counting vs. context-predicting semantic vectors
Marco Baroni, Georgiana Dinu, German Kruszewski
ACL 2014

概要

単語の特徴表現(Word Embedding)を獲得するための手法としてCount-based(カウント手法)とPredict-based(推定手法)があるが両者を比較して各タスクにて比較を行った。結果は推定手法が総合的に高い精度を記録することが明らかとなった。

180324CountPredict

新規性・結果

結果は右に示すとおりである。count(cnt)とpredict(pre)において、大体においてpreの方が高い精度である。

リンク集

[#95]
2018.3.24 14:53:51
Improving word representations via global context and multiple word prototypes
Eric H. Huang, Richard Socher, Christopher D. Manning, Andrew Y. Ng
ACL 2012

概要

自然言語処理におけるコンテキスト学習に関する論文。局所的かつ大域的に文章のコンテキストを捉え、ワードに関する特徴表現(Word Embeddings)をニューラルネットで学習する。ワードに着目した際には複数の表現方法を獲得できるようにも改良。目的関数にはあるワードとその前後の単語の文脈から誤算関数を定義して、着目した単語が有効に学習できるように設定。この問題を解決するため、データセットも新規に提案した。

180324GlobalContext

新規性・結果

従来のコンテキスト学習はある単語とその周辺単語のコンテキストのみしか学習していなかったが、本論文ではよりグローバルなコンテキストを学習できるようにニューラルネットの表現方法を考案。

コメント・リンク集

ローカルコンテキスト、グローバルコンテキストという考え方は面白い。データドリブンでコンテキストというのが学習できる。

[#96]
2018.3.24 14:09:09
Unsupervised learning of common sense event structures from simple English stories
Ken Arnold, Dustin Smith
2008

概要

OMICSコーパスに書いてあるシンプルなストーリー展開から常識を教師なしで学習。コーパスには「手紙を受け取る」「ベッドメイクする」などの日常生活における手続きを英語のナレーションで記述している。異なる文脈で同じイベントが発生した場合にも時系列的な階層構造を構築してイベント/サブイベント間の関係性を把握。

180324CommonSense

新規性・結果

論文にはコンピュータが「常識」のような知識をいかに自然言語から獲得するかが記述されている。

コメント・リンク集

Open Mind Common Sense projectというプロジェクトを発見した。ここを掘り下げても面白いかも?また、文脈の表現はCVよりもNLPのほうが優れているかも。

[#97]
2018.3.24 13:30:39
A Minimalist Approach to Type-Agnostic Detection of Quadrics in Point Clouds
Tolga Birdal, Benjamin Busam, Nassir Navab, Slobodan Ilic, Peter Sturm
CVPR 2018

概要

オクルージョンが発生している場合/複雑な環境下でも簡単な形状がポイントクラウドから検出できる枠組みを提案する。手法は3D楕円形状のフィッティング、3次元空間操作、4点取得により構成。

180324Quadrics

新規性・結果

タイプに依存しない3次元の二次曲面(楕円球形状)検出を点群の入力から行う手法を考案した。さらに、4点探索問題を3点探索にしてRANSACベースの手法で解を求めた。モデルベースのアプローチよりはフィッティングの性能がよいが、キーポイントベースの手法よりは劣る。

コメント・リンク集

曖昧な教示のみで3次元形状探索問題が解決できるようになる?

[#98]
2018.3.24 13:04:44
Actor and Action Video Segmentation from a Sentence
Kirill Gavrilyuk, Amir Ghodrati, Zhenyang Li, Cees G.M. Snoek
CVPR 2018 (oral)

概要

センテンスの入力から、行動者と行動(Actor and Action)を同時に特定する研究である。複数の同様の物体から特定の人物など、詳細な分類が必要になる。ここではFully-Convolutional(構造の全てが畳み込みで構成される)モデルを適用してセグメンテーションベースで出力を行うモデルを提案。図は提案モデルを示す。I3Dにより動画像のエンコーディング、自然言語側はWord2Vecの特徴をさらにCNNによりエンコーディング。その後、動画像・言語特徴を統合してDeconvを繰り返しセグメントを獲得していく。

1803ActorAction

新規性・結果

文章(と動画像)の入力から行動者と行動の位置を特定すべくセグメンテーションを実行するという問題を提起した。また、二つの有名なデータセット(A2D/J-HMDB)を拡張して7,500を超える自然言語表現を含むデータとした。同問題に対してはSoTA。

コメント・リンク集

CVxNLPの問題はここにも進出して来た。画像キャプションに限らず、この手の統合は進められるはず。

[#99]
2018.3.24 12:47:10
Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatio-temporal Patterns
Jianming, Lv and Weihang, Chen and Qing, Li and Can, Yang
CVPR 2018

概要

ラベルなし、ドメインが異なる環境に対して人物再同定を行う手法を提案する。モデルであるTFusionは4ステップにより構築(1)教師あり学習により識別器を構築(2)ターゲットであるラベルなしデータにより時空間特徴パターン(Spatio-temporal Pattern)を学習(3)統合モデルFを学習(4)ラベルなしのターゲットデータにて徐々に識別器を学習する(1〜4は図に示されている)。Bayesian Fusionを提案して、時空間特徴パターンと人物のアピアランス特徴を統合してドメイン変換を行う。

180323CDReID

新規性・結果

従来の人物再同定の設定では比較的小さいデータセットであり、完全に教師ありの環境を想定していたが、本論文ではラベルなし、ドメインが異なる環境に対して人物再同定を実行するため、非常に難しい問題となる。

コメント・リンク集

[#100]
2018.3.23 20:37:22
Towards Universal Representation for Unseen Action Recognition
Yi Zhu, Yang Long, Yu Guan, Shawn Newsam, Ling Shao
CVPR 2018

概要

学習画像がなくても行動認識を実現する「Unseen Action Recognition (UAR)」についての研究。UARの問題をMIL(Multiple Instance Learning)の一般化(GMIL)として扱い、ActivityNetなど大規模動画データから分布推定して表現を獲得。図は提案手法であるCross-Domain UAR (CD-UAR)である。ビデオから抽出したDeep特徴はGMILによりカーネル化される。Word2Vecとの投稿によりURを獲得し、ドメイン変換により新しい概念を獲得する。

180323UAR

新規性・結果

従来法では見た/見てないの対応関係をデータセット中に含ませていたが、本論文での提案はUniversal Representation(ユニバーサル表現)を獲得して同タスクを解決する。

リンク集

[#101]
2018.3.23 19:40:06
Robust Depth Estimation from Auto Bracketed Images
Sunghoon Im, Hae-Gon Jeon, In So Kweon
CVPR 2018

概要

HDRの画像の明るさを補正するためのブラケット撮影からの距離画像やカメラ姿勢を同時推定する手法を提案する論文。ブラケット撮影とは通常の露出撮影以外に意図的に「少し明るめの写真」と「少し暗めの写真」を同時に撮影。距離画像推定は幾何変換をResidual-flow Networkに統合したモデルにより行う。ここでは学習ベースのMulti-view stereo手法(Deep Multi-View Stereo; DMVS)を幾何推定(Structure-from-Small-Motion; SfSM)と組み合わせる。

180323BracketedImages

新規性・結果

距離画像推定において、スマートフォンやDSLRカメラなど種々のデータセットにてSoTAな精度を達成。モバイル環境でも動作するような小さなネットワークと処理速度についても同時に実現した。

リンク集

[#102]
2018.3.23 19:11:04
Inferring Person-to-person Proximity Using WiFi Signals
P. Sapiezynski et al.,
Ubicomp 2017

概要

特別な装置を使うことなくWiFiネットワークの信号を利用して 人と人との接近というインタラクションを検出する手法を提案. 病気の感染の解析とか,ソーシャルグループの解析とかそういう応用が目的. 二人のスマホでのWiFiスキャンの結果を比較して類似度を図ることで接近を検出. 従来手法は単一の尺度を利用することが多かったが, この研究では複数の尺度・特徴量を組み合わることで精度を向上. WiFiとBluetoothの情報があるデータセットを用いて,Bluetoothを真値としてWiFi特徴からの接近検出を学習. 提案手法が高い性能を示すことを実験的に確認.

新規性・結果

  • WiFiネットワークとスマホから人と人との物理的な接近の検出を実現
  • 統制された環境ではないデータでも提案手法が有効に働くことを実証

自由記述欄

  • Session 7: WiFi Sensing
[#103]
Kensho Hara
CSGNet: Neural Shape Parser for Constructive Solid Geometry
G. Sharma et al.,
arXiv
1712.08290

概要

ピクセルボクセルなどのLow-levelな表現ではなく, Illustratorなどで使うような円,三角形といった高次の表現でのParsing. Constructive Solid Geometry (CSG) というモデリングをベースを利用. 入力された画像や3次元形状をCSG Engineで扱うプログラムに分解する手法を提案. CNNでEncodingした後にRNNでプログラムにDecoding. CSG Engineで作成した人工的データを用いた教師あり学習と, 入力と,DecodeしたプログラムをEngineで出力したものとの差分を元に計算する報酬ベースの教科学習でモデルを学習. 両学習手法の組み合わせでより高い精度を実現可能なことを示した.

新規性・結果

  • 高速かつ効果的なCSGプログラムの推定手法を提案
  • 強化学習によりプログラムの教師情報なしの学習を実現

自由記述欄

  • CVPR2018に採択されている
  • さすがにこういう新しくて面白い問題設定だと比較手法がNearest Neighborでも文句は言われない模様
[#104]
Kensho Hara
Affective image adjustment with a single word
Xiaohui Wang, Jia Jia, Lianhong Cai
The Visual Computing 2013
Kazuki Inoue

概要

画像の色を特定の感情を想起するように変換する手法。入力は画像と感情を表す単語であり、入力感情を表すように画像の色が変換される。感情形容詞に対してカラーパレットが定義付けられたデータを使用し、色と感情の距離を計算することで画像に適用する。

affective_image_adjustment

新規性・結果

1024x768の画像を1秒以下で生成可能。提案手法によって生成された画像と、アーティストによって作成された作品を、1)入力感情が表されているか、2)画像の見た目として自然か、という観点でユーザに採点を行ってもらったところ、提案手法が優位な結果となった。

コメント・リンク集

単語間の距離を学習しているため、トレーニングデータセットにない単語の入力も可能。感情から5色のカラーパレットへ変換するが、入力画像が6種類以上の色相を持つ場合には生成画像が不自然になる。適応的に色数を変更していきたい、と主張。

[#105]
Detecting and Recognizing Human-Object Interactions
Georgia Gkioxari, Ross Girshick, Piotr Dollár, Kaiming He
CVPR 2018 (spotlight)

概要

人物検出と同時に人物行動やその物体とのインタラクションも含めて学習を行うモデルを提案する。本論文では物体候補の中でも特にインタラクションに関係ありそうな物体に特化して認識ができるようにする。さらに、検出されたのペアを用いて学習する(図の場合には)。さらに、その他の行動(図の場合にはstand)を同時に推定することもできる。モデルはFaster R-CNNをベースとするが、物体検出(box, class)、行動推定(action, target)、インタラクション(action)を推定して誤差を計算する。さらに、推定した人物位置に対する対象物体の方向も確率的に計算することが可能。

180322HOI

新規性・結果

人間に特化した検出と行動推定の枠組みを提案した。V-COCO(Verbs in COCO)にて、相対的に26%精度が向上(31.8=>40.0)、HICO-DETデータセットにて27%相対的な精度向上が見られた。計算速度は135ms/imageであり、高速に計算が可能である。

コメント・リンク集

単純な多タスク学習ではなく、人物に特化して対象物体の位置も確率的に推定しているところがGood。

[#106]
2018.3.22 19:55:34
Multiple-Human Parsing in the Wild
Jianshu Li, Jian Zhao, Yunchao Wei, Congyan Lang, Yidong Li, Terence Sim, Shuicheng Yan, Jiashi Feng
arXiv 1705.07206

概要

複数の人物に関する、パーツごとのセマンティック/インスタンスセグメンテーションを提案する。この問題に対してデータセットであるMultiple Human Parsing (MHP)データセットや認識のモデルを同時に提案する。データセットに関しては人物に関する18カテゴリ(7が人体、11が服装に関するカテゴリ)、4,980画像、2~16人/画像、計14,969人で構成される。モデルであるMH-ParserはDeepLab-ResNet-101によりパージング、graph-GANによりAffinity Mapを推定してセマンティックのみならずインスタンスのセグメンテーションを高度に解決する。

180322MHP

新規性・結果

従来のデータセットであるLIPやATRなどと比較すると人物数が多いわけではないが、「複数人」が1画像に映り込んでいるという意味で利点がある。Mask R-CNNとの比較において、全てのデータを含んだ精度ではComparativeであるが、Top-20/-5の精度ではMH-Parserが高い精度を実現した。

コメント・リンク集

人物の解析はより詳細になりつつある。

[#107]
2018.3.22 19:33:35
Learning to Localize Sound Source in Visual Scenes
Arda Senocak, Tae-Hyun Oh, Junsik Kim, Ming-Hsuan Yang, In So Kweon
CVPR 2018

概要

画像と音声の入力から、音が画像のどこで鳴っているか(鳴りそうか?)を推定した研究。さらに、人の声なら人の領域、車の音なら車の領域にアテンションがあたるなど物体と音声の対応関係も学習することができる。学習には音源とその対応する物体の位置を対応づけたデータセット(144Kのペアが含まれるSound Source Localization Dataset)を準備した。さらに既存の物体認識と音声を対応づけて(?)Unsupervised/Semi-supervisedに学習することにも成功した。

180322LocalizeSound

新規性・結果

教師あり、教師なし、半教師あり、いずれの枠組みでも音声ー物体の対応関係を学習することができるようにした。音源とそれに対応する物体領域の尤度がヒートマップにて高く表示されている。結果はビデオを参照されたい。教師なし学習はTriplet-lossにより構成され、ビデオと近い/遠い音声の誤差により計算。

コメント・リンク集

非常に面白い問題設定、プラス誤差関数を柔軟に抽出可能というところが上手。精読しても良いと感じた論文。CVにおいてビデオの音声は今まで使用しないことも多かった(もしくは精度向上のために活用していた)が、これからは使用方法を見直してもよいと感じた。

[#108]
2018.3.22 19:18:32
Training of Convolutional Networks on Multiple Heterogeneous Datasets for Street Scene Semantic Segmentation
P. Meletis, G. Dubbelman
IEEE IV 2018 submission

概要

セマンティックセグメンテーションに関して異なる複数のデータセットを統合して学習する枠組み(Heterogeneous Learningと呼ぶ)を提案する。本稿ではCityscapes, GTSDB, Mapillary Vistasという公開DBを統合してモデルを学習。また、階層的モデルは畳み込み特徴を共有し、各データセットからそれぞれラベルを学習して誤差をフィードバックしながらモデルを学習する(これによりデータセット間でラベルのあり/なしを相殺しながら学習、カテゴリ数が異なる場合にも学習を強化できる)。

180322Heterogeneous

新規性・結果

3つの異なるデータベースから知識を(Heterogeneous学習で)統合することにより、最終的には108カテゴリの階層的な分類をセマンティックセグメンテーションの枠組みで行うことができた。

コメント・リンク集

各大学、企業などが独立に集めているデータセットも統合し続けたら無限にカテゴリが増えて行くのか?細切れのデータを結集させてさらに強いデータにして行くという枠組みも今後は必要か?

[#109]
2018.3.22 18:52:15
Fusing Hierarchical Convolutional Features for Human Body Segmentation and Clothing Fashion Classification
Zheng Zhang, Chengfang Song, Qin Zou
arXiv, 1803.03415

概要

ファッションにおいて各年のコレクションから収集したファッションスナップをデータベース化。服装も含めた人物領域のセグメンテーションや8カテゴリ(2008~2015)のYearを識別する問題に落とし込んだ。この問題を解決するため、多階層の特徴抽出を行い、統合することによりセグメントとラベルを判断した。

180322Fashion8

新規性・結果

全9339枚の画像から構成される8年分のファッションDB、Fashion8を提案、ファッションセグメンテーションや識別を行うためにEnd-to-End/Multi-scaleのアーキテクチャを提案。

コメント・リンク集

学習によりファッションが出てきた年を当てるのは?だが、同時に付与されているファッションブランドを当てる問題はある程度できそう。

[#110]
2018.3.22 18:31:05
Learning Category-Specific Mesh Reconstruction from Image Collections
Angjoo Kanazawa,Shubham Tulsiani,Alexei A. Efros,Jitendra Malik
arXiv, 2018
Hirokatsu Kataoka

概要

一枚絵の画像から3次元形状、カメラパラメータ、テクスチャを推定して物体の構造を再現するという研究。シルエット、3次元キーポイント、テクスチャを推定して誤差を計算、ネットワークを学習する。Neural 3D Mesh Rendererに発想が近い研究である。

180322CMR

新規性・結果

右図を参照。3次元形状(shape)、カメラパラメータ(camera)、テクスチャ(texture)の推定を統合して形状のみならず色やその構造まで復元できている。

コメント・リンク集

バークレーで2D画像から3D画像を復元する研究が進んでいるが、カテゴリを限定すれば3次元構造が復元できるまでになって来た。次はカテゴリフリー(カテゴリも推定しながら)で構造理解ができるようになりそう。

[#111]
2018.3.22 08:56:48
Learning from Physical Human Corrections, One Feature at a Time
Andrea Bajcsy, Dylan P. Losey, Marcia K. O'Malley, Anca D. Dragan
HRI'18
pp. 141-149
Ryota Suzuki

概要

図は,テーブルに腕を近づける動きをさせているが,意図せずコップの向きも変えてしまっている.このままではロボットはこの二つを同時に学習してしまうが,本来は対テーブルの動きのみ学習すべきである. そこで,意図しない動きを抜いた動きを使ってロボットの動きを学習しようという試み.

意図する動きがメジャーを取っているという仮定のもと,その時々で,ロボットの軌跡の修正に関わる特徴のうち一つだけを使って,あとはゼロにしてしまう(One feature at a time)ことで実現する.

Figure1

評価点

簡単だが面白いアイデアで,しかも実際にうまくできているという大変興味深い論文.まさに真理を突いた研究といえる.

リンク集

[#112]
2018.3.19 18:00:31
Understanding Deep Image Representations by Inverting Them
Aravindh Mahendran and Andrea Vedaldi
in CVPR 2016

概要

特徴量から元画像復元することで、その特徴量への圧縮によって失われる情報やその特徴量が捉えているものを可視化する研究。 特徴量としてはCNN以外にも、微分可能な処理として定義されるHOGやSIFTについても利用できる。 CNNの位置普遍性や深いfc層にも画像情報がかなり含まれていること受容野外との関係やチャネルごとの役割の違いなどがわかった。

手法

ある(CNNの場合、学習済み )モデルから得られる特徴量のMSEを最小化するように入力画像に対してSGDによって勾配を計算して再構成を行う。 画像を自然らしく生成するために、上記MSE以外にtotal variance(TV)制約項を損失関数に導入する。

自由記述欄

コメント・リンク

全結合層にも画像情報がかなり含まれているなど、興味深い結果が多かった。一方、可視化結果から特徴量の情報を得られるわけではなく、その特徴量となりうる入力画像の「集合」を見て初めて何を特徴量化しているかがわかってくる気がした。
[#113]
Tomoyuki Suzuki
Illumination-aware Faster R-CNN for Robust Multispectral Pedestrian Detection
Chengyang Li, Dan Song, Ruofeng Tong, Min Tang
arXiv:1803.05347

概要

昼夜問わず歩行者を検出する枠組みを考察する。本稿ではRGBや温度センサの入力から、いかにネットワークを構築して良好な特徴を評価するかについて、6つのネットワーク((a) Input Fusion, (b) Early Fusion(c) Halfway Fusion (d) Late Fusion (e) Score Fusion I (f) Score Fusion II)を比較した。この枠組みの中でさらに、Illumination-aware Faster R-CNN(IAF R-CNN; 右図)を提案して夜間の歩行者検出でも良好な精度を実現した。なお、本論文ではKAIST Multispectral Pedestrian Benchmarkを用いて検証をおこなった。

180315IAFRCNN

新規性・結果

Halfway fusion(Error-rate: 17.57%), Score Fusion I(17.43%)あたりが性能が良かった。IAF R-CNNではエラー率16.22%であった。

コメント・リンク集

自動運転では昼夜問わずの歩行者検知が重要である(ということは言うまでもないが意外とできていない)。データセットを作成する際には温度カメラやステレオ、レーダセンサとRGBカメラを組み合わせるのが一般的になってきた?

[#114]
2018.3.15 20:27:41
Learning from Richer Human Guidance: Augmenting Comparison-Based Learning with Feature Queries
Chandrayee Basu, Mukesh Singhal and Anca D. Dragan
HRI'18
pp. 132-140
Ryota Suzuki

概要

所望の機能をロボットに学習させるにあたり,軌跡表示はよい情報提供となるものの,ユーザに見せるには難しい.ただの比較クエリへの回答(どっちの軌跡が良いか?)はユーザには大分簡単なので,効果的な代替手法として使われてきた. しかし,比較は情報量に乏しい.やっぱりもっとリッチな情報が欲しい.

特徴クエリによる比較の拡張に焦点を行ってみる.

シミュレーションと本物ユーザ両方で試した.リッチで特徴拡張なクエリは早くて,よりマッチしたユーザ選択を導くことが分かった.

Figure1

評価点

ユーザに特徴を追加した(情報量増やした)クエリを作るという形式は,インタラクションとしては挑戦的に感じる.「無回答(わからない)」を回答してもよいとか,同じクエリに毎回異なる回答をするユーザを想定するところがちゃんとやっている感じがする.

イントロでContribution並べているCVPR感.

リンク集

[#115]
2018.3.19 14:49:23
Deep Affordance-grounded Sensorimotor Object Recognition
S. Thermos et al.,
CVPR 2017

概要

物体のアピアランス (sensory) と人と物体のインタラクション (motor) の情報を組み合わせて 物体認識するSensorimotor Object Recognitionにおいて,Deep Learningを導入した手法を提案. 物体のアピアランスを捉えるストリーム (Colorized Object Depth Map) と, インタラクションを捉えるストリーム (Colorized Hand Depth Map & Hand 3D Flow Magnitude) を組み合わせて利用. 様々なFusionの方法を比較した結果,図の(d)に対応するMulti-level Slow Fusionが最高精度を達成. 新たなデータセットの提供もしている他, 提案アーキテクチャは神経科学などの知見と合わせて議論されている.

新規性・結果

  • Sensorimotor Object RecognitionにCNNを導入
  • RGB-D物体認識の新しい大規模データセットを提供

自由記述欄

  • 普通にDeepでやりましたという論文にも見えてしまうけど論文の書き方が上手いのか?
[#116]
Kensho Hara
Colorful Image Colorization
Richard Zhang, Phillip Isola, Alexei A. Efros
ECCV 2016

概要

グレースケール画像への色づけ、およびそれに伴う表現学習手法。 MSEやMAEでの単純なカラー画像回帰はその平均的な色へ収束するため、彩度が低い画像になりやすい。 そこで色の出現頻度に応じた損失重み、分布を再現する出力、Lab空間での処理を行うことで高い彩度を実現し、 チューリングテストでSoTA。表現学習でも特にsegmentationで高い性能を発揮した。

手法

分布としての出力を行うために、Lab空間を313に分割し、単純に画素値を出力させるのではなく識別問題とする。 また、出力された分布から最終的な色を決めるとき、最頻値や平均をとるなど複数の手段が考えられるが、今回はアニーリングをした後、 その分布の平均を取っている。アニーリングで平均に近づくほど彩度が失われるが、最頻値に近づくほど空間的整合性が失われる。

自由記述欄

コメント・リンク

おそらく今のSoTAはGANベースだが、出力値の分布化や、アニーリングによる連続的なトレードオフの考慮は興味深い。
[#117]
Tomoyuki Suzuki
Active Robot Learning for Temporal Task Models
M. Racca and V. Kyrki
HRI'18
pp. 123-131
Ryota Suzuki

概要

タスク実行に関する,自然言語によるユーザー表現のモデル化を行うアクティブラーニングの枠組みを提案.タスクの時系列に対する素人ユーザの表現を学習する. 以下のような質問を行い,ディリクレ多項モデルなどでモデル化し,逐次アップデートしていく.

  • 「タスクA」の後に,「このくらいの頻度で」「タスクB」をやりますか?
  • 「タスクA」の後に,どちらかといえば「タスクB」「タスクC」のどちらをやりたいですか?
  • 「このくらいの頻度で」「タスクA」から始めますか?
  • どちらかといえば「タスクA」「タスクB」のどちらから始めたいですか?

Figure1

評価点

他手法に比べ,時系列変化を考慮に入れていることが新しい点とのこと.

ロボットとの対話の中で,ロボットとの協議でユーザの傾向を測るのは,あるべきパラダイムであろう.時変化という制約を付けたことでインタラクション的にも機械学習的にもうまくいくデザインが見つかったのは価値があると思う.

リンク集

[#118]
2018.3.19 13:49:03
VIDEO (LANGUAGE) MODELING: A BASELINE FOR GENERATIVE MODELS OF NATURAL VIDEOS
Marc’Aurelio Ranzato et al.,
2014

概要

言語処理などで行われる時系列生成モデリング(過去フレームを条件とした先フレーム 生成)を動画に対して行う問題設定とそのベースラインの提案。 MSEやMAEではブラーが起きてしまうため、patchをk-meansクラスタリングし、所属するクラスタを予測することで分布を再現する。 本論文では”予想できること”を目標にしている。

新規性・結果

画像は連続空間であるため、P(xt|x[1:t-1])の分布を再現するのが難しくMSEやMAEのが用いられてきたが、クラスタリングによって離散化することで識別問題に帰着させた。 定量評価は主にperplexityを用いており、言語モデルを参考にしている。通常のrNNとrCNN(畳み込みでのRNN)などで評価を行っており、従来手法との比較はほぼない(できない)

自由記述欄

コメント・リンク

アーキテクチャのlimitationは割と大きい。行動認識など、表現学習の枠組みでの精度評価も気になった。
[#119]
Tomoyuki Suzuki
Low-resource Multi-task Audio Sensing for Mobile and Embedded Devices via Shared Deep Neural Network Representations
P. Georgiev et al.,
Ubicomp 2017

概要

複数タスクを共通の層を使って特徴抽出して解くMulti-task Learningにより, 少ない消費電力でのオーディオセンシングを実現する手法を提案. Amazon Echoなどのスマートスピーカで音声認識に加えてその他タスクを同時に実行する必要がある. そのような状況で効率的に動くためのDeep Learningの手法を提案している. 評価実験では話者認識,感情認識,ストレス認識,環境音認識の4タスクを扱い, タスクごとに独立でやる場合に比べてマルチタスクで処理したときの有用性を評価. マルチタスクにすることで精度を大きく落とすことなく少ない消費電力での認識が可能なことを示した.

新規性・結果

  • オーディオ認識系の複数タスクを同時に学習するためのフレームワークを提案
  • マルチタスクで解くことでの少消費電力での認識を実証

自由記述欄

  • Session 5: Machine Learning
  • Multi-taskでやったときの電力消費とかに注目して分析してるのがUbicompっぽい
  • 技術的なContributionは主張してるけどそこまで大きくないように見える
[#120]
Kensho Hara
Devices and Data and Agents, Oh My: How Smart Home Abstractions Prime End-User Mental Models
M. Clark et al.,
Ubicomp 2017

概要

Smart Homeについてユーザがどのようなものを求めているかのデータを集めて提供. Capabilities (Data or Device) と Personification (Unmediated or Agent-mediagetd) の2軸で 4通りのAbstractionを定義. 扱えるデバイスを提示するか提供されるデータを提示するかの軸と, SiriのようなAIが介するかどうかの軸. 4つのうちの1つをユーザに提示して,どのようなアプリケーションが欲しいかを記述してもらう. そのデータからユーザが何を求めているかを分析.

新規性・結果

  • Smart Home (IoT) における4つのAbstractionを提案
  • 提示するAbstractionによってユーザの求めるものは大きく変化することを実証

自由記述欄

  • Session 3: Software Enginnering
[#121]
Kensho Hara
FootStriker: An EMS-based Foot Strike Assistant for Running
F. Daiber et al.,
Ubicomp 2017

概要

ランニングの支援をするウェアラブルシステムを提案. 走るときにかかとから着地と負担が大きく怪我につながりやすいので, 足先や中心の方から着地する方が良いとされている. そういう走り方を身につけるためのシステムを提案. インソールに仕込んだ圧力センサでかかとからの着地を検出して, 足に付けたEMSで電気信号によりフィードバックする. スローモーションビデオを見せて言葉で教えるよりも, システムを使ったほうがかかとからの着地が減少し, 良い走り方を身につけるのに有効なことを示した.

新規性・結果

  • ランニング時の着地方法の改善を目的としたウェアラブルシステムを提案
  • リアルタイムフィードバックで従来のコーチング手法よりも良い結果を実現

自由記述欄

  • Session 2: Sports 1
[#122]
Kensho Hara
BlindType: Eyes-Free Text Entry on Handheld Touchpad by Leveraging Thumb’s Muscle Memory
C. Seim et al.,
Ubicomp 2017

概要

入力画面を見ないでキー入力するときの入力方法に関する研究. 大画面を見たり,HMDをつけたりしながら手元のスマホなどで入力することを想定. 入力はQWERTYのバーチャルキーボード. 1キーずつ独立に入力判定をする方法 (Absolute) と, 前のタッチ位置との相対位置から入力判定する方法 (Relative) の2種類を検討. 加えて,ユーザごとにキーボードサイズや位置を学習するPersonalと そうしないGeneralの2パターンを合わせて,組み合わせの4通りを比較. Personalizeはされている方が良いし,Relativeの方が良いという結論. 実際にキーボードを見ながら入力するのに近い結果を得た.

新規性・結果

  • ユーザに合わせたキーボードモデルの学習手法を提案
  • Eyes-freeでのタイピングデータをユーザスタディで獲得
  • ユーザスタディの結果から,入力アルゴリズムを提案

自由記述欄

  • Session 1: Input Methods
[#123]
Kensho Hara
Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles
Mehdi Noroozi et al.
in ECCV 2016
Tomoyuki Suzuki

概要

一枚画像から作成されるジグソーパズルを解くことで表現学習を行う。SiameseNetを用い、9×9のpermutationの識別を解く(実際にはハミング距離などが考慮された1000通りのpermutationに限定)。タイルの境界部分などの低レベルな特徴によってとかないよう、境界を消すような前処理を行う。

手法・結果

既存手法として中心タイルからの相対位置8クラス分類などの表現学習方法が存在したが、難度が高すぎた。本手法ではpermutationの限定、すべてのタイルを入力として使用することで難度を調整している。様々なタスクの表現学習においてSoTA。

コメント・リンク

表現学習にはタスク自体の難易度の調整は重要そう。本研究でも、permutationの数、ハミング距離などが大きく影響していた。
[#124]
Dynamic Vision Sensors for Human Activity Recognition
Stefanie Anna Baby, Bimal Vinod, Chaitanya Chinni, Kaushik Mitra
ACPR 2017

概要

フレームレートを修正できるカメラDynamic Vision Sensors (DVS)により行動認識を行う。DVSはピクセル値の変化のみによりON/OFFを切り替え画素値を記録する仕組みで、フレーム間差分を撮像するような画像を入力できる。HD画像を記録した場合でもストレージの消費が抑えられる。本論文ではモーションを記録するために画像スライス(x-y, x-t, y-tの空間)を記録する。

180315DVS

新規性・結果

Motion boudary histogram (MBH)との統合により良好な精度を実現した。UCF11にて0.6727, MBHとの統合により0.7513(RGB画像では0.7933)。DVS gesture datasetではMBHとの統合により0.9880。

リンク集

[#125]
2018.3.15 09:17:35
Future Frame Prediction for Anomaly Detection -- A New Baseline
Wen Liu, Weixin Luo, Dongze Lian, Shenghua Gao
CVPR 2018

概要

先の(未来の)フレーム予測と異常検知を同時に行う手法を提案する論文。予測したフレームと異常検知の正解値により誤差を計算して最適化を行う。図に本論文で提案するネットワークアーキテクチャの図を示す。U-Netにより画像予測やさらにオプティカルフロー推定を行い、RGB空間、オプティカルフロー空間にて誤差を計算しGANの枠組みでそれらがリアルかフェイクかを判定する。同フレームを用いて異常検知を実施する。

180315PredictionAnomaly

新規性・結果

従来は現在フレームを入力として異常検知を行う手法は存在したが、未来フレームを予測して異常検知を行う枠組みは本論文による初めての試みである。異常値の正解値を与えることで画像予測にもフィードバックされるため、画像予測と異常検知の相互学習に良い影響を与える。オープンデータベースにてベンチマークした結果、何れもState-of-the-artな精度を達成。

コメント・リンク集

生成ベースで画像予測+X(Xは任意タスク)というものはSoTAが出せるくらいにはなってきた。

[#126]
2018.3.15 09:04:03
3D Human Pose Estimation in RGBD Images for Robotic Task Learning
Christian Zimmermann, Tim Welschehold, Christian Dornhege, Wolfram Burgard, Thomas Brox
ICRA 2018

概要

RGB-Dセンサによる入力から、人物の3次元キーポイントを検出して、可能であれば手領域の法線ベクトルを抽出する。手領域はロボット操作に活用してデモンストレーションを実行する。図に示すアーキテクチャでは、主に姿勢推定(2D Keypoint Detector)、3次元への投影(VoxelPoseNet)、手領域の法線ベクトル推定(HandNormalNet)から構成される。姿勢推定はOpenPoseを活用、VoxelPoseNetは3次元のL2ノルム誤差により計算する。

1803153DHumanPose

新規性・結果

実環境におけるデモンストレーションではロボットPR2を用いて人物の把持行動を教師としてマニピューレーションタスクを模倣した。実験はMulti View Kinect DatasetやCaptury Datasetにておこなった。

コメント・リンク集

コンピュータビジョンを用いてロボット操作を実現できる敷居が下がって来た?逆に、ICRA2018なんかではコンピュータビジョン研究者が一気に増えて分野間のシームレス化が進んでいるのでは?

[#127]
2018.3.15 08:43:30
Independently Recurrent Neural Network (IndRNN): Building A Longer and Deeper RNN
Shuai Li, et al.
CVPR 2018
Munetaka Minoguchi

概要

新しいRNN手法であるindependently recurrent neural network (IndRNN)の提案。一枚のレイヤ内のニューロンが独立しており、レイヤ間で接続されている。これにより、勾配消失問題や爆発問題を防ぎ、より長期的なデータを学習することができる。また、IndRNNは複数積み重ねることができるため、既存のRNNよりも深いネットワークを構築できる。

新規性

本手法によって下記の従来手法の問題を解決。

RNNは、勾配の消失や爆発の問題、長期パターンの学習が困難である。LSTMやGRUは、上記のRNNの問題を解決すべく開発されたが、層の勾配が減衰してしまう問題がある。また、RNNは全てのニューロンが接続されているため、挙動の解釈が困難。

結果・リンク集

かなり長いシーケンス(5000回以上の時間ステップ)を処理でき、かなり深いネットワーク(実験では21レイヤー)を構築できる。

[#128]
Improving Object Localization with Fitness NMS and Bounded IoU Loss
Lachlan Tychsen-Smith, et al.
CVPR 2018
Munetaka Minoguchi

概要

既存のNon-Max Supressionを改良したFitness NMSの提案。Soft NMSも同時に使用するとより効果的。

勾配降下法の収束特性(滑らかさ、堅牢性など)を維持しつつ、IoUを最大化するという目標により適した損失関数であるBounded IoU Loss の提案。これをRoIクラスタリングと組み合わせることで精度が向上する。

新規性

バウンディングボックスのスコアを算出する関数を拡張する。具体的には、グランドトゥルースとのIoUと、クラスの期待値を追加する。これにより、IoUの重なり推定値と、クラス確率の両方が高いバウンディングボックスを優先して学習することができる。

結果・リンク集

MSCOCO、Titan X(Maxwell)使用時では、精度33.6%-79Hzまたは41.8%-5Hz。本論文ではDeNetでテストしたが、別の手法でも精度向上が望めるよう。

[#129]
Object Recognition with and without Objects
Zhuotun Zhu, Lingxi Xie, Alan L. Yuille
IJCAI 2017

概要

物体認識を行う際にコンテキスト情報(ここでは背景領域の特徴)が少なからずヒントとして効いているのでは?という疑問を解決するための検証。通常の物体検出データセット(OrigSet)をbboxのアノテーションを参考にして前景領域(FGSet)と背景領域(BGSet)に分けて精度を確認した。コンテキスト情報は特徴として非常に強く、物体が隠されている場面でも物体認識ができることを示唆した。

180314WithoutOBJ

新規性・結果

AlexNetを用いた場合、OrigSetよりもBGSet(背景領域のみ)の方が精度が高いこともあることが判明した。さらに、BGSetはFGSet(前景領域のみ)よりも大体において良好な性能を実現している。このことからも背景領域におけるコンテキストは無視できないものとなった。

コメント・リンク集

行動認識における調査"Human Action Recognition without Human"も合わせて読んでおきたい。

[#130]
2018.3.14 12:12:33
Rethinking Feature Distribution for Loss Functions in Image Classification
Weitao Wan, Yuanyi Zhong, Tianpeng Li, Jiansheng Chen
CVPR 2018 (spotlight)

概要

本論文ではLarge-margin Gaussian Mixture (L-GM) Lossを提案して画像識別タスクに応用する。Softmax Lossとの違いは、学習セットにおけるディープ特徴の混合ガウス分布をフォローしつつ仮説を設定するところである。識別境界や尤度正則化においてL-GM Lossは非常に高いパフォーマンスを実現している。

180314LGM

新規性・結果

L-GM Lossは画像識別においてSoftmax Lossよりも精度が高いことはもちろん、特徴分布を考慮するため例えばAdversarial Examples(摂動ノイズ)などにおいても対応できる。MNIST, CIFAR, ImageNet, LFWにおける識別や摂動ノイズを加えた実験においても良好な性能を確かめた。

コメント・リンク集

Softmax Lossよりも有意に精度向上が見られている。導入が簡単なら取り入れて精度向上したい。

[#131]
2018.3.14 11:04:45
Domain Adaptive Faster R-CNN for Object Detection in the Wild
Yuhua Chen, Wen Li, Christos Sakaridis, Dengxin Dai, Luc Van Gool
CVPR 2018

概要

ドメイン変換について、ゲームなどのCG映像から実際の交通シーンに対応して物体検出を行うための学習方法を提案する。本論文では(i) 画像レベルのドメイン変換、(ii) インスタンス(ある物体)に対してのドメイン変換、の二種類の方法を提案し、整合性をとるように正規化する(図のConsistency Regularization; Global/Localな特徴変換を考慮)。ここで、物体検出はFaster R-CNNをベースとしてドメイン変換の手法も二種類(H-divergence、敵対的学習)用意する。

180314DomainFRCNN

新規性・結果

CGで学習し実環境における自動運転などで使えるドメイン変換の手法を提案した。実験はCityscapes, KITTI, SIM10Kなどで行い、ロバストな物体検出を実行することができた。例えばCityscapesとKITTIの相互ドメイン変換でベースラインのFaster R-CNNが30.2 (K->C)、53.5 (C->K)のところ、Domain Adaptive Faster R-CNNでは38.5 (K->C)、64.1 (C->K)であった。

コメント・リンク集

データ収集は手動から自動の時代になって来た?データを手作業で集める時代からアルゴリズムを駆使して収集する時代へ移行。

[#132]
2018.3.14 08:43:53
Guided Labeling using Convolutional Neural Networks
Sebastian Stabinger, et al.
CVPR 2018
Munetaka Minoguchi

概要

ラベルの付いていないデータに対して、どの画像にラベルを付けてデータセットを構成すればよいかを判断するguided labelingの提案。ラベル付けを行う必要があるサンプルを見定めることで、データセットの量を大幅に減らすことができる。

新規性

大規模データセットにおいて、手動でのラベル付けは大変。選別してラベル付けを行えば、作業を最小限に抑えられる。また、ある意味良いデータを選別できるため、場合によっては精度も向上。

MNISTは、データセットのサイズを1/16に、CIFAR10は1/2に減らすことが可能に。また、MNISTの場合は、全部使った時よりも識別精度が向上した。普遍性を妨げる不必要なデータを取り除けたことが精度向上につながった?

[#133]
Pose-Robust Face Recognition via Deep Residual Equivariant Mapping
Kaidi Cao, Yu Rong, Cheng Li, Xiaoou Tang, Chen Change Loy
CVPR 2018
Munetaka Minoguchi

概要

横顔の認識精度を高めるためにDeep Residual EquivAriant Mapping (DREAM)の提案。正面と側面の顔間のマッピングを行うことで特徴空間を対応付ける。これにより、横顔を正面の姿勢に変換して認識を単純化。

新規性・手法・リンク集

正面と側面のトレーニング数の不均衡から、現代の顔認識モデルの多くは、正面と比べて横顔を処理するのが比較的貧弱。本手法は姿勢変動を伴う顔認識に限定されない顔認識が可能で、横顔のデータを増やさなくても精度向上。

上図より、DREAMをCNNに追加し、入力に残差を動的に追加。下図はマッピングによる姿勢変換の例。

[#134]
SPICE: Semantic Propositional Image Caption Evaluation
Peter Anderson, et al.
ECCV 2016
Munetaka Minoguchi

概要

画像の意味や内容が、キャプション評価の重要な要素であると仮定し、シーングラフへのマッピングを用いて評価するSemantic Propositional Image Caption Evaluation(SPICE)の提案。これにより、出力したキャプションがオブジェクト、属性およびそれらの関係をいかに表現できていいるかを測ることができる。

新規性・手法

既存の評価では、主に人間によるキャプションに近いかどうかをシミュレートするタスクとしては微妙なところ。

図中の、上の依存性解析ツリーからオブジェクト(赤色)、属性(緑色)、および関係(青色)を取得し、右のシーングラフにマッピングする。候補シーングラフと参照シーングラフのタプルで計算されたFスコアを用いてキャプションのクオリティを算出。

結果・リンク集

Bleu、METEOR、ROUGE-L、CIDErなどの既存のn-gramメトリクスよりも、人間が判断したかのように評価することができる。しかし、課題はまだまだある。

[#135]
Semantic Compositional Networks for Visual Captioning
Zhe Gan, et al.
CVPR 2017
Munetaka Minoguchi

概要

意味的概念(タグ)を画像から取得し、各タグの確率をLSTMのパラメータとして使用することでイメージキャプショニングを行うSemantic Compositional Network (SCN)の提案。SCNは、LSTMの重みをタグの情報を含んだ重みに拡張する。タグには確率が設けてあり、大きければ大きいほどタグをLSTMに反映させる。

新規性・手法

従来のRNNに、意味的特徴を追加したイメージ。LSTMに“単語”と“状態”を入力する際に、意味的特徴を追加していく。通常の入力と意味的情報を追加したものを重み行列のアンサンブルと呼んでいる。

結果・リンク集

COCO、Flickr30k、Youtube2Textの3つのデータセットで、最先端の手法よりも優れている。

[#136]
TSSD: Temporal Single-Shot Detector Based on Attention and LSTM for Robotic Intelligent Perception
Xingyu Chen, Zhengxing Wu, Junzhi Yu
Submitted to IROS 2018

概要

アテンションとConvLSTM構造を参考にして時系列のROI検出器であるTemporal Single-Shot Detector (TSSD)を構築して、ロボットビジョンに応用する。ConvLSTMでは階層的な時系列特徴を取り扱い、High-levelからLow-levelな特徴を処理できるようにした。

180311TSSD

新規性・結果

  • 初めてOne-shotで時系列情報(ビデオ)から検出を行なった。
  • 階層的に時系列情報を取り扱い、High-levelとLow-levelの情報をSSDの構造内で統合することに成功、時系列検出を高精度に実行することができた。
  • 冗長な処理部分を削減してアテンション構造を取り入れた。
  • ImageNet-VID(ビデオに対する検出)にて64.5% @mAPを達成、なおかつ27fpsで処理することができた。TPNやD&Tと比較すると精度は劣るが、リアルタイム性でいうと有効性があると考える。

コメント・リンク集

ビデオに対する検出処理は静止画のそれとは若干異なる?SSD vs. TSSDを比較しても最大5%くらい差があるし、最先端手法であるTPNやD&Tと比較するとTSSDからさらに10%以上も差がついている。ただ単にConvLSTMなど時系列手法を導入しても性能は思うように上がらないということか。

[#137]
2018.3.11 23:53:27
Boosting Image Captioning with Attributes
Ting Yao, et al.
ICCV 2016
Munetaka Minoguchi

概要

CNN-RNNのキャプション生成モデルに、属性推定を追加したLong Short-Term Memory with Attributes(LSTM-A)を提案。属性間の相関を、 Multiple Instance Learning(MIL)で統合することにより、属性間相関を探索し、文章生成。

新規性・手法

LSTM-Aの5つの変種について研究。

3つのモデルは属性をどこに追加するか:LSTM-A1は属性のみを利用、LSTM-A2は最初に画像表現を挿入する、LSTM-A3は最初に属性を供給。

2つのモデルはLSTMに属性や画像表現をどのタイミングで入力するか: LSTMA4は各時間ステップでの画像表現の入力、LSTM-A5は各時間ステップでの属性の入力。

結果・リンク集

属性推定を追加することでキャプションのパフォーマンスの向上。

[#138]
Speaking the Same Language: Matching Machine to Human Captions by Adversarial Training
Rakshith Shetty, et al.
ICCV 2017
Munetaka Minoguchi

概要

人間によるキャプションに匹敵するキャプション生成モデルの提案。人間のキャプションに近づけるために、ガンベル分布を組み込み、GANを採用。ガンベル分布を使用してソフトマックス分布からソフトサンプルを取得し、サンプルをバックプロパゲーションする。

新規性

生成された単語の分布、語彙のサイズの欠如、頻繁なキャプションに対するジェネレータの偏りなど、従来のイメージキャプショニング手法と人間によるキャプションの差がある。そこで、イメージキャプショニングの学習目的を、正解キャプション生成から、人間のキャプションと区別できないキャプションの出力に変更。

結果・リンク集

キャプションの正確さは最先端技術に匹敵する性能。ただし、本手法はキャプションに偏りが少なく、人間よりの出力。

[#139]
Scene Graph Generation from Objects, Phrases and Region Captions
Yikang Li, et al.
ICCV 2017
Munetaka Minoguchi

概要

物体検出、フレーズ、キャプショニングの3つのタスクを共同で学習し、シーン理解を行うMulti-level Scene Description Network(MSDN)の提案。入力画像から異なる意味を持つ領域間をリンクさせるために、グラフを動的に構築。これにより、様々なタスクを整理しながら学習する。

手法・リンク集

VGG16で特徴量を抽出。領域はRoIプーリングで推定。オブジェクト(赤)、フレーズ(緑色)、領域(黄色)から動的グラフを構築。Feature Refiningでは、1つの特徴を、他の2種類の特徴を使ってアップデートさせていくイメージ。

[#140]
Areas of Attention for Image Captioning
Marco Pedersoli, et al.
ICCV 2017
Munetaka Minoguchi

概要

画像キャプショニングのための、アテンションベースモデルであるAreas of Attentionの提案。画像領域、キャプションワード、RNNの状態の間の依存関係をモデル化。従来の画像領域のみをRNN状態に関連付けるモデルとは異なり、キャプションワードと画像領域との間の直接的な関連付けを行う。

新規性・手法

CNN-RNNをベースラインとする。RNNの状態が与えられたときに、次の単語と対応する領域を各タイムステップで共同して予測するアテンションメカニズム。

[#141]
An Empirical Study of Language CNN for Image Captioning
Jiuxiang Gu, et al.
ICCV 2017
Munetaka Minoguchi

概要

CNNでイメージキャプショニングを行う言語モデルの提案。1つの単語と状態(state)に基づいて時系列的に次の単語を予測するRNNとは異なり、Language CNNは以前に推定された全ての単語を入力とすることで、画像キャプションとして重要な単語の長期依存性をモデル化できる。

新規性・手法

以前の単語の忘却を防ぐために、RNNにCNNLを追加して文章を生成する。全ての時間枠で重みが共有されるのがミソ。

画像特徴抽出のためのCNNI、言語モデリングのためCNNL、CNNIとCNNLを接続するマルチモーダル層(M)、単語予測のための再帰ネットワーク(RNNやLSTMなど)の4部構成。

コメント・リンク集

バニラのRNNよりも優れた性能。同じことを何度も言ったり、変な文章になりにくいのでは?

[#142]
Pedestrian Detection at Day/Night Time with Visible and FIR Cameras: A Comparison
Alejandro Gonzalez et al.
Sensors Journal 2016

概要

Far Infrared(FIR)カメラを用いて昼夜問わず歩行者を検出するための取り組み。同タスクを解決すべく、FIRカメラによる歩行者検出データベースを構築、複数の歩行者検出モデルーHolistic, Part-basedアプローチ, Patch-basedアプローチーを比較してベンチマークした。また、RGB画像、FIR画像、その両方を用いて歩行者検出を試行した。

180309FIRDB

新規性・結果

識別器としてSVM/DPM/RF、特徴量はHOG/LBP/HOG+LBP、Day/Night、Visible/FIRの組み合わせを調査した。Day/Night問わずエラー率はFIRが良く、特徴を組み合わせるHOG+LBPの方が良い結果を示した。Dayの場合にはHOG+LBP+RF(ランダムフォレスト)が、Nightの場合にはHOG+LBP+SVMがもっとも精度がよかった。

コメント・リンク集

RGBのデータセットよりもFIRの方が精度が良く昼夜問わず検出ができるなら、今後はFIRカメラで収集し始めた方がよい?(最近査読でFIRで集めろと言われていたのはこういう背景があったからだった。。)

[#143]
2018.3.9 22:34:11
Dense-Captioning Events in Videos
Ranjay Krishna, Kenji Hata, Frederic Ren, Li Fei-Fei, Juan Carlos Niebles Stanford University
ICCV 2017
Munetaka Minoguchi

概要

ビデオ中の事象の検出と記述、両方を含む高密度キャプションイベントのタスク。つまり、ビデオ内で検出された複数のイベントを自然言語で同時に記述しながら、全てのイベントを識別できる新しいモデルを提案。ビデオ内のイベント間の依存関係を取得するために、過去と未来のイベントのコンテキスト情報を使用し、すべてのイベントを共同して記述するキャプションモジュールを導入。高密度キャプションイベントの大規模データセットのActivityNet Captionsも提案。

新規性

ビデオには多数のイベントが含まれている。例えば、「ピアノを弾く男」のビデオでは、「別の男の踊り」や「群衆の拍手」が含まれてたりなど。これらすべてのイベントについて、ビデオを1回パスするだけで記述する。

ActivityNetには、100kのキャプション、849時間の動画20k本が含まれる。

結果・リンク集

複数イベントのキャプションを行えるので、複数人同時に行動認識ができる。人間が見落としがちな細かいシーンも見逃さないのでは?その点では人間を超えてる?

[#144]
Common Subspace for Model and Similarity:Phrase Learning for Caption Generation from Images
Yoshitaka Ushiku, et al.
ICCV 2017
Munetaka Minoguchi

概要

Common Subspace for Model and Similarity (CoSMoS)によるフレーズの学習方法の提案。

1.同一フレーズに関連付けられたすべての特徴ベクトルを近接するようにマッピング

2.各フレーズの分類子を学習

3.フレーズ間でトレーニングサンプルが共有される部分空間を得る

新規性・手法

“単語”ではなく、オブジェクト、属性、イベント、およびそれらの関係を表現する“フレーズ”に着目している。フレーズ数はさまざまな単語の組み合わせであるため、シングルワードの数よりはるかに多くなる。よって、フレーズはトレーニングサンプルが少なく、正確な推定が困難。そこで、モデルと類似性の共通部分空間を学習する。

結果・リンク集

ウェブのデータセットを増やすことで精度が向上する見込み

今後は、CNNとRNNによるキャプション生成にもCoSMoSを組み込む予定

[#145]
ASePPI: Robust Privacy Protection Against De-Anonymization Attacks
Natacha Ruchaud, Jean-Luc Dugelay
CVPR 2017 Workshop on CV-COPS

概要

監視カメラ映像などにおいて人物領域のde-anonymization(匿名にしていた情報をオープンにされること?)を防ぐための研究。RoIに対して実行することで人物再同定(Person Re-identification)の精度を落とすことに成功している。

180309AsePPI

新規性・結果

本提案手法であるAdaptive Scrambling enabling Privacy Protection and Intelligibility (ASePPI)により、匿名性が保たれることが明らかになった。これは、従来法よりも優れている。

[#146]
2018.3.9 18:05:28
An Autonomous Dynamic Camera Method for Effective Remote Teleoperation
Daniel Rakita, Bilge Mutlu and Michael Gleicher
HRI’18
pp. 325-333
Ryota Suzuki

概要

遠隔操作ロボットのための,ロボットカメラの自動姿勢決定.作業野を見やすくするカメラ姿勢を自動で決定する.

  • どのような遠隔操作インタフェースでもOK
  • 操作者の操作を予測することで実現
    • 遮蔽のない視野
    • 作業部とカメラ間の距離を適切に保つ
  • 方向をわからなくさせないように自動調整

Figure1

評価点

外科手術などに実用性ありそうでいい.

適切なロボット動作のダイナミクスを定義して実装し,ユーザ評価もちゃんと行っている.

BestPaper Nominee.ところで被験者に1時間拘束で10ドル払ってるらしい.

リンク集

[#147]
2018.3.9 16:21:51
Blur vs. Block: Investigating the Effectiveness of Privacy-Enhancing Obfuscation for Images
Yifang Li, Nishant Vishwamitra, Bart P. Knijnenburg, Hongxin Hu, Kelly Caine
CVPR 2017 Workshop on CV-COPS

概要

他人に情報が拡散しないよう、「ブラー」と「ブロック」というふたつの(人間に対する)難読化法を検証。53名のユーザについて画像の満足度、情報量などの側面から調査した。

180309BlurBlock

新規性・結果

結果から、ブロック(blocking)の方がブラー(blurring)よりも特定されにくいということが判明した。しかし、画像の質やSNSなどに投稿するための満足度(e.g. satisfaction, enjoyment, social presence, likability)としては欠落してしまう。将来的にはユーザのプライバシーを保護するための手法が求められる。

リンク集

[#148]
2018.3.9 16:07:03
Communicating Robot Motion Intent with Augmented Reality
Michael Walker, Hooman Hedayati, Jennifer Lee and Daniel Szafir
HRI’18
pp. 316-324
Ryota Suzuki

概要

ロボットの移動意思をARで伝える方法について,図の4種類の方法を実装して比較してみた.

ロボットの身体の方向のみに関連した情報提示がベースラインよりも作業効率を顕著に向上させた. また,ロボットとの共同作業感と動きのわかりやすさの間にトレードオフが発生することも 分かった.

Figure1

(a) 経路のチェックポイントを見せる(b) 経路を矢印で書く (c) ARエージェントが移動方向を見てる (d) ユーザに対するロボットの位置を示唆する

評価点

移動方向の表示に関する研究は継続的に行われているが,AR上での表示における調査をちゃんと(網羅的に)行っていることと, 結果が面白い.

BestPaper Nominee.

リンク集

[#149]
2018.3.9 16:01:10
Planning with Trust for Human-Robot Collaboration
Min Chen, Stefanos Nikolaidis, Harold Soh, David Hsu and Siddhartha Srinivasa
HRI’18
pp. 307-315
Ryota Suzuki

概要

ロボットの意思決定に,人間とロボットの共同作業の信頼度を組み込んだ.手法的には,部分観測可能マルコフ決定過程(POMDP)の機械学習に信頼度をパラメータとして混ぜた. それにより,ロボットは (1)人からの信頼度を推定 (2)人の行動における自分の行動の影響の理由付け (3)長期的にみたチームパフォーマンス最大化可能な行動の選択 が可能に.

実際にパフォーマンスを高められることを確認した.なお,信頼度を最大化してもパフォーマンスは改善しなかった.

Planning_with_Trust_for_Human-Robot_Collaboration_Figure1.png

評価点

信頼度という観点が面白く,理論モデルに基づく実装までこぎつけているのがよい.信頼度最大化がパフォーマンスを改善しないことも面白い.

BestPaper Nominee.

リンク集

[#150]
2018.3.9 15:34:59
From Dusk till Dawn: Modeling in the Dark
F. Radenovic et al.,
CVPR2016

概要

画像データベースからの3次元復元の研究. 昼のデータと夜のデータを混ぜて扱うと,輝度などの違いが大きくマッチングが上手くいかずに失敗する場合がある. そのため,昼と夜のデータをクラスタリングにより分割し,それぞれで3D Modelを作った後に統合する. 昼と夜でははっきり見える部分が違うので,統合することで両者が相補的に働き, より高精細な3次元復元ができることを示している.

新規性・結果

  • 昼と夜の画像を自動的に分けるための手法を提案
  • 昼と夜を分けてモデリングし,その後統合することの優位性を示した

自由記述欄

  • かっこいい論文タイトル
  • 夜のデータに注目してちゃんとやってる論文は意外と珍しい気がする
[#151]
Kensho Hara
Multiple Instance Learning for Soft Bags via Top Instances
W. Li et al.,
CVPR 2015

概要

Multiple Instance Learningにおいて,ラベルノイズも考慮した手法を提案. 例えば画像認識において,画像中に対象が含まれていてもメインの被写体でなければNegativeとされることが問題と指摘. 提案手法は明確にPositive Bag, Negative Bagを分ける (Hard Bag) のではなく,Softに両者を分ける. これにより,ノイズの影響を抑制し,精度を向上させることができている.

新規性・結果

  • MILにSoft Bagという概念を導入
  • 実験的にSoft Bagによる精度向上を確認

自由記述欄

  • 理論的にかっちり実装されている印象
  • Deepじゃない論文
[#152]
Kensho Hara
Robust Loss Functions under Label Noise for Deep Neural Networks
A. Ghosh et al.,
AAAI 2017

概要

ラベルノイズに頑健な損失関数を提案. 理論的に,Cross entropyやMean Square ErrorよりもMean Absolute Error (MAE)の方がラベルノイズに対して頑健であることを証明し,実験的にもその優位性を確認. しかし,MAEによる学習は遅いので,MAEを使う場合に適した最適化手法の検討を行う必要あり.
180307_robustloss.png

新規性・結果

  • 従来研究だと2クラス識別の問題設定での検討が多かったが,この研究では多クラス識別での解析を行っている.
  • MAEを用いることとラベルノイズに頑健であることを示した.

自由記述欄

MNISTなどの実験で主張通りの結果になっていることを確認しているが, もっとデータセットが実世界のものに近づいていっても同じ結果が出てくるのか気になるところ.
[#153]
Kensho Hara
Indirect Match Highlights Detection with Deep Convolutional Neural Networks
M. Godi et al.,
ICIPA Workshop (Social Signal Processing and Beyond), 2017

概要

スポーツのハイライトシーンの検出をフィールドを撮影した動画からではなく観客の動画から間接的に行おうという研究. 観客動画を3D CNNに入力してハイライトの尤度を推定する手法を提案. 観客動画をCropして入力することで,どの辺りの観客が盛り上がっているかの推定も可能.
180307_indirectmatch.png

新規性・結果

  • 観客動画のみに基づいてハイライトシーンを検出
  • プレイシーンを一切見ずに検出可能

自由記述欄

盛り上がっているシーンをハイライトとすると,観客が盛り上がっているのを見ることが果たして間接的なのかどうか難しい. ある意味直接的な認識である気も.
[#154]
Kensho Hara
Combining Image Regions and Human Activity for Indirect Object Recognition in Indoor Wide-Angle Views
P. Peursum et al.,
ICCV 2005

概要

人の行動から間接的に物体を検出する手法を提案. 物体がはっきり撮影できていなくても,それを使う(インタラクションする)人の行動が見えていれば, どのような物体を使っているかは推定できるので,それを元にして物体の検出をする. ベイジアンネットワークをベースにしてこのアイデアを実装.
180307_combining_1.png

新規性・結果

  • 人物行動に基いて物体のアピアランスに関わらず物体を認識可能
180307_combining_2.png
[#155]
Kensho Hara
"Thank You for Sharing that Interesting Fact!": Effects of Capability and Context on Indirect Speech Act Use in Task-Based Human-Robot Dialogue
Tom Williams, Daria Thames, Julia Novakoff and Matthias Scheutz
HRI’18
pp. 298-306
Ryota Suzuki

概要

間接言語行為(ISA)の有無によって,タスクベースの人間-ロボット間対話においてどれほど役に立つのか,ISAの理解能力なしにロボットはどれだけ機能するか調査した.

WoZによる実験をしてみた.各条件について,人によるISAの使われっぷりを見る.

  • 慣例的社会規範(conventionalized social norms,慣習?)の有無
  • ロボットISAの理解能力の有無の条件において,ロボットのISAの使用と知覚の両方について分析

結果

  1. タスクベース人間ロボット対話において,ISAが理解できないことをちゃんと示してあっても,人はISAを普通に使う.
  2. 慣例的社会規範があった場合,ISA使用は更に普通.
  3. ロボットのISAのできなさは,ロボットのタスク効率と人間のロボットの知覚の両方において悪影響がある.

評価点

人がロボットに対してどう非言語行動をとるかについてはまだまだ未調査の部分が多いが,そのうちの一つ,ISAについての道を示した重要な論文.

BestPaper Nominee.

リンク集

※注 ISAとは,発話しながらも間接的に意味を伝える行為.「車に乗れ」「空手の稽古があるの」>間接的に乗車を拒否.

[#156]
2018.3.9 15:11:52
Social Robots for Engagement in Rehabilitative Therapies: Design Implications from a Study with Therapists
Katie Winkle, Praminda Caleb-Solly, Ailie Turton and Paul Bremner
HRI’18
pp. 289-297
Ryota Suzuki

概要

理学療法,スポーツリハビリ等の各種セラピーに支援ロボットを導入した場合にどうインタラクションしたらよいかについて,セラピストへのヒアリングを基に論じる.

ロボットのセラピーへの従事の利益があるという我々の仮説を裏付けるため,まず下の二つを聞いてみた.

  1. セラピーにおいて,自己訓練の重要な点とは?典型的な支援方法は?
  2. リハビリ療法支援において,どのようにロボットが役に立つと思われる?

さらに,有効なHRI戦略を導くため,聞いてみた.

  1. どのように作業を評価する?
  2. 患者の作業に影響を及ぼす,セラピストの役割とは?
  3. 患者それぞれにロボットの行動を仕立てるための方法論?

結果

ロボットは,患者の自律的エクササイズへの意識の低さに対して支援を行える.スマホなどの既存手法よりも先回り的な支援を行える.

この結果を踏まえ,HRI戦略のデザインの方法論を示す.

評価点

聞き取り調査の結果を論文にしたいならこの論文を読むのがよい.

BestPaper Nominee.

リンク集

[#157]
2018.3.9 14:34:36
Guiding the Long-Short Term Memory model for Image Caption Generation
Xu Jia, Efstratios Gavves, Basura Fernando, Tinne Tuytelaars
ICCV 2017
Munetaka Minoguchi

概要

LSTMの拡張するgLSTMの提案。画像から抽出された意味情報をLSTMの各ユニットに入力として追加し、モデルと画像コンテンツを密接に結合させる。また、短い文に偏らないように、ビーム探索時に正規化。

新規性・手法

LSTMは畳み込みで得られた画像情報から単語ごとに文章を生成する。しかし、長い分の場合には、プロセスが継続するにつれて画像情報が薄くなる。これは、シーケンスの最初に出力された単語も同様。そこで、ゲートとセル状態の計算にグローバルな意味情報を追加。意味情報は、画像とその説明から抽出し、単語列生成の過程でガイドとして使用する。

結果・リンク集

Flickr8K、Flickr30K、MS COCOなどのデータセットで、現在(2017)の最先端技術と同等またはそれ以上の精度。

[#158]
Cartooning for Enhanced Privacy in Lifelogging and Streaming Videos
Eman T. Hassan, Rakibul Hasan, Patrick Shaffer, David Crandall, Apu Kapadia
CVPR 2017 Workshop on CV-COPS

概要

一人称視点カメラによるライフログをアニメ調に変換することでプライバシー性を高める研究。セグメンテーションとブレンディングのみならず、エッジ強調、さらには物体(e.g. テレビ、本)をクリップアートに置き換えることでより理解しやすくプライバシーを保護するアニメ調に変換。

180309CartooningFPV

新規性・結果

AMTによりユーザスタディも行なった結果、プライバシーを保ちつつ視覚的にも理解しやすい(e.g. 行動認識)動画ストリーミングを流すことに成功した。

リンク集

[#159]
2018.3.9 13:45:20
Protecting Visual Secrets Using Adversarial Nets
Nisarg Raval, Ashwin Machanavajjhala, Landon P. Cox
CVPR 2017 Workshop on CV-COPS

概要

入力画像に対して非読性を高めるため、ノイズを付与して内容がわからないように加工する(入力と出力は図を参照)。同タスクに対してGenerative Adversarial Networks (GANs)の枠組みを導入した。提案法をAdversarial Pertubation Mechanismと名付け、攻撃ネットワーク(A)と攻撃者を欺く難読化ネットワーク(O)の敵対的学習により学習を進める。学習においてプライバシーとユーティリティ(オープン化)のトレードオフはパラメータにより調整可能である。基本的な構造はDCGANに基づいていて、OはDenoising AutoEncoder。

180309VisualSecrets

新規性・結果

攻撃は画像中にQRコードが埋め込まれているかどうかで決まり、いかに敵対的ネットがQRコードの位置を検出できるかどうかで評価する。精度は75%(エラー率25%)となった。

リンク集

[#160]
2018.3.9 13:19:40
I Know That Person: Generative Full Body and Face De-Identification of People in Images
Karla Brkic, Ivan Sikiric, Tomislav Hrkac, Zoran Kalafatic
CVPR 2017 Workshop on CV-COPS

概要

人物のセグメンテーションにより人物の検索性を低くする研究(Person De-identification)。服装レベルでのセグメンテーションについてもうまくいっている。本論文で提供するモデルは顔認識のみでなく服装や髪型といった特徴についても非読性を向上させる。手法はGANを参考に構築されており、(物体検出も組み合わせつつ)セグメンテーションを実行する。広義には人物を中心とした背景差分を行なっている。さらに、DCGANにより予め顔画像を学習する。

180309DeIdentification

新規性・結果

Clothing Co-Parsing (CCP)のファッションアイテムのセグメンテーション、Human3.6M datasetの背景マスクを正解として学習を行なった。結果の例は図に示すとおりである。

[#161]
2018.3.9 12:31:03
Fribo: A Social Networking Robot for Increasing Social Connectedness through Sharing Daily Home Activities from Living Noise Data
Kwangmin Jeong, Jihyun Sung, Hae-Sung Lee, Aram Kim, Hyemi Kim, Chanmi Park, Yuin Jeong, JeeHang Lee and Jinwoo Kim
HRI’18
pp. 114-122
Ryota Suzuki

概要

生活雑音で活動量を測り,活動量を共有することのできるソーシャルネットワークなロボットを提案.生活雑音を取るだけならプライバシーに配慮できて良いし,多対多でもいい感じに働く. 友人間ソーシャルコミュニケーションの実験してみて,プライバシー侵害を感じずに繋がってる感が出ることを確認した. ついでにちゃんとしたものも作った.

Figure1

評価点

うまくやってる感.これってロボットインタラクションなのかな?

BestPaper Nominee.

リンク集

[#162]
2018.3.9 11:59:39
What is Human-like?: Decomposing Robots' Human-like Appearance Using the Anthropomorphic roBOT (ABOT) Database
Elizabeth Phillips, Xuan Zhao, Daniel Ullman and Bertram F. Malle
HRI’18
pp. 105-113
Ryota Suzuki

概要

著者らが作った,擬人ロボットのコレクションデータベースABOTを活用して,擬人ロボットの見た目について分析する. ABOTは200の現実の擬人ロボットの,画像,パーツリスト,4つの観点 (Body-Manipulators, Surface Look, Facial Features, Mechanical Locomotion) におけるスコアを含む.

本研究では,調査のうえ先述の見た目に関する4つの観点を定義し,またロボットの擬人性を推定しやすい特徴について解明した. そのスコアリングシステムはWebで公開する.

Figure1

評価点

盛りだくさん.

  1. データベースABOT
  2. 網羅的に定性的・定量的な評価
  3. 評価ツールを公開
  4. データベースの拡張性

BestPaper Nominee.ところで被験者に0.5ドル払ったらしい.

リンク集

[#163]
2018.3.9 11:38:49
Characterizing the Design Space of Rendered Robot Faces
Alisa Kalegina, Grace Schroeder, Aidan Allchin, Keara Berlin, Maya Cakmak
HRI’18
pp. 96-104
Ryota Suzuki

概要

“レンダリングされた”ロボット顔のデザインを仕分け.デザイン空間を定義し,分布を調査する. 157のロボット顔を76属性のデザイン空間に落とす. 文脈に応じてどのようなリアルさ・具体性が好まれるのか, また顔の重要なパーツの有無に対する,適したロボットの作業について論じる.

Figure1

評価点

いろんなロボット顔のサーベイが大変なのは言うまでもないが,ちゃんとシステマチックに論じているところが偉い. まさしくワシントン大的貢献.

BestPaper Nominee.

リンク集

[#164]
2018.3.9 10:47:04
From Red Wine to Red Tomato: Composition with Context
Ishan Misra, Abhinav Gupta, Martial Hebert, The Robotics Institute, Carnegie Mellon University
CVPR 2017
Munetaka Minoguchi

概要

既知の視覚的概念の分類子を構成するために、コンテクストの依存性に着目した手法を提案。コアアイデアは、複数の単純な概念を組み合わせることによる複雑なコンセプトの開発。赤ワインの赤と、トマトの赤では意味は異なる。形容詞(赤)と物体(ワイン、トマト)の間にはコンテクスト依存性がある。このようなコンテクストを全てビックデータで学習することはナンセンスなため、独立した識別器を合成する。

手法

学習: primitive(大きい、象)などの組み合わせのセットにアクセス。これらのprimitiveの各々を線形分類器(w)を学習することによってモデル化。これらの分類器を合成し、その組み合わせの分類器を生成する変換ネットワークを学習。

コメント・リンク集

闇雲にデータ数(クラス数)をあげて学習するのではなく、コンテクストの依存性に着目した予測モデルを使用するのはスマート。

[#165]
Expressing Robot Incapability
Minae Kwon, Sandy H. Huang and Anca D. Dragan
HRI’18
pp. 87-95
Ryota Suzuki

概要

ロボットのできないことを伝える.何をやろうとしてダメで,なぜダメなのかを伝える. 動きの軌跡の最適化問題とみなし,成功パターンと失敗パターンの 類似性と差の大きさの評価を提案.

Figure1

評価点

運動学を解くという割と確立された(けどちゃんと検討するのは面倒な)手法的な面を水平思考して,ロボットの失敗談を伝えるという面白さにつなげている.

BestPaper Nominee.

リンク集

[#166]
2018.3.8 20:32:44
Unsupervised Visual-Linguistic Reference Resolution in Instructional Videos
De-An Huang, el al.
CVPR 2017
Munetaka Minoguchi

概要

解説動画(お料理動画)におけるアクションとエンティティ間をリンクさせる教師なし学習を提案。グラフ表現によって、言語および視覚的モデルを共有することで、ビデオ内の視覚的・言語的曖昧さを回避する。映像中の作業に対して、言語と動画の2つのワークフローを出力し、最適化を施す。WhatsCookinデータセットより、2000の字幕付き動画を使用。

新規性

曖昧さ回避

図は、動画中の曖昧なアクションとエンティティを示す。(c)の場合、3つ目のフレームで“ドレッシングを加える”とあるが、果たしてどのドレッシングなのか?というあいまいさが生じる。この場合のドレッシングはヨーグルトを混ぜたものになる。つまり、“ドレッシング”をエンティティ、“混ぜる”をアクションとしてこの2つをリンクさせる。

結果・リンク集

過去のシーンを参照することで、動画と文字列の位置合わせに有効。

[#167]
Improving Collocated Robot Teleoperation with Augmented Reality
Hooman Hedayati, Michael Walker and Daniel Szafir
HRI’18
pp. 78-86
Ryota Suzuki

概要

操作者と遠隔ロボットが部屋レイアウトを共有する空間において,ロボットの遠隔操作をARで支援する方法論についてプロトタイピングし,議論.飛行ドローンの動きを簡単にわかるようにするには?図(a)視体積の表示,図(b)ロボットの吹き出し的にカメラ映像表示,図(c)端にカメラ映像を固定表示. 結果,3方式はカメラ映像をただ見ただけよりも遠隔操作効率が顕著に向上した. また,カメラ映像を見せる方式(b),(c)はカメラ映像とロボットの注視が分散してしまい,比較的遠隔操作効率が悪かった.

Figure1

Figure2

評価点

特にハッとする面白さは感じないが,各方面がなんとなくやっていたことについて,改めて調査に取り組み, サーベイと実験をちゃんとやって,定量的・定性的評価をちゃんとやった点が評価されたか. 実験デザインも特に面白く感じないが,当たり前のことをやってちゃんと結果が出るようなデザインをしている.

BestPaper Nominee.

リンク集

[#168]
2018.3.8 19:13:34
Simple Black-Box Adversarial Attacks on Deep Neural Networks
Nina Narodytska, Shiva Kasiviswanathan
CVPR 2017 Workshop on CV-COP

概要

ブラックボックスのAdversarial Attacks(敵対的攻撃、摂動ノイズ)を提案する。本論文での画像攻撃は局所的探索により数値的近似を行い、ネットワークの勾配に埋め込むことである。

180308BlackBoxAttacks

新規性・結果

画像が結果例である。複数の画像識別が誤りを含んでいる。

リンク集

[#169]
2018.3.8 18:27:18
Deceiving Google's Cloud Video Intelligence API Built for Summarizing Videos
Hossein Hosseini, Baicen Xiao, Radha Poovendran
CVPR 2017 Workshop on CV-COP

概要

動画認識タスクにおいて、Google Cloud APIの認識を騙すため動画像に対して意図的に画像挿入を行う攻撃を仕掛ける。攻撃はN秒間に一度、(動画の内容とは全く異なる)任意の画像を埋め込むことで、Google Cloud APIの出力を騙すことに成功した。

180308DeceivingGoogleCloud

新規性・結果

実験の結果、2秒間に一度、画像挿入攻撃を仕掛けると認識誤りを引き起こすことが判明した。動画像は25FPSで構成されるため、50フレームに一度攻撃を仕掛ければ十分であった。

コメント・リンク集

本論文のような攻撃をYouTubeに埋め込まれると動画タグが自動でつけられなくなるという恐れがある一方で、例えばFacebookなどの動画に意図的かつ人の目にはわからないように画像を埋め込めると(プライバシー保護の面で)外部からは検索しづらくなる。(やはり使い方次第ということか)

[#170]
2018.3.8 18:00:10
Cut, Paste and Learn: Surprisingly Easy Synthesis for Instance Detection
Debidatta Dwibedi, Ishan Misra, Martial Hebert
ICCV 2017

概要

タイトルの通り、Cut, Paste and Learn(物体の切り抜き、任意画像への埋め込みにより物体検出の学習を実行)により自動アノテーションを行い、学習画像を大量に生成することに成功。ここで問題になるのは切り抜いた物体と画像埋め込みの際のアーティファクト(artifact)であり、自然な埋め込みのみならずアーティファクトを無視して学習する手法を提案した。CutのフェーズではFully-Convolutional Networks (FCN)を用いてセグメンテーションを実行するがさらに後処理にて境界線を綺麗にした。PasteのフェーズではGaussian/Poisson Blendingによりアーティファクトをできる限り削減した状態で背景画像に対して埋め込みを行う。データ拡張についても、2次元3次元の回転、オクルージョンなど行う。

180308CutPasteLearn

新規性・結果

Blendingにおいては{なし, Gaussian, Poisson}の全てを混ぜる手法が最もよくオリジナル画像のみと比較して8AP向上。データ拡張についても全ての拡張{2D rotation, 3D rotation, Truncation, Occlusion, Distractor}を行う拡張が最も良かった。ベンチマークに対して相対的に21%の向上が見られた。クロスドメインの学習においても10%の向上が見られたと報告。

コメント・リンク集

セグメンテーション・ブレンディングを用いることで実画像からデータを増やすことができることがわかった。今後はCGのみでなく実画像からのデータ合成も一般的になると考えられる。

[#171]
2018.3.8 11:04:00
Captioning Images with Diverse Objects
Subhashini Venugopalan, et al.
CVPR 2017
Munetaka Minoguchi

概要

既存の画像キャプションデータセットには存在しないオブジェクトカテゴリを記述できるNovel Object Captioner (NOC)の提案。物体認識データセットからの画像と、ラベル付けされていないテキストから抽出された外部ソースからの意味的情報を利用。 MSCOCOにはないImageNetのオブジェクトカテゴリのキャプションを生成。

新規性・手法

画像とキャプションが対になっていないデータや、様々なソースを使って学習することができる。

pre-training済みモデルのembedding空間を使用できるようにし、zero-shotなデータでもキャプションを生成できる。

CNNベースの認識モデル、LSTMベースの言語モデル、キャプションモデルは、別々のソースで同時に学習。しかし、パラメータを共有することで、未知のオブジェクトのキャプションが可能となる。

結果・リンク集

より多くのオブジェクトのキャプション生成が可能かつ、キャプションの質は同等もしくは向上している。

[#172]
Neural Scene De-rendering
Jiajun Wu, et al.
CVPR 2017
Munetaka Minoguchi

概要

シーンの全体理解。オブジェクトの数とそのカテゴリ、ポーズ、位置などの情報をエンコードし、シーンのコンパクトかつ表現力豊に解釈可能な表現の提案。decoderとencoderにより、XML形式の言語表現を実現。特に、encoderは、Renderingの逆であるDe-renderingを実行することで、入力画像をscene XMLに変換する。

新規性

従来研究では、encorderとdecoderベースの深層学習を使用した画像表現を提案してたが、その出力は解釈不可能であるかシーン単一のオブジェクトのみの説明である。そこで、シーン全体かつ解釈可能な表現を出力するモデルの提案。

マインクラフトベースの新しいデータセット。

de-rendering:入力画像からセグメントを生成し、オブジェクトのプロパティを解釈。推測結果を統合し、元の画像を再構成する。

コメント・リンク集

単純な全体シーン解釈は進んでいる。これからは、より複雑なシーンの解釈に移る。

[#173]
Visual Diarog
Abhishek Das, et al.
CVPR 2017
Munetaka Minoguchi

概要

Visual Diarog:AIエージェントが人間と、画像に関した対話をするタスクを目標とする。エージェントが、画像に対する質問に、対話履歴から文脈を推測し正確に回答する。チャットデータ収集プロトコルを開発し、Visual Dialogデータセット(VisDial)を作成。COCOの120kの画像に10の質問と回答ペアを含む1つのダイアログが含まれており、合計は1.2Mのダイアログ質問回答ペア。

新規性・リンク

VQAとは異なる、Visual Dialogタスク。

3つのエンコーダ2つのデコーダからなるVisual Diarogモデル。

コード、モデル、データセット、ビジュアルチャットボックスを公開中。

[#174]
Learning to Linearize Under Uncertainty
Ross Goroshin et al.
in NIPS 2015
Tomoyuki Suzuki

概要

「動画は単一画像を表す特徴空間上におけるManifoldとして表すことができる」という考えをもとにしている。その場合、線形な時間変化に対して各フレームを表す特徴量も線形な変位をするのが妥当であり、制約を加えることでそのような特徴空間への埋め込みを学習させる。

手法

t-1, t の埋め込みベクトルzt, zt-1からt+1の埋め込みベクトルzt+1を予測し、それからt+1の画像復元を行うモデルを考えるが、以下の3つの要素を加える。(1)zの時間的変位のcos類似度が近くなるようにする、(2)max-pooling(出力m)とargmax-pooling (出力p)を行い、t+1のz(=(m, p))を求める際は、pを線形外挿により求める、(3)未来の不確実性の対処として、潜在変数δを定義。 argmax-poolingはソフトな近似関数を定義することで逆伝搬可能にし、δは学習時はサンプルごとにSGDにより最適化し、テスト時はランダムサンプリング。

コメント・リンク

動画を画像表現空間上のManifold捉える視点、逆伝搬不可能な関数をソフトな関数で近似する手法、潜在変数の導入による未来の不確実性への対応が面白く、非常に参考になりそう。 時間の設定をもとに対応する特徴量を計算することができ、実験では仮想的なデータにおけるフレーム生成タスクにおいて、鮮明な出力が得られているが、 線形で動く事を前提とした仮想データや今回の特徴空間の制約が実際の識別タスクなどで有効な特徴量かの実験がないなど疑問な点もあった。
[#175]
Deep Image Prior
Dmitry Ulyanov et al.
2017
Tomoyuki Suzuki

概要

「CNNは理論上任意の関数を近似できるが、その構造自体に汎化性能をあげるようなPriorが含まれている」という考えのもと、ランダム初期化されたCNNを用いて高いレベルの画像復元、ノイズ除去などを行った。 また、CNNのPrior をさらに裏付けるものとして、自然画像を復元するより、ノイズ画像を復元する学習の方がiteration数がかかることも示された。深いネットワークの方が復元性能が高かった。

手法

ノイズ画像zをencoder-decoderモデルに入力して、生成された画像を欠損画像にMSEを近づけるように学習。 注意点として、完全に学習仕切ってしまうと欠損画像と同じものが出るだけなので、学習をある程度のiterationで止めると、復元された画像が得られる。 CNNのPrior をさらに裏付けるものとして、自然画像を復元するより、ノイズ画像を復元する学習の方がiteration数がかかる。

コメント・リンク

畳み込み処理×SGDの異常なまでの汎化性能を実験的に裏付けていると思われ非常に面白い。逆にCNNのPriorの苦手なところとして、Adversarial exampleやGANのチェッカーボード現象も関係してそう。 自然画像と畳み込みとの関連なのでFractal画像とも関係してそう。逆に人工データに対しては苦手とかあるのだろうか。Deformable ConvやTemporal ConvなどのPriorの気になる。
[#176]
Catching the Temporal Regions-of-Interest for Video Captioning
Ziwei Yang, Yahong han, Zheng Wang
ACM MM 2017

概要

動画キャプションのため、動画中から時系列のRegions-of-Interest(RoI)を獲得する。動画中のアテンションを獲得するDual Memory Recurrent Model(DMRM)を提案して時系列の大域的構造/特徴とRoI特徴を対応づける。これにより、人間のように動画を粗く流し見することに相当するモデルが構築できる。さらに詳細に特徴を評価するため、意味的な教示(semantic supervision)を行う。

180307VideoROI

新規性・結果

評価にはMicrosoft Video Description Corpus (MSVD)やMotreal Video Annotation (M-VAD)を採用。動画キャプショニングにおける評価法、BLEU-4, CIDEr, METEORにてState-of-the-artな精度を得た。

コメント・リンク集

動画キャプショニングは今やると面白い?動画VQAなんかは進んでいるかも?

[#177]
2018.3.7 12:28:51
Temporal Relational Reasoning in Videos
Bolei Zhou, Alex Andonian, Antonio Torralba
arXiv:1711.08496

概要

時系列の理由付け、(物体や人物行動などの)関連性を学習するTemporal Relation Network (TRN)を提案する。TRNはフレーム数を変えながら特徴表現を行い、前後の時系列を対応づけることで理由付けを行う。このネットワークを学習して時系列の対応付けを行うため、3つの動画データベースーSomething-Something(ビデオ数108,499), Jester(148,092), Charades(9,848)ーを用いた。

180307TRN

新規性・結果

TRNは場面によりC3DやTwo-Stream ConvNetsよりも高精度。ビジュアルの結果は動画を参照。

コメント・リンク集

動画像に対しても理由付け(Reasoning)ができるようになってきた。行動検出の高精度化は待たれるが、トリミングされた動画像に対しては効果を発揮する手法。

[#178]
2018.3.7 09:23:28
Egocentric Basketball Motion Planning from a Single First-Person Image
Gedas Bertasius, Aaron Chan, Jianbo Shi
CVPR 2018

概要

一人称視点の画像からゴールリングに到達するまでのバスケットボール選手の動線を生成する。本論文では3D位置や頭部方向も記録する。同タスクを実行するため、まずは画像空間から12Dのカメラ空間に投影を行うEgoCam CNNを学習。次に予測を行うCNN(Future CNN)を構築、さらに予測位置やゴールまでの位置が正確かどうかを検証するGoal Verifier CNNを用いることでより正確な推定を行うことができる。

180307EgoBasketball

新規性・結果

複数のネットワークの出力(ここではEgoCamCNNとFutureCNN)を検証するVerification Networkという考え方は面白い。他のネットワークの出力を、検証用のネットワークにより正すというのはあらゆる場面で用いることができる。RNN/LSTM/GANsなどよりも高度な推定ができることが判明した。

コメント・リンク集

結果例は動画像を参照。未来予測・3次元投影などコンポーネントがDNNにより高度にできるようになってきたからできた研究。さらに検証用のネットワークを構築することで出力自体を操作している。

[#179]
2018.3.7 09:04:15
Beyond Context: Exploring Semantic Similarity for Tiny Face Detection
Yue Xi, Jiangbin Zheng, Xiangjian He, Wenjing Jia, Hanhui Li
arXiv:1803.01555

概要

Finding Tiny Facesを元ネタにして、画像中から微小な顔を検出する手法を提案。元ネタではコンテキストから小さな顔を検出していたが、本論文では画像の類似性(顔は大小に関わらず特徴が類似する)を考慮して極小な顔を検出した。手法としては、画像中から意味的に類似する領域を計算するためのMetric Learning(特徴空間の距離学習)を用いる。

180307BeyondContext

新規性・結果

3つの著名な公開データに対して精度を向上させState-of-the-art(と主張しているが、結果のグラフが18/03/07現在論文に埋め込まれていない)。

[#180]
2018.3.7 08:27:34
Toward Multimodal Image-to-Image Translation
Jun-Yan Zhu, Richard Zhang, Deepak Pathak, Trevor Darrell, Alexei A. Efros, Oliver Wang, Eli Shechtman
NIPS 2017

概要

ピクセル同士の画像対応を行い、画像変換を実行するBicycle GANを提案。従来のImage-to-Image (pix2pix)ではone-to-oneマッピングだったが、本提案ではマルチモーダル、すなわちある画像からあらゆるピクセルの対応関係を考慮した変換をおこなう(例として、図に示すような夜画像の入力からあらゆる日中の画像に変換するなど)。このアルゴリズムを構築するためにVAEベースやLatent RegressorのGANを組み合わせる。

180306BicycleGAN

新規性・結果

pix2pixと比較して複数の結果を出力する表現力が向上した。マルチモーダルで出力しても結果画像が崩れることなく画像生成を実現した。

[#181]
2018.3.6 14:58:57
Weakly Supervised Affordance Detection
J. Sawatzky et al.,
CVPR 2017

概要

物体のパーツごとのAffordanceを推定する問題の研究. CAD120データセットにpixel-wiseのAffordanceラベルを付けてデータセットを作成. CNNにより入力画像からAffordanceを推定するが,Affordanceはマルチラベル(複数のラベルを持つ画素が存在)なので, それに対応できるような拡張手法を提案. 加えて,キーポイントレベルのアノテーション (Weakly label) からの学習を行う手法も提案. Fully supervised, Weakly supervisedの両設定においてSOTAを達成.
180306_weaklyaffordance.png

新規性・結果

  • Affordance推定の問題においてKeypointアノテーションから学習する手法を提案
  • Pixel-wiseアノテーション付きで実データに近いAffordanceデータセットを提供

自由記述欄

  • せっかくWeakly Supervisedなんだからデータをたくさん用意したらどうなるかの結果とかも見たい
  • GitHub
[#182]
Kensho Hara
Action Recognition with Coarse-to-Fine Deep Feature Integration and Asynchronous Fusion
Weiyao Lin, Yang Mi, Jianxin Wu, Ke Lu, Hongkai Xiong
AAAI 2018

概要

AAAIに採択された、行動認識の研究。(1)より精緻な特徴量抽出、(2)異なるチャンネルの入力からの非同時性(asynchrony)を考慮して公開データベースに対する認識精度を向上させた。Coarse-, Middle-, Fine-levelの特徴量を統合して識別を実行する、さらにはそれぞれ異なる時間とチャンネル(e.g. rgb at time t & flow at time t+2)からの特徴組み合わせにより参照する尺度を変更し、特徴量をさらに強化した。

180306ActionCoarseFine

新規性・結果

多階層の特徴量の組み合わせや非同時性を考慮した特徴抽出により手法を構成、UCF101にて95.2%、HMDB51にて72.6%を達成した。

リンク集

[#183]
2018.3.6 14:31:32
MarioQA: Answering Questions by Watching Gameplay Videos
Jonghwan Mun, et al.
ICCV 2017
Munetaka Minoguchi

概要

動画によるVideoQA。マリオのプレイ動画から、発生するイベントの質疑応答を行うMarioQAを提案。イベントログを含むビデオクリップを収集し、抽出されたイベントから自動的にQAペアを生成してデータセットを構築。敵を倒す、死ぬ、ジャンプ、キック、持つなどの11個のアクションパラメータを、動画と対応させたコマンド形式で時系列にまとめたものを学習。

手法・結果・リンク

Gated Recurrent Unit (GRU)で質問の特徴抽出。3DFCNでビデオの特徴抽出。2つの特徴から分類。

NT (case 1), NT+ET (case 2) and NT+ET+HT (case 3)の3ケースについて精度を比較し、時間的推論能力を検証。ETやHTを加えた場合の方が精度が向上することを確認。

[#184]
Moments in Time Dataset: one million videos for event understanding
Mathew Monfort, Bolei Zhou, Sarah Adel Bargal, Alex Andonian, Tom Yan, Kandan Ramakrishnan, Lisa Brown, Quanfu Fan, Dan Gutfruend, Carl Vondrick, Aude Oliva
1801.03150

概要

3秒以内のラベル付けされた動画像が100万以上含まれるデータセットMoments in Time Datasetを提案。今まで動画DBでありがちであった人物のみに偏ることなく、物体や動物、自然現象なども積極的に含んでいる。

180305MomentsInTime

新規性・結果

3秒以内の瞬間的な動画にすることでノイズを含まない動画になりやすく、クラス間/クラス内のDIVERSITYを考慮、人物のみに限定せず動画像を汎用的に収集、動き自体の転移を考慮してカテゴリを定義している。

リンク集

[#185]
2018.3.5 20:25:53
Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments
Peter Anderson, et al.
CVPR 2018

概要

自然言語のナビゲーションを入力として、実空間の中をロボットが動き目的地に到達できるかどうかを競うベンチマーク(Visually-grounded natural language navigation in real buildings)を提案。データセットは3Dのシミュレータによりキャプチャされ、22Kのナビゲーション、文章の平均単語数は29で構成される。

180305R2RNavi

新規性・結果

(1) Matterport3Dデータセットを強化学習を行えるように拡張。(2) 同タスクが行えるようなベンチマークであるRoom-to-Room (R2R)を提案して言語と視覚情報から実空間にてナビができるようにした。(3) seq-to-seqをベースとしたニューラルネットによりベンチマークを構築。VQAをベースにしていて、ナビゲーション(VQAでいう質問文)と移動アクション(VQAでいう回答)という組み合わせで同問題を解決する。

コメント・リンク集

自然言語の問題はキャプションや質問回答の枠を超えて実空間、さらにいうとロボットタスクに導入されつつある。この研究はビジョン側からのアプローチだが、ロボット側のアプローチが現在どこまでできているか気になる。すでに屋内環境をある程度自由に移動するロボットが実現しているとこの実現可能性が高くなる。SLAMとの組み合わせももう実行できるレベルにある?

[#186]
2018.3.5 19:53:46
Joint Object Category and 3D Pose Estimation from 2D Images
Siddharth Mahendran, Haider Ali, Rene Vidal
arXiv:1711.07426

概要

「2D画像」と「物体位置」の入力から「3D物体姿勢」と「カテゴリラベル」を出力する研究。ResNetベースのアーキテクチャを採用している。物体カテゴリが既知/未知の場合の両方で3次元物体姿勢の推定ができる。物体の回転とカテゴリ推定の同時誤差を計算する関数も定義。

180305_2D23D

新規性・結果

3次元物体姿勢推定とカテゴリ推定の同時回帰問題において、Pascal3D+ datasetでState-of-the-artな精度。物体カテゴリが未知の場合でもカテゴリを推定しながら3次元姿勢推定を実行することができる。

リンク集

[#187]
2018.3.5 19:25:04
Adversarial Attacks Beyond the Image Space
Xiaohui Zeng, Chenxi Liu, Yu-Siang Wang, Weichao Qiu, Lingxi Xie, Yu-Wing Tai, Chi Keung Tang, Alan L. Yuille
arXiv:1711.07183

概要

Adversarial Examples(ネットワークを騙す摂動ノイズ)に関する研究だが、特に物体識別や質問対応(Visual Question Answering)への問題を扱う。さらに、従来の問題では2D画像を取り扱っていたが、本論文では3Dレンダリングとその2D平面投影画像に拡張する。ひとつの摂動ノイズは誤差逆伝播のエラーを直接出力の2D空間に投影すること、もうひとつは敵対的ノイズを予め2D画像に構築して物理空間からレンダリングすることである。

180305VQAAttacks

新規性・結果

ここでは(1)3次元的な物理的空間を想定して摂動ノイズを加えることができるかどうかについて言及、(2)ノイズを含んだ攻撃画像が与えられた際に、それら攻撃から守るような適切な物理空間を構成できるかどうかを検討した。3次元的な物理空間の攻撃は、法線方向・光源・材質などを考慮しつつ出力に対して防衛可能であるため、2次元の画像空間よりも攻撃が難しいと主張。

コメント・リンク集

画像空間を超えてボリュームデータに対する摂動ノイズが議論され始めた。どんな空間でも埋め込める攻撃や、それらから防衛可能な手法を汎用的に考えてみたい。また、セキュリティ分野の知見はCVにもっと導入されるべき?

[#188]
2018.3.5 19:08:53
Personalized Cinemagraphs using Semantic Understanding and Collaborative Learning
T. Oh et al.,
ICCV 2017

概要

Cinemagraph(画像中の一部だけ動画)を自動生成するための手法を提案. セマンティックセグメンテーションも導入してシーンの意味的な情報を利用し, 高品質なCinemagraphの生成を実現する手法とした. さらに,動かす対象がたくさんある中でどれを選ぶとよいかをユーザごとの個人的な嗜好を学習することで, personalizeされた生成を実現している. Stablizeされている動画を入力として, セマンティックセグメンテーションの情報を利用したMRFの最適化によりCinemagraphを生成, その後学習したuser preferenceのモデルにより候補の中から選択する.
180305personalizedcinemagraph.png

新規性・結果

  • セマンティックセグメンテーションにより意味的な理解をCinemagraph生成に導入
  • 個人的な嗜好に沿ったCinemagraphの自動生成を実現

自由記述欄

  • ユーザの嗜好を学習するためにデータにスコア付けしてもらうなど,CVよりはMultimediaっぽい論文
  • 結果サンプル
[#189]
Kensho Hara
Multi-Agent Cooperation and the Emergence of (Natural) Language
Angeliki Lazaridou, et al.
ICLP 2017
Munetaka Minoguchi

概要

マルチエージェント間の対話による言語学習を提案。SenderエージェントとReceiverエージェント間で簡単な画像当てゲームを実施。ゲームの正解のためにより良質なコミュニケーションが必要となり、言語を学習していく。また、ゲーム環境を変化させることで、単語の意味と画像がより良く対応するようになる。

手法

Senderエージェントは、2枚の画像のうち1枚がtargetであると伝えられる。そして、これを伝えるためにReceiverエージェントにsymbol(メッセージ)を送信する。Receiverエージェントは、受信したsymbolの情報のみから、どちらの画像がtargetであるかを当てる。

SenderとReceiverに見せる画像を変える実験や、人がゲームを実施する実験を行った。

結果・リンク

人間と生産的にコミュニケーションできるAIの開発に貢献できる。言語の習得には、大量のデータだけでなく、他者との対話が重要。また、Senderが出力したsymbol(Image Netのラベルに対応したもの)を人間に見せると68%の正解率となった。

[#190]
Turning an Urban Scene Video into a Cinemagraph
H. Yan et al.,
CVPR 2017

概要

Cinemagraph(画像中の一部だけ動画)を自動生成するための手法を提案. Warpingして動画中の視点を固定した後,セグメンテーションをかけてからDynamicな領域を見つけて, そこだけ動くようにしてCinemagraphを生成. 街中のシーンで光やディスプレイだけが動くようなCinemagraphを自動的に生成することを可能にした.
180302_turning_cinemagraph.png

新規性・結果

  • 街中で普通に撮影した動画から自動的なCinemagraphの生成を実現
  • ノイジーなWarping動画でも有効な動き解析手法を提案
  • サンプル動画

自由記述欄

  • 特に定量的な評価はなくて,サンプルを出してうまくいっているでしょ,というやり方
  • 失敗例を出してLimitationまで議論しているけど,こういうのはCVPRだと珍しい気がする
[#191]
Kensho Hara
A Read-Write Memory Network for Movie Story Understanding
Seil Na, et al.
ICCV 2017
Munetaka Minoguchi

概要

大規模でマルチモーダルの映画ストーリー理解のためのMovieQA を解く。新しいメモリネットワークモデルのRWMN(ReadWrite Memory Network)を提案。一連のフレームを段階的に抽象化して、より高レベルの順次情報を取得し、それをメモリスロットに格納していく。CNNを多用し、読み取りネットワークと書き込みネットワークを設計。これにより、メモリの読み書き操作に高い容量と柔軟性を持たせることができる。

手法

Embedding:ResNetとWord2Vecを用いて映画の埋め込みを行う。

Write: CNNを書き込みネットワークとして利用し、メモリテンソルを出力。

Read: CNNを使用して、一連のシーン全体をつなぎ合わせて関連付けるために、シーケンシャルメモリスロットにチャンクごとにアクセス。構成されたメモリMrを得る。

QA: 5つの候補中から最も信頼度のが高い回答を選ぶ。

結果・リンク

ストーリーのコンテンツだけでなく、キャラクターとその行動についての理由など、より抽象的な情報を理解できる可能性を示唆。

[#192]
Sequence to Sequence – Video to Text
Subhashini Venugopalan, et al
ICCV 2015
Munetaka Minoguchi

概要

ビデオのキャプションを生成するためのend-to-endかつ、sequence-to-sequenceモデルの提案。本手法のS2VTによって、一連のフレームを一連の単語に直接マッピングし、学習することができる。入力フレームの可変数の扱い、ビデオの時間構造を学習、自然な文法文の生成、この3点が本研究のコントリビューション。

手法

各フレームのCNNの出力と、連続したLSTMに入力する。また、ビデオの時間構造をモデル化するためにオプティカルフローを算出し、フロー画像もCNNを介してLSTMに入力する。全てのフレームを読み込んだ後に、単語単位で文章を生成する。

使用データセット:MSVD, M-VAD, MPII Movie Description

結果・リンク

評価は機械翻訳に使われるMETEORで行う。フレームの順序をランダムにした場合、スコアがかなり低減したことから、時間的構造を利用したキャプションの生成ができていることを示唆。

[#193]
Deformable Convolutional Networks
Jifeng Dai, et al.
ICCV 2017
Munetaka Minoguchi

概要

CNNの表現力の向上を図る。CNNによる物体検出などでは、矩形を用いるために検出対象の物体だけでなく、余計な背景も含んでしまい精度低下につながる。可変可能な畳み込みとRoIプーリングを提案。これにより、画像の畳み込みを行う際に、重みに加えてセルの位置も学習する。特に、物体検出やセマンティックセグメンテーションなどのタスクに効果的。

手法・結果・リンク

変形可能な畳み込み:規則的(矩形)にセルをサンプリングする標準の畳み込みに、オフセットを追加することで、自由形状変形を可能にする。オフセットは追加の畳み込みレイヤを介し、前のfeature mapから学習可能。

可変可能なRoIプーリング:RoIプーリング時の各binの位置にオフセットを追加する。畳み込みと同様に、前のfeature mapから学習可能。

様々な条件での実験を実施。どの条件でも提案手法の精度が高い結果となった。

[#194]
Image Captioning with Sentiment Terms via Weakly-Supervised Sentiment Dataset
Andrew Shin, et al.
BMVC 2016
Munetaka Minoguchi

概要

画像キャプショニングの中でも、画像上にはない形容詞で表現された“感情”についてのキャプションに焦点を当てる。センチメントタームを用いた画像キャプションモデルを提案。これにより、センチメントの主観的性質に対応するマルチラベル学習を実現。FlickrとDeviantArtから、2.5Mの画像と28Mのコメントを収集し,感情に対するデータセットを構築。“コメント”はキャプションとは性質が異なるが、感情を表現するために適している(否定や不適切を除く)。

手法

CNN→LSTMという一般的な画像キャプションの流れに、センチメント分析を行うCNNを追加する。SentiWordNetの正または負のスコアが0.5以上の単語を感情単語とする。

SentiWordNet:意見聴衆のための語彙リソース。正、負、客観性の3つの感情スコアを算出。

結果・リンク

キャプションが適切出るかどうかと、キャプションのランク付けの2つの人間による評価。モデルからのキャプションがイメージの感情に関してより適切であるという結果となった。

[#195]
Representation Learning by Learning to Count
Mehdi Noroozi et al.
ICCV 2017 (Oral)
Tomoyuki Suzuki

概要

「画像内のprimitiveを認識できることは高次の特徴を掴んでいる」という考えを基にした、self-supervisedな特徴表現学習手法。 画像のオリジナルとそれらを各タイルに分割したものを同じNNに入力し、出力されるタイルのprimitive数の和とオリジナルのprimitive数が一致するように学習する。 しかしそれでは出力を単に小さくするように学習することで損失を0にできてしまうので異なる画像も含めたcontrastiveな損失を用いる。

新規性・結果

画像識別、物体検出、意味領域分割などのタスクで評価を行っており、識別ではSoTA。 学習したNNからの出力を確認すると、ノルムが大きいものは高次な物体が含まれる画像、小さいものは低次なテクスチャしか含まない画像が得られた。 これからNNが高次なprimitiveをcountしていることが考察できる。

自由記述欄

損失を最小化することで結果的にNNが「何かしらのprimitiveを数えていること」になり、冒頭の考えと合わせることで特徴表現学習が可能となる。 何か明示的に数える対象を与えるように想像したが、実際に何を数えているかは学習ベースで、明示的には与えていない点が非常に面白い。
[#196]
Visual Storytelling
Ting-Hao (Kenneth) Huang, et al.
NAACL 2016
Munetaka Minoguchi

概要

アルバムのような時系列画像でキャプション生成を行うためのデータセット。ストーリ性のある画像キャプションデータセット:SINDを構築。10,117個のFlickrアルバム、210,819枚の写真。各アルバムは平均20.8枚。

descriptions for images in isolation (DII):画像一枚の記述

descriptions of images in sequence (DIS):連続画像

stories for images in sequence (SIS):ストーリー

手法・リンク

SINDを使いキャプションをイメージごとに生成(Table5)。ストーリー性を含んだキャプションが生成できている。METEORによるスコアも向上。

[#197]
Inferring and Executing Programs for Visual Reasoning
Justin Johnson, Bharath Hariharan, Laurens van der Maaten, et al.
ICCV 2017
Munetaka Minoguchi

概要

理由に基づいたVQA。既存の手法では,入力を出力に直接マッピングしているため,視覚的推論の学習というよりも,データの偏りを学習しているといえる。そこで,理由を伴った視覚的推論モデルを提案。モデルは、プログラムジェネレータと実行エンジンの2部構成。CLEVRベンチマークを使用し評価。回答の柔軟性、拡張性の向上。

手法・リンク

プログラムジェネレータは、質問の読み取り、単語の羅列として表現される質問から質問に答えるためのプログラムを生成する。基本的にはLSTMのsequence-to-sequenceの考え方。

実行エンジンは、予測されたプログラムをミラーリングするニューラルモジュールネットワークを構成し、実行することで画像から回答を生成。

[#198]
Deep mutual learning
Ying Zhang, Tao Xiang, Timothy M. Hospedales, Huchuan Lu
2017
Tomoyuki Suzuki

概要

教師モデルと生徒モデルを分けていた従来の蒸留に対してモデル同士の相互学習を提案。ハードラベルによる交差エントロピーと対象モデル以外のモデルの出力とのKL距離を最小化するように学習する。様々なモデル同士の相互学習実験や通常の蒸留との比較、相互学習を行った場合の解がより高い汎化性能を保有していることの検証実験も行っている。

新規性・結果

画像識別において通常の蒸留を行うよりも精度が良くなった。生徒モデルの中で相対的に小規模なモデルのみならず大規模なモデルも独立で学習を行うより精度が良かった。さらに相互学習を行うことで、wider minimaに収束しているという実験結果も得られた。特に出力される事後確率のエントロピーが大きくなるように学習されることがwider minimaへの収束を促していることがいわれている。

自由記述欄

ハードラベルありき(ないと相互学習が正しい方向に向かわない)の手法であったが、教師なし手法に拡張できたら面白くなりそうだと感じる。

[#199]
Learning Features by Watching Objects Move
Deepak Pathak, Ross Girshick, Piotr Dollar, Trevor Darrell, and Bharath Hariharan
CVPR 2017
Tomoyuki Suzuki

概要

動き特徴を利用した前景(物体)領域情報は汎用的な表現学習に役立つという考えから、NLCなどのhand-craftな手法を組み合わせて擬似的な動体領域を作成し、それを教師として領域分割をCNNに解かせることで表現特徴を得る。物体検出、物体・行動認識、意味領域分割の問題設定において評価を行った。表現学習のデータとしてYFCCを用いている。

180302AffordanceNet180302AffordanceNet180302AffordanceNet

新規性・結果

Pascal VOCの物体検出において教師なし表現学習でSoTA。特にfine-tuningに利用するデータが少量の場合と多くの層のパラメータを固定してfine-tuinigした場合で大きな効果を発揮した。しかし、物体・行動認識、意味領域分割においては従来手法より劣っている。

自由記述欄

実験は丁寧に行われてる印象。表現学習の設定自体が物体検出を意識しているようにも感じられ(単一物体が写っている画像を優先的に取り出している?など)、物体検出でうまくいくのは当たり前な気もした。

しかし、意味領域分割で精度が出ない原因がよくわからなかった(物体部分はできているが背景の分割ができていない?)。
[#200]
Focal Loss for Dense Object Detection
Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollar, Facebook AI Research (FAIR)
ICCV 2017
Munetaka Minoguchi

概要

1-stage物体検出手法の精度向上を図る。 YOLOやSSDなどは,矩形領域における前景と背景の面積が不均衡であるため,2-stage物体検出手法に勝てないと推測。この問題を解決するためにクロスエントロピーを再構築したFocal Lossを提案。学習時のネガティブサンプルの影響を減らすことができる。

手法

Focal Loss

クロスエントロピーに重みを追加

  • 正解の場合には重みを低減
  • 不正解の場合には従来通り

→正解になりやすい背景に引っ張られなくなる

結果・リンク集

既存の最先端2ステージ検出器(2017年現在)の全てにおいて精度を上回り,既存の1ステージ検出器の検出速度と同等

[#201]
Towards Diverse and Natural Image Descriptions via a Conditional GAN
Bo Dai, Sanja Fidler, Raquel Urtasun, Dahua Lin, et al.
ICCV 2017
Munetaka Minoguchi

概要

画像キャプショニングの性能向上を図る。従来のロバスト性が低いRNNに代わって,GANのフレームワークを採用することで,自然性と多様性を向上。図より,ジェネレータ(G)が文を生成し,ディスクリミネータ(E)が文や段落がどれだけうまく記述されているかを評価する。GとEを同時に学習させることにより,自然な文章を生成。

結果・リンク集

  • 人間,G-MLE,G-GAN(本手法)の3つを比較して性能評価
  • ユーザー調査、定性的な例、および検索アプリケーションなどの評価により,より自然かつ多様、意味的に関連する記述を実現

[#202]
Learning to Segment Every Thing
Ronghang Hu, Piotr Dollár, Kaiming He, Trevor Darrell, Ross Girshick
CVPR 2018

概要

ラベルが完全に手に入らない際にでも転移学習が可能なセグメンテーション手法(論文中ではPartially Supervised Training Paradigm, weight transfer functionを紹介)を提案する。条件として、bboxが手に入っている物体に対してセグメンテーション領域を学習可能。Mask R-CNNをベースとしているが、Weight Transfer Functionを追加、セグメントの重みを学習・推定して誤差計算と学習繰り返し。

180303SegmentEverything

新規性・結果

Visual Genome Datasetから3,000の視覚的概念を獲得、MSCOCOから80のマスクアノテーションを獲得した。

コメント・リンク集

弱教師付き学習が現実的な精度で動作するようになってきた?アノテーションはお金や知識があっても非常に大変なタスクであり、いかに減らすかという方向に研究が進められている。(What's next?ー弱教師/教師なしの先とは?)

[#203]
2018.3.3 10:46:40
One-Shot Visual Imitation Learning via Meta-Learning
Chelsea Finn*, Tianhe Yu*, Tianhao Zhang, Pieter Abbeel, and Sergey Levine
NIPS 2017

概要

ワンショットで人間の教示を模倣するロボットのための学習「One-shot Imitation Learning」を提案。人間が物体を把持するなど動作を教示するとロボットが特徴や動作を学習してタスクをこなす様子を学習。Model-Agnostic Meta-Learning(MAML; ICML2017)を応用したモデルを提案し、(VR空間、人間のデモによる)教示から動作を学習する。アーキテクチャはCNNをベースとしてRGB入力から特徴を抽出、中間層(全結合層直前)からロボットの動作やバイアス項を入力してロボットの行動(pre-/post-update)を出力する。

180303OneshotImitation

新規性・結果

ロボットの把持タスクをシミュレーション/実空間にておこなった。シミュレーションでは提案法のMILが1ショットで85.81%、5ショットで88.75%(従来法LSTMでは各78.38%, 83.11%)。実空間では90%を実現(従来法LSTM/contextualでは25%)。詳細にはプロジェクトページやプレゼンのビデオを参照。

コメント・リンク集

[#204]
2018.3.3 10:13:42
BAM! The Behance Artistic Media Dataset for Recognition Beyond Photography
Michael J. Wilber, Chen Fang, Hailin Jin, Aaron Hertzmann, John Collomosse, Serge Belongie
ICCV 2017
Munetaka Minoguchi

概要

CVにおけるデータセットでは,写真に対するラベル付けが一般的。写真だけでなく,イラストや風景画などに対して,以下の3属性のラベルを付加。

  • メディア:漫画、油絵、鉛筆スケッチ、水彩画などで作成した画像にラベル付け
  • 感情:視聴者に平静、幸せ/陽気、悲しい/悲観的、恐ろしい/恐れを感じさせるような画像にラベル付け
  • オブジェクト:自転車、車、猫、犬、花、人などの画像にラベル付け

手法

Behance Artistic Media Dataset

  • ラベル作成にhuman-in-the-loopを採用し,人間とコンピュータのハイブリッドを図る。
  • 全てのラベルについて学習し,ランク付けを行う。その後,高い順位の画像を人がラベル付け。これを4回繰り返す。
  • 基本的にはLSUNの方法に基づいている(リンク参照)

結果・リンク集

物体認識や物体検出,画像の類似度,属性推定など様々なタスクの機械学習実験を実施。定性的な評価にはなるが,明らかにVOCやImageNetなどの既存のデータセットよりも広い表現の画像で多くのタスクが処理可能となる。

[#205]
AffordanceNet: An End-to-End Deep Learning Approach for Object Affordance Detection
Thanh-Toan Do, Anh Nguyen, Ian Reid, Darwin G. Caldwell, Nikos G. Tsagarakis
ICRA 2018

概要

物体検出とアフォーダンス(というよりは機能?)のセグメントを同時に回帰するネットワーク、AffordanceNetに関する論文。ロボットへの把持位置/機能教示を行うことができる。基本的なモデルはMask R-CNNを適用していて、物体検出のためのbboxと物体に対する機能セグメントを正解として学習する。多タスクの誤差関数は物体カテゴリ、座標、機能セグメントの3つに関するものである。

180302AffordanceNet

新規性・結果

従来、物体検知と機能推定は別個に学習・認識されていたが、本研究では多タスク学習の枠組みで、単一モデルにてEnd-to-End学習した。IIT-AFF Datasetにて73.35(SoTAは69.62)、UMD Datasetにて79.9(SoTAは77.0)。モデルも公開されており、誰もがAffordanceNetを実装できるようにしている。

コメント・リンク集

任意のセグメンテーションラベルさえあれば、物体検知とあらゆる高次なセグメンテーションモデルが実現可能となった。

[#206]
2018.3.2 20:38:13
Knowledge Concentration: Learning 100K Object Classifiers in a Single CNN
Jiyang Gao, Zijian (James) Guo, Zhen Li, Ram Nevatia
arXiv:1711.07607

概要

画像識別における知識蒸留(Knowledge Distillation)の内容である。本論文ではある概念(e.g. 動物認識、人工物認識)ごとに教師となる識別器を事前学習しておき、それらの知識を単一の識別器に学習(これをKnowledge Concentrationと呼称)する。いわば複数の先生がある生徒に教えるという流れで学習する。

180302KnowledgeConcentration

新規性・結果

よくも悪くも、現状のCVはImageNetの1,000カテゴリに頼っているが、これを100倍の100,000カテゴリに増やして学習したらどうか?また、いかにしたら効率よく学習ができるかを検討した。結果はSingle Model(従来のようなCNNによるカテゴリ識別学習)にするよりも複数のスペシャリスト識別器から知識蒸留を行う方が効率よく、精度よく学習ができた。本論文で使用したEFT(Entity-Foto-Tree)データセットはカテゴリ数でImageNetの100倍、JFT-300Mの5倍である。

コメント・リンク集

読んだだけでGoogleの研究所であることがわかってしまう論文。実行ができるかどうかはさておき、大規模データの扱いやCNN学習の効率化という意味でも精読すべき論文。

[#207]
2018.3.2 20:04:42
We Are Humor Beings: Understanding and Prediction Visual Humor
Arjun Chandrasekaran, Ashwin K. Vijayakumar, Stanislaw Antol, Mohit Bansal, Dhruv Batra, C. Lawrence Zitnick, Devi Parikh, Virginia Tech, TTI-Chicago, Facebook AI Research
CVPR 2016

概要

  • 視覚とユーモアの関係をモデル化(不調和説に基づく)
  • アニメ画像の面白さを推定
  • 画像のオブジェクトと面白さの関連性を推定
  • データセットの作成
  • 抽象的なシーンを使用したユーモアを引き起こすシーンの理解

手法1

面白さ推定

  • 特徴抽出し,重み付き誤差平均(面白さによって誤差を変える)
  • Abstract Scenesのアニメ画像(VQAの画像とクラウドソーシングで依頼した面白い画像)に5段階評価したデータセット(AVH)

手法2

面白い画像・面白くない画像の変換

  • オブジェクトを変更することで,面白い⇔面白くない画像に相互変換
  • AVHから面白いものを選び,クラウドソーシングで依頼した面白くない画像を使い/面白い画像ペアを作成
  • どのオブジェクトが面白さに影響しているか調査

結果:特に人や動物などのオブジェクトが面白さに影響

[#208]
Munetaka Minoguchi
Vehicle Three-Dimensional Pose and Shape Estimation from Multiple Monocular Vision
Wenhao Ding, Shuaijun Li, Guilin Zhang, Xiangyu Lei, Huihuan Qian, Yangsheng Xu
arXiv:1802.03515

概要

オーバーラップが少ない複数視点カメラから自動車の3次元姿勢や形状を復元する研究。CNNにより自動車のキーポイントや姿勢/3次元形状を出力する。これら情報をヒントに、カメラ視点を推定する。2D画像上でのキーポイント推定にはconv-de-convを4回繰り返すhourglassアーキテクチャを採用、3次元姿勢や形状の推定にはCross Projection Optimization (CPO)を採用し2D-3Dの投影誤差を最小化した。

180302Vehicle3DPose

新規性・結果

物体のキーポイント検出においてState-of-the-art。6DoF推定手法 (Pavlakos, ICRA17)では12キーポイントの平均誤差が37.88であったが、提案手法では10.48まで低減した。また、回転/並進誤差も3DVP (Xiang+, CVPR15)では11.18/N/Aであったが、2.87/4.73まで向上させた。

[#209]
2018.3.2 10:15:30
Joint Event Detection and Description in Continuous Video Streams
Huijuan Xu, Boyang Li, Vasili Ramanishka, Leonid Sigal, Kate Saenko
arXiv:1802.10250

概要

End-to-Endでイベント検出(行動の時系列セグメント化)とキャプショニングを実行するタスクを提供する。モデルには3D Convolutionや階層的LSTM(two-level hierarchical LSTM)を採用した。基本的にはDense Captioning Events in Videosをベースにして研究を行なっているが、{Controller, Captioner} LSTMの二段階により前の候補のセンテンスやビデオコンテキストを考慮しつつ状態を更新(Controller LSTM)し、候補領域の特徴を参照しつつキャプションを生成(Captioner LSTM)する。時系列候補領域とキャプションはmulti-task学習、End-to-Endで学習される。

180302VideoCaption

新規性・結果

候補領域生成やキャプショニングの精度を検証した。また、データセットにはActivityNet CaptionsやTACoS Datasetを用いた。候補領域については従来法のDAPが30, multi-scale DAPが38 @AUC (IoU>0.8)に対して提案法であるJEDDi-Netは58.21を記録した。また、キャプショニングについては従来法が{17.95, 4.82, 17.29} (各BLEU1, METEOR, CIDEr)の問題に対して{19.97, 8.58, 19.88}を記録した。

コメント/リンク集

動画のタスクはカテゴリのみでなく言語やより表現力豊かな認識ができなければいけない時期になって来た?時系列表現にもまだまだ課題が多いので、これからさらに動画認識にチャレンジすべき。また、キャプショニングの問題は感性評価に対する知見や確固たる評価方法が確立されるとさらに面白くなるのではないか。

[#210]
2018.3.2 09:36:26
Neural Aesthetic Image Reviewer
W. Wang, et al.
arXiv:1802.10240

概要

AIが写真の感性評価やコメント生成を行なってくれる。写真とそのコメントが対応づけられた大規模DBであるAVA-Reviews dataset(52,118画像、312,708コメント)を学習することで写真を入力して図の(1)Predictionや(2)Commentsのようなものが得られる。モデルはCNNにより感性評価(Low-/High-Aesthetic category)を、CNN+LSTM(RNN)によりコメント(e.g. Fastastic colors)を出力する。

180301NeuralAesthetic

新規性・結果

(i) 人間のような画像に対する感性評価(image aesthetics)をコンピュータに実装した。(ii)自然言語の出力により人間の高次な認知能力を実現。(iii) 画像-言語の組み合わせによるデータセットAVA-Reviews datasetを新規に構築した。

リンク集

[#211]
2018.3.2 08:39:04
Interpreting CNN Knowledge via an Explanatory Graph
Q. Zhang, et al.
AAAI 2018

概要

深層学習の解釈性に関する論文であり、畳み込み層の特徴マップの応答を外的に解析して対応する反応を可視化。畳み込みの各フィルタが異なる部位(e.g. 馬の耳や目)に反応するので、グラフにより解析して元画像の対象位置にアクセス。

180301interpretability.png

新規性・結果

Ground-truthなしに各部位に関する解釈性を与えたことが新規性である。図に示すように入力画像に対するパーツごとの解析をフィルタの反応やグラフの解析から可視化することができる。 さらに、異なる画像間においても一貫性のある反応を得ることができた。

自由記述欄

深層学習は教師なしによる解釈性を獲得しているが、まだ反応している部分の可視化や部分ごとの解析が進んでいるにすぎない。さらなる発展のためには、言語的な解釈や人間にわかりやすい加工(イラストとか?)が必要になるのではないだろうか。

[#212]
HemaApp: Noninvasive Blood Screening of Hemoglobin using Smartphone Cameras
E. J. Wang et al.,
Ubicomp 2016
Kensho Hara

概要

スマホカメラを使って非侵襲なヘモグロビン濃度の測定を実現.血中の酸素飽和度の測定などはこれまでにもあったがヘモグロビン濃度まで測定できているものはなかった. 照明条件とRGBの変化からヘモグロビン濃度を推定するためのアルゴリズムを提案.

180228_hemaapp.png

新規性・結果

特別な装置を使うことなく簡単にスマホカメラでヘモグロビン濃度測定を実現した点.

自由記述欄

システムやユーザスタディの完成度や完全に実現できたときの有用性が評価された?

[#213]
2018.3.1 10:44:03
End-to-end Driving via Conditional Imitation Learning
Felipe Codevilla, Matthias Müller, Alexey Dosovitskiy, Antonio López, and Vladlen Koltun,
arXiv
1710.02410

概要

自動運転を模倣学習により行う手法を提案。実空間での学習結果をヴァーチャルな空間での自動運転にて再現することができた。RGB画像、計測(e.g. スピード)や命令(e.g. turn right)などからステアリング、アクセル、ブレーキなどのコマンドを出力して自動車を操作する。

新規性・結果

  • 模倣学習による自動運転を実現した。
  • 実空間とシミュレーションベースの転移を行うことにも成功。

リンク集

[#214]
Open3D: A Modern Library for 3D Data Processing
Qian-Yi Zhou et al.,
arXiv
1801.09847

概要

3Dデータを取り扱い、迅速な開発を可能にするOpen3Dを提供する。Open3DはC++/Pythonをサポート、並列化にも対応しており、クラウドで開発することが可能。 点群読み込み-ダウンサンプリング-法線の計算、シーン再構築、3次元可視化などの処理が含まれている。

新規性・結果

3次元画像処理のコミュニティにて有益なオープンソースを提供し、そのコードも提供されている。
[#215]
Hierarchical Variational Autoencoders for Music
A. Roberts et al.,
NIPS WS on Machine Learning for Creativity and Design, 2017.

概要

音楽を生成するためのHierarchical Variational Autoencoders (VAE) を提案. エンコーダとデコーダがLSTMで構成されているReccurent VAEがベース.結果サンプル長い音楽(実験では32小節)を単純なLSTMデコーダで生成するのは難しいので, この研究では複数のLSTMを階層的に重ねて,段階的に長くしていくHierarchical VAEを提案. ループメロディの外挿や,メロディの生成,3ピース構成の音楽生成の実験で性能を検討. 結果の音楽やコードは公開されている.

新規性・結果

  • 階層的なLSTMによるデコーダをVAEによる音楽生成に導入
  • 結果サンプル

自由記述欄

  • これも長期的な構成を考えて生成することはできていない
  • Future Workにはインタフェースを作るとあるし,1曲まるごと作るというよりは適当にサンプルを出して作曲家のアイデアを促進することを目指しているのかな.
[#216]
Kensho Hara
Generating the Future with Adversarial Transformers
C. Vondrick et al.,
CVPR, 2017.

概要

未来の動画を予測して生成する手法を提案. 4フレーム x 64画素 x 64画素のクリップを入力として,その後の16フレームの動画を生成. 完全に新しいフレームを生成するのは難しいので,入力フレームの変換により未来のフレームを生成するのがポイント. 論文の主張としては,きれいな動画を作るにはLow-Levelな情報が重要だけど,未来予測のためにはHigh-Levelな理解も必要で, その両者を一つのネットワークで一気に学習するのは難しいとしている. だから,Low-Levelな情報は元のフレームを変換することで引っ張ってきて,ネットワークはHigh-Levelな特徴抽出に集中させるのが良いとのこと. このネットワークの学習はGANベース. 生成動画の主観評価や可視化,Generatorの特徴を利用した物体認識タスクなどで性能を評価.

新規性・結果

  • 元のフレームからの変換により未来のフレームを生成する手法を提案
  • 未来の動画生成において,敵対的学習により大規模な教師なしデータを利用した学習を実現
  • 直接動画を生成したり,回帰誤差で学習したりする手法よりも良いことを主観評価実験で確認

自由記述欄

  • 入力が4フレームだけだけど,もっと増やすと性能は変わるのか気になる
  • 主観評価で本物と比較すると提案手法が一番嫌われている率が高いのもちょっと気になる
[#217]
Kensho Hara
DensePose: Dense Human Pose Estimation In The Wild
Rıza Alp Guler et al.

概要

身体の表面形状まで考慮したDenseな姿勢推定手法に関する研究。サーフェイスモデルを提供するSMPLタイプとアノテーションベースのMSCOCOタイプを提供。手法はMask RCNN(w/ ResNet-50, ROI-align, Regression)をベースに構築している。

新規性・結果

  • DenseReg [Guler,CVPR17]は顔表面の推定に対して、本研究では身体全体の表面やデンスなポイントを回帰。
  • SMPLやDense-COCOのデータセットを構築
  • 非拘束(in the wild)の環境にてDensePoseを学習。

自由記述欄

[#218]
What will Happen Next? Forecasting Player Moves in Sports Videos
Panna Felsen et al.
ICCV, 2017.

概要

チームスポーツにおいて次に起こることを予測する研究。2チームに分かれたゴール型スポーツを対象とし、ボールを持つ選手の遷移やファールの有無などの推定を行った.

新規性・結果

  • 水球とバスケットボールのデータセットを構築した
  • 画像から選手やボールの位置を上から見た画像に変換する手法を提案した
  • 他のスポーツで学習したものを適用した場合(例:学習→水球 テスト→バスケ)ランダムフォレストの方がニューラルネットより精度が高いことが分かった

自由記述欄

  • この論文のようにニューラルネットがうまくいかない例を調べるのは面白そう
[#219]
Shintaro Yamamoto
Visual Forecasting by Imitating Dynamics in Natural Sequences
Zeng et al.
ICCV, 2017.

概要

動画シークエンスから未来を予測する研究。フレーム間の遷移モデルを考え,次のフレームや行動を推定する。適用対象はフレームの生成から次のシーンの選択など幅広い。

新規性・結果

  • ドメイン知識やhandcrafted特徴無しにinverse reinforcement learningとして学習させる
  • フレーム生成、行動予測、ストーリー予測全てにおいて精度の向上に成功した

自由記述欄

[#220]
Shintaro Yamamoto
A Domain Based Approach to Social Relation Recognition
Qianru Sun et al.
CVPR, 2017.

概要

画像中に写っている人々の関係を推測する研究。社会心理学に基づいた16の関係(親子、友人など)を識別する。それぞれの人物から抽出された特徴を入力とするネットワークにより判定する。

新規性・結果

  • 社会心理学に基づいた理論をコンピュータビジョンに導入した
  • 画像に関係性などのラベルを付けることで、より広い用途で用いることができるデータベースを提案
  • 社会心理学に基づき、セマンティックなアトリビュートを収集した

自由記述欄

  • 社会学系の理論をCVに持ってくるのは面白そう
[#221]
Shintaro Yamamoto
Forecasting Interactive Dynamics of Pedestrians with Fictitious Play
Ma et al.
CVPR, 2017.

概要

画像中に写っている人々の歩行ルートを予測する手法。各歩行者に対して歩行モデルを決定し、他の人とぶつからないようによけるなど他者の行動を考慮した上で歩行ルートを決定していく。

新規性・結果

  • ゲーム理論に基づき、他の歩行者の進行方向を予測した上でルートを決定する
  • 年齢などの情報を抽出し、各歩行者の歩行速度などを決定する
  • 既存手法と比べて長期的な予測の精度が向上

自由記述欄

  • ゲーム理論の応用は興味深い
  • どれくらいの人数までできるのだろうか?(人ゴミは無理?)
[#222]
Shintaro Yamamoto
DeepNav: Learning to Navigate Large Cities
Brahmbhatt and Hays
CVPR, 2017.

概要

目的地までのルートを推測する研究。ストリートビューの画像から、どの方向に進めば銀行やガソリンスタンドなどの目的地に近付けるかを決定していく。ネットワークとしては、目的地までの距離、最も最短となる方角、2枚の画像のどちらが目的地に近いかの3種類を提案。

新規性・結果

  • アメリカ10都市を対象にストリートビューのデータセットを構築
  • 3種類のCNNネットワークを構築し,hand-crafted特徴及びSVRベースの手法より精度が向上した
  • ラベル付けを効率化するメカニズムを提案した

自由記述欄

  • それぞれの目的地に対してどのような特徴を持った方向が選ばれているのか気になった
  • 場合によっては同じ場所を何度も回るだけになってしまう?
  • 論文URL
  • 比較論文
[#223]
Shintaro Yamamoto
Forecasting Human Dynamics from Static Images
Chao et al.
CVPR, 2017.

概要

1枚の画像から、人間のモーションを推定する研究。画像から2次元の姿勢を推定し,その結果を3次元に変換することで出力を得る。学習は3段階に分かれており、2次元姿勢推定部は2次元姿勢データベースを使用して学習をし、3次元姿勢推定部はモーションキャプチャデータを2次元投影することにより学習を行い、最後に全体を通して学習を行う。

新規性・結果

  • 従来研究とは異なり、RNNを用いることにより静止画からモーションを推定することを可能とした
  • 推定した2次元の姿勢から3次元の情報を復元するネットワークを提案した
[#224]
Shintaro Yamamoto
Toward Geometric Deep SLAM
Daniel DeTone, Tomasz Malisiewicz and Andrew Rabinovich
arXiv
arXiv:1707.07410
Yoshihiro Fukuhara

概要

2つのCNNを用いた高速かつ頑強な物体追跡手法を提案. 1つ目のCNN(MagicPoint)で入力画像から特徴点を抽出し, 2つ目のCNN(MagicWarp)で抽出された特徴点の位置情報のみから2つの画像間のホモグラフィー行列の推定を行う.

20180306--TowardGeometricDeepSLAM.png

新規性・結果

MagicPointは幾何学的に安定した点(物体の角や辺など)のみを抽出するため, ノイズに頑強である. また, MagicWarpを用いることで従来手法のように特徴量の記述子(descriptor) を計算する必要がなくなるため, 高速な動作が可能となった. 作成した単純形状のデータセット(Synthetic Shapes Dataset)では FAST, Haris, Shi よりも高精度.

リンク集

[#225]
Pedestrian Travel Time Estimation in Crowded Scenes
Yi et al.
ICCV, 2015.

概要

画像中に写っている群衆が、目的地にたどり着くまでの時間を推測する手法。目的地まで歩行するにあたり、他の歩行者の流れや立ち止まっている人の存在によって歩行ルートは変化する。このように、目的地まで最短距離で向かうことができず人によってルートが変化する状況における歩行時間の推定を行う。

新規性・結果

  • 目的地までの所要時間を統計的に推定する手法を提案
  • 人の流れの妨げになっている場所や異常行動の検出が可能に
  • 個人の移動時間に着目している既存研究と比べ、大衆に着目することで精度が向上

自由記述欄

[#226]
Shintaro Yamamoto
Emotional Filters: Automatic Image Transformation for Inducing Affect
Afsheen Rafaqat Ali, Mohsen Ali.
BMVC, 2017.

概要

入力された感情ヒストグラム(anger, disgust, fear, joy, sadness, surprise, neutral)を想起するように入力画像をカラートランスファーを行う手法を提案。ユーザは参照画像を用意することなく、入力された感情ヒストグラムと画像を元にデータベースから選択される。オブジェクト検出、シーン識別のそれぞれに対して訓練されたCNNに画像を入力することで、それぞれのトップレイヤーから特徴量を抽出。この特徴量と入力感情ヒストグラムを元にデータベースから、参照画像を10枚選択し、Poulのアルゴリズムを元にカラートランスファーを行う。

新規性・結果

  • ユーザスタディの結果、多くの画像で入力感情を想起するようにカラートランスファーを行うことができた。
  • 失敗例1 joy成分が強いヒストグラムを入力したところ、生成画像のjoy成分が強く感じたユーザは少なかった。
  • 失敗例2 画像が高次元なコンテキストを含んでいる場合(泣いている少女など)には良い結果は得られなかった。

自由記述欄

[#227]
Kazuki Inoue
A Mixed Bag of Emotions: Model, Predict, and Transfer Emotion Distributions Supplementary Material
Kuan-Chuan Peng, Tsuhan Chen, Amir Sadovnik, Andrew Gallagher.
CVPR, 2015.

概要

一人の人間は一枚の画像に対して様々な感情を抱くことから、一枚の画像に対する感情のアノテーションをある一つの感情ラベルにするのではなく、ヒストグラム(各成分はanger, disgust, fear, joy, sadness, surprise, neutral)として扱い、データセットを構築。このデータセットに対して、感情ヒストグラムを推定するCNNRというモデルを提案。また、ターゲットとなる感情ヒストグラムをもつ参照画像を用いて、生成画像がターゲット感情ヒストグラムに近くなるようなカラートランスファーを提案。

新規性・結果

  • 画像1980枚に対して感情ヒストグラム(各7つの成分は概要参照)と感情を表すVA値がアノテーションされているEmotion6データセットデータベースを構築
  • 入力を画像とし、感情ヒストグラムをSVRとCNNよりも精度が高いCNNRを提案
  • 入力画像のもつ感情ヒストグラムに対して、ターゲット感情ヒストグラムに近くなるようなカラートランスファーを提案。

自由記述欄

[#228]
Kazuki Inoue
Predicting Actions from Static Scenes
Tuan-Hung Vu et al.
ECCV, 2014.

概要

画像に対して、キッチンで料理するなどのようにそのシーン(場所)にふさわしいアクションを検出する研究。クラウドソーシングにより提示した画像に対する適切なアクションを答えてもらうことにより、シーンに対するアクションのラベル付けを行った。学習にはSVMを使用して画像に対するアクションの推定を行った。また、位置情報を持った画像を使用することによりXをするのに適切な場所を探すといった応用が可能となった。

新規性・結果

  • クラウドソーシングにより各画像に対するアクションのアノテーションを行った
  • アノテーション結果を分析することにより、人間はシーンからアクションが推測可能であることを示した
  • 位置情報と組み合わせることで、パリで泳ぐにはどこが適切か?などといった目的の活動ができる場所を探すことが可能に

自由記述欄

[#229]
Shintaro Yamamoto
Predicting Object Dynamics in Scenes
David F. Fouhey et al.
CVPR, 2014.

概要

画像に写っている物が、どのように移動していくかを予測する研究。接触している物体同士(例:人間と帽子)は一緒に移動するなど、周囲との相互作用などを考慮して過去のフレームからの変化を確率モデルとして考える。

新規性・結果

  • CRFを用いて前のフレームからの遷移を定式化した
  • CG画像、自然画像どちらに対しても適用が可能

自由記述欄

[#230]
Shintaro Yamamoto
Event Detection using Multi-Level Relevance Labels and Multiple Features
Zhongwen Xu et al.
CVPR, 2014.

概要

部分的に関連するexemplarを用いてイベント検出する手法の提案。例えば、”乗り物のタイヤを交換する”というイベントに対して、”車を運転する”というイベントはタイヤを交換という要素は含んでいるが乗り物という要素を含んでいる。このように部分的に関連する動画を探し重みづけすることによりイベント検出を行う。

新規性・結果

対象となるイベントに対して,候補となる動画を列挙する。それらの候補に対して,関連度合いにより重みつけをする手法を提案。

自由記述欄

[#231]
Shintaro Yamamoto
Some like it hot - visual guidance for preference prediction
Rasmus Rothe et al.
CVPR, 2016.

概要

初対面の人物に対してどのような第一印象を抱くかを推定する手法。CNNによる抽出した特徴量を利用して、年齢や性別などのattributeを抽出する。また、抽出した特徴や過去のレーティングを基に、特定の個人が異性に対して良い印象と悪い印象どちらを第一印象で抱くかを推定する。

新規性・結果

  • 個人の好みに基づいて印象の良し悪しを推定する
  • 同じフレームワークを用いて映画のレーティングも可能
  • デートサイトにおけるレーティングを用いて76%の精度で予測に成功した

自由記述欄

[#232]
Shintaro Yamamoto
Understanding Pedestrian Behaviors from Stationary Crowd Groups
Yi et al.
CVPR, 2015.

概要

写っている人物の歩行ルートなどを検出する研究。動画のフレームから歩行が可能であるかのエネルギーマップを推定することにより目的地までのルートを推定する。エネルギーマップの作成には、噴水などの元々通行が不可能な箇所だけでなく、他の人の情報も考慮し、歩行者ごとに作成する。

新規性・結果

  • 立ち止まっている人による影響を考慮した歩行のモデル化を行った
  • 12000人の歩行者の歩行ルートをannotationしたデータセットを構築
  • 歩行ルートや目的地の推定など、様々な歩行に関連した情報の抽出が可能に
[#233]
Shintaro Yamamoto
Let there be Color!: Joint End-to-end Learning of Global and Loacal Image Priors for Automatic Image Colorization with Simultaneous Classification
Satoshi Iizuka et al.
SIGGRAPH, 2016.

概要

白黒画像からカラー画像を推定する手法。従来手法とは異なりend-to-endのネットワークを構築した。色付けする際,シーンの時間帯などの情報を含む大域的な特徴と物体などの情報を含んだ局所的な特徴の2つを組み合わせるこ。これにより,夜のシーンにもかかわらず画像の一部が明るいといったことを防ぐ。

新規性・結果

  • 局所特徴と大域特徴を組み合わせることにより,画像全体が自然になるようなネットワークを構築した
  • 過去に描かれた白黒画像に色付けすることも可能
  • ベースラインでは70%前後であった自然さが、90%以上に向上した

自由記述欄

[#234]
Shintaro Yamamoto
Learning to Simplify: Fully Convolutional Networks for Rough Sketch Cleanup
Edgar Simo-Serra et al.
ACM SIGGRAPH, 2017.

概要

ラフ画の欠損部分を補完して線画にする手法を提案。全層が畳み込み層によって構築されているネットワークを構築し、任意の解像度の入力から線画への変換を可能とする。学習にはラフ画と線画のペアを使用し,重み付きの一致土をロスとして学習をする.学習の際には,データセットの一部をクロップする,トーンを変える,ノイズを乗せるなどによって学習データの数を増やしている。

新規性・結果

  • 従来手法とは異なり、ユーザーの介入を必要としない全自動の手法を提案した
  • データセットとして68枚の線画とラフ画のペアを作成。その際,精度を向上するために提案ネットワークのようにラフ画→線画ではなく線画→ラフ画という順で作成。
  • ユーザースタディによって既存手法と比べて精度を向上したことを確認
[#235]
Shintaro Yamamoto
Semantic Shape Editing Using Deformation Handles
Mehmet Ersin Yumer et al.
ACM SIGGRAPH, 2015.

概要

物体の3次元形状を,ComfortableやFighterなどより高次な特徴に基づいて変形する手法の提案。クラウドソーシングによって,2つの三次元形状を比較してもらうことでattributeと形状の関係を調べ、どのように編集するかを決定する。

新規性・結果

  • クラウドソーシングによってattributeとgeometryの対応を定式化し、attributeに基づく変形を可能に
  • ユーザースタディによって、多くのユーザーが編集結果に満足したという結果を得た。

自由記述欄

[#236]
Shintaro Yamamoto
AttribIt: Content Creation with Semantic Attributes
Siddhartha Chaudhuri et al.
UIST, 2013.

概要

dangerousやscaryのように、言葉によって表現される特徴に基づきデザインを編集する手法。クラウドソーシングにより特徴とデザインの関係を調査し、特徴に基づいてデザインを編集するインターフェースを構築した。

新規性・結果

  • 3次元モデリングとwebデザインの2つの事例に対して適用した
  • 編集結果が、目的の特徴を保持しているか、もっともらしいかの2つの観点においてユーザースタディにより提案手法の方が高い評価を得ることができた

自由記述欄

[#237]
Shintaro Yamamoto
Scene Graph Generation by Iterative Message Passing
Danfei Xu et al.
CVPR, 2017.

概要

画像に写っている物体同士の関係を表したscene graphを生成する手法。グラフのnodeが物体、edgeが関係を表す。初めに、入力画像から物体検出によって画像に写っている物体(=node)を検出する。続いて、RNNにより検出された物体同士の関係を決定していく。

新規性・結果

  • 従来手法ではグラフの各要素を独立して求めていたのに対して、RNNによりiterativeに関係性を決定していくEnd-to-Endのネットワークを構築した。
  • Visual Genome Datasetを基に作成した新たなデータセットを導入し、評価を行った。
  • 従来手法と比較して、aboveやbehindなど多くの物体同士の関係性において精度が大幅に向上した。
[#238]
Shintaro Yamamoto
The shape of art history in the eyes of the machine
Ahmed Elgammal et al.
AAAI, 2018.

概要

機械学習による絵画の分類に関する検証。VGGやResNetなどのネットワークを用いて、絵画を分類するタスクを学習し、その中間出力を特徴量として考えることで分析を行っている。得られた特徴量を次元削減しその分布を可視化する、各軸と芸術分野において提唱されている分野との相関関係の算出などを行った。

新規性・結果

  • 物体検出のタスクで学習したネットワークはgaborフィルターのようなものを見ているのに対して、絵画の分類を目的として学習したネットワークはより大域的な特徴を見ていることがわかった。
  • 得られた特徴量を可視化した結果、機械学習による絵画の識別によって絵画の時系列情報が得られていることが判明した。

自由記述欄

[#239]
Shintaro Yamamoto
Unsupervised Learning of Depth and Ego-Motion from Video
Tinghui Zhou et al.
CVPR, 2017.

概要

教師無し学習によってdepthとカメラの相対位置(R,t)を推定する手法を提案。ネットワークは、1枚画像からのdepth推定と2枚画像からのカメラの相対位置の推定により構築されている。隣接するフレームtとsを考え、推定した情報を用いてsからtへの変換を行う。変換結果が、tと一致するように学習をしていく。

新規性・結果

  • 学習時には2つのネットワークを同時に学習しているが、テスト時にはそれぞれを単独で使用することが可能となる。
  • 従来手法では何かしらの教師データが必要であったのに対して、ラベルを含まない動画のみで学習が可能に。
[#240]
Shintaro Yamamoto
CAN: Creative Adversarial Networks Generating "Art" by Learning About Styles and Deviating from Style Norms
Ahmed Elgammal et al.
ICCC, 2017.

概要

GANを用いてコンピュータに新たな芸術作品を創らせる研究。心理学と美学の知見を取り入れ、これまでの芸術作品と比べると新しいが新しすぎない画像を生成する。過去の作品と比べて新しいか否かは、芸術作品の分類を考えどのクラスにも分類されないものを従来のものとは異なると判定している。それに加え、GANによって芸術である画像を生成するよううに学習している。

新規性・結果

  • 新しいが新しすぎない絵画を生成するための評価関数を構築した。
  • 評価にはDCGANにより学習したもの及び実際の芸術作品との比較をユーザースタディによって行った。

自由記述欄

[#241]
Shintaro Yamamoto
Personalized Image Aesthetics
Jian Ren et al.
ICCV, 2017.

概要

個人の好みを考慮した画像の評価システムを提案した。画像のスコア付けに関する研究は数多く存在するが、実際には人によって高い点数をつける画像は大きく異なる。そこで、クラウドソーシングを用いて一般的な画像の評価を行うネットワークに加え、個人の画像の好みを推定することによって好みに応じた画像の評価システムを構築した。個人の好みの推定には、contentとattributeの2つを特徴として抽出して行う。個人の好みの学習には、active learningを導入することによって少ない学習データでも学習を可能にした。

新規性・結果

  • クラウドソーシングによってスコア付けしたgeneralな評価用のデータベースと撮影者がスコア付けを行った個人性の学習用のデータベースの2つのデータベースを構築。
  • 個人の好みを直接学習するより、generalな評価と個人の好みを組み合わせた方が精度が高いことを示した

自由記述欄

[#242]
Shintaro Yamamoto