Benchmarking 6DOF Outdoor Visual Localization in Changing Conditions
Torsten Sattler,Will Maddern,Carl Toft,Akihiko Torii,Lars Hammarstrand,Erik Stenborg,Daniel Safari,Masatoshi Okutomi,Marc Pollefeys,Josef Sivic,Fredrik Kahl,Tomas Pajdla
CVPR2018
Tetsuya Narita

概要

本稿では,環境が視覚的定位に及ぼす影響を分析するために特別に設計されたベンチマークデータセットを紹介.幅広い条件で撮影されたクエリ画像に対して慎重に作成されたグラウンドトゥースポーズを使用して,最先端のローカリゼーション手法を使用した広範な実験を通じて,様々な要因が6DOFカメラの姿勢推定精度に及ぼす影響を評価.

Benchmarking_6DOF.png

新規性・結果・なぜ通ったか?

・3つのあたらしいベンチマークデータセットを紹介・Active SearchやCSLなどの構造ベースの方法は,都市環境でのほとんどの条件に対して堅牢.しかし,精度の高い領域でのパフォーマンスは,依然として大幅に改善する必要あり. ・昼間の写真から構築されたデータベースに対して,夜間の画像をローカライズすることは,事前の情報が与えられても非常に困難 ・過去の情報が与えられている場合でも,多量の植生がある場面は困難 ・SfMは上2つの問題を完全に処理しないが,提案したデータセットは解決する機能のベンチマークを容易に提供. ・DenseVLADなどは,自律運転状況で粗いレベルのポーズ推定値を提供が可能. ・姿勢推定に複数の画像を使用することは明確な利点がある.

コメント・リンク集

[#1]
2018.6.19 16:33:38
A Unifying Contrast Maximization Framework for Event Cameras, with Applications to Motion, Depth, and Optical Flow Estimation
G.Gallego, H.Rebecq, D.Scaramuzza
CVPR 2018
510
Kazuma Asano

概要

リンク集に記載している“Event-based, 6-DOF Pose Tracking for High-Speed Maneuvers using a Dynamic Vision Sensor(DVS)”を用いてオプティカルフロー推定,デプス推定,ローテーション推定,モーション推定などの問題に取り組んだ論文.本論文ではDVSを用いて,ピクセルごとに急激な変化を起こした点とその軌道を認識する(論文内では“event”と定義). その点軌道の速さや動いた距離からデプスやオプティカルフローなどの,様々な問題におけるアルゴリズムを提案して評価している.

Item3ImageItem3Image

結果

デプス推定において,従来手法であるコントラストからの推定のほうが精度が高いが,1.1~1.8mの距離においては提案手法の方が精度が高いなど,それぞれの問題において提案手法の得意な所を説明し,提案手法のフレームワークの優位性を説明している.

[#2]
2018.8.13 14:10:16
AON: Towards Arbitrarily-Oriented Text Recognition
Zhanzhan Cheng, Yangliu Xu, Fan Bai, Yi Niu, Shiliang Pu, Shuigeng Zhou
CVPR2018
Tetsuya Narita

概要

イレギュラー文字の深い特徴を取得するためにarbitrary orientation network(AON)を開発.このネットワークの全体は,画像と単語レベルのみを使用してエンドtoエンドで訓練することができる.様々なベンチマークの実験では,提案されたAONベースの方法が不規則なデータセットでは最先端の性能を達成し,通常のデータセットの主要な既存の方法に匹敵することを示している.

AON.png

新規性・結果・なぜ通ったか?

・文字の四角特徴を4方向に抽出するための任意の方向つけネットワークと,文字配置の手がかり・フィルタゲート機構を用いて4方向特徴シーケンス ・文字シーケンスを生成するための注意べ―スのデコーダ の3つを使用 既存研究と異なり,画像からイレギュラー/レギュラーのテキスト両方を効果的に認識できる 通常のベンチマークと不規則なベンチマークの両方を用いた実験では,提案手法の優位性が検証された 将来的には,提案手法を他関連に関するタスクまで拡張する予定

コメント・リンク集

[#3]
2018.6.27 09:38:17
Arbitrary Style Transfer with Deep Feature Reshuffle
Shuyang Gu, Congliang Chen, Jing Liao, Lu Yuan
CVPR2018
Naofumi Akimoto

概要

style画像のdeep特徴マップをシャッフルすることにより,任意のstyle transferを行う手法の提案.従来の様々なstyle-transfer手法に対して新しい切り口で分析し,deep feature reshuffleの提案を行なっている.feature domainに於いて逐次的な最適化を行なう.提案手法では,様々な種類の入力画像に対応することができ,質も他手法を超えると主張する.

Item3Image

新規性・結果・なぜ通ったか?

・neural parametricモデルと neural non-parametricモデルはdeep feature reshuffleというアイデアによって統合される.
・deep feature reshuffleに基づく新しいエネルギー関数を定義.これは,他の手法よりもシンプルで柔軟.
・ピラミッド法で feature-domainエネルギー関数を最適化するために新しく,レベルごとのデコーダを学習する

コメント・リンク集

[#4]
2018.8.9 16:46:29
End-to-end Convolutional Semantic Embeddings
Quanzeng You, Zhengyou Zhang, Jiebo Luo
CVPR2018
Naofumi Akimoto

概要

・textual CNNを使って、画像とセンテンス両方にCNNを適用する
・中間表現を使ってglobal semanticの学習をアシストする
・semantic embeddingがうまくいくことを確認した

Item3Image

新規性・結果・なぜ通ったか?

・CNNをvisual and textual semantic embeddingに利用した。このネットワークはend-to-endで学習することができる
・中間の畳み込み特徴と大域的なsemantics特徴を局所的なコンテキスト特徴の学習のために利用する
・Flickr30kとMS-COCOデータセットを使って提案するモデルが効果的であることを実験で示した

コメント・リンク集

[#5]
2018.8.9 16:38:17
Deep Spatio-Temporal Random Fields for Efficient Video Segmentation
Siddhartha Chandra, Camille Couprie, Iasonas Kokkinos
CVPR2018
Naofumi Akimoto

概要

ビデオでの領域分割のためのdeep Random Fieldを用いた手法(VideoGCRF)を提案.Deep Gaussian Conditional Random Fields(GCRFs)を利用し,密接に関係する時空間グラフの推論が時間効率・メモリ効率に優れた手法を提案する.
・計算効率,メモリ効率
・固有の大域的最小値を持つ
・end-to-endで学習が可能

Item3Image

手法

・はじめに,複数枚の入力画像からFCNでピクセルごとのクラスラベルを予測する.同時に空間的な埋め込みベクトルと,時間的な埋め込みベクトルをそれぞれ獲得する
・埋め込みの内積から,時間的な埋め込みと区間的な埋め込みの位置を結合する
・最後に線形システムを解く事で,最終的な予測結果を得る

コメント・リンク集

  • arXiv
    ・デプス推定にも適用することをFuture workとしている
    ・全てをディープネットワークに頼るのではなく,これまで研究されてきたCRFような技術も組み込む事も考えるべき
[#6]
2018.8.9 16:31:15
Jointly Optimize Data Augmentation and Network Training: Adversarial Data Augmentation in Human Pose Estimation
Xi Peng, Zhiqiang Tang, Fei Yang, Rogerio S. Feris, Dimitris Metaxas
CVPR2018
Naofumi Akimoto

概要

データ拡張とネットワークの学習を敵対的学習の枠組み取り入れ同時に行う.キーとなるアイデアは,Generator(データ拡張ネットワーク)がDiscriminator(学習対象のネットワーク)にとってのhard exampleをオンラインで生成すること.これによって,GeneratorはDiscriminatorの弱みを探し,よりDiscriminatorの性能を伸ばすことができるようになる.
同時学習を効率的に行うための報酬や罰則のストラテジーも提案する.
この論文では,pose estimationのタスクに適用し,state-of-the-artを超えるデータ拡張ができたことを確認した.

Item3Image

新規性・結果・なぜ通ったか?

・データ拡張とネットワークの学習は通常切り離されているのに対して,この論文ではこの二つを同時に行うことが新しい.
・敵対的にデータ拡張を行うことが,オンラインでやられていること
・同時学習用の報酬や罰則のストラテジーの提案
・pose-estimationタスクでいいスコア

コメント・リンク集

[#7]
2018.8.9 16:25:13
Two-Stream Convolutional Networks for Dynamic Texture Synthesis
Matthew Tesfaldet, Marcus A. Brubaker, Konstantinos G. Derpanis
CVPR2018
Naofumi Akimoto

概要

動的なテクスチャー生成のために two-streemのモデルを導入した.生成される結果は3〜5秒程度の動画で,結果例はプロジェクトサイトに詳しく載っているので参考にされたい. 定量評価として,200人によるUserStudyを行なっている.59組の生成結果と正解動画を見せ,どちらがリアルかの回答を得た.

Item3Image

手法

・学習済みモデルを利用し,これを(1)物体認識,(2)オプティカルフロー推定の二つのタスクのために利用.
・物体認識のストリームで入力テクスチャーのアピアレンスの統計的特徴を獲得し,オプティカルフロー推定のストリームで動きの特徴を獲得する.
・入力の動的テクスチャーと生成する動的テクスチャーの二つをスタイルトランスファーと同じようにグラム行列をベースとし,最適化問題として解くことで,動的なテクスチャーを生成する.

コメント・リンク集

  • arXiv
    ・動画というかGIF
    ・temporal paternの理解,特徴づけの研究は以下のような様々な名称が付いている.urbulent-flow motion, temporal textures, time-varying textures, dynamic textures, textured motion and spacetime textures
    ・スタイルトランスファーの論文と同様に,他の手法との比較が難しいと思った.定量的な評価もユーザースタディーに頼るしかなさそう.
[#8]
2018.8.9 16:16:48
Stacked Conditional Generative Adversarial Networks for Jointly Learning Shadow Detection and Shadow Removal
Jifeng Wang, Xiang Li, Le Hui, Jian Yang
CVPR2018
Naofumi Akimoto

概要

影の検出と除去という二つのタスクを同時に学習するend-to-endのフレームワークを提案.提案するST-CGAN は,2つのcGANがスタック構造になっている.一つ目のcGANで影を検出し,二つ目のcGANで影の除去を行う.影の検出と除去の両方に対応したデータセットも公開.

Item3Image

手法

・二つのGeneratorはU-net構造.一つ目のGeneratorは影領域を示すマスクを出力とする.二つ目のGeneratorの入力は影付きの画像と出力されたマスクであり,出力は影を取り除いた予測画像である
・影あり画像,影マスク,影なし画像の3つのペアを持った1870組のデータセットを作成.元々影のない場所で,板や傘を使って自分たちで影を入れて撮影している.そうして上の3つのペアを作成した.

コメント・リンク集

  • arXiv
  • この手作り感のあるデータセットでも貢献にカウントでき,1870組でも(他の影のデータセットと比べて)大規模と言えることは指標になる.
[#9]
2018.8.9 16:07:36
Generative Image Inpainting with Contextual Attention
Jiahui Yu, Zhe Lin, Jimei Yang, Xiaohui Shen, Xin Lu, Thomas S. Huang
CVPR2018
Naofumi Akimoto

概要

アテンションにより周囲の適切な箇所の画像特徴を利用する生成モデルベースの画像補完手法の提案.大きな領域を補完できるgenerative model-baseのアプローチと,周囲との整合性を取りやすい従来のパッチベースのアプローチのいいとこ取りをする.アテンション機構が,背景側のどの領域を参考にして補完領域を生成すべきか予測する.提案するモデル2つあり,アテンション機構を含まないベースラインモデルとアテンション機構を含むモデルである.モデルはfeed-forwardのFCNであるのでテスト時には任意の場所の複数の穴を補完でき,画像のサイズも任意となる.CelebA-HQの顔写真やテクスチャー,風景写真での実験で高い質の補完が行えることを示している.

Item3Image
各セットの左側が入力画像で,欠損領域が白塗りされている.右側の結果では,木の幹などの構造が崩壊せずに補完できている.

手法

  • coarse-to-fineの段階的な構造を採用.学習時は,入力,coarse出力,fine出力ともに256x256のサイズの画像である.

  • 従来手法のようにGlobalとLocalのDiscriminatorを持つ.Global Criticが出力画像全体の整合性を評価し,Local Criticが補完領域を中心として局所的な領域の整合性を評価する.Discriminatorが,WGAN-GP adversarial lossを算出するようにしたところが差分.

  • contextual attention layerの導入.conv層とdeconv層から成る. 前景のパッチと背景のパッチのマッチングスコアを計算するユニットになっている.

コメント・リンク集

[#10]
2018.8.9 15:59:24
Super SloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation
Huaizu Jiang, Deqing Sun, Varun Jampani, Ming-Hsuan Yang, Erik Learned-Miller, Jan Kautz
CVPR2018
Naofumi Akimoto

概要

2枚の入力画像の中間フレームを必要な数だけ生成することが可能なend-to-end CNNの提案.双方向のオプティカルフローの推定とそれを元にしたフレーム補間のCNNから成る.モーションの補間とオクルージョン領域の推定を同時にモデル化することができる.これらのCNNは時間情報に依存しないので,間のフレームをいくつも作成することができることが特徴.

Item

手法

2つの入力フレーム間の双方向オプティカルフローの推定をCNNで行い,その2つのオプティカルフロー場から中間のオプティカルフロー場を近似的に求める.フロー補間のCNNでその近似の質をさらに高め,中間補間のためのsoft visibility mapを予測する.双方向オプティカルフローの推定のCNNも,フロー補間のCNNもどちらもU-net構造をしている. それぞれ30万フレームを含む1132本のビデオクリップ(240fps)を使って学習させている.

コメント・リンク集

  • arXiv
    オプティカルフローの計算もCNNでやってしまう
[#11]
2018.8.9 15:51:53
Analyzing Filters Toward Efficient ConvNet
Takumi Kobayashi
CVPR 2018
Takahiro Itazuri

概要

CNNの振る舞いに関する分析は、従来手法のほとんどが入力に対する活性化に対して行っていたのに対して、本論文はフィルタ自体に着目して分析を行った。畳み込み層と全結合層に対して分析を行い、それぞれに対して基底となるフィルタを作ることで、学習に必要なパラメータ数を減らし、また提案手法を適用することでImageNetで学習させたVGG-vd-16の精度を向上させることに成功した。

手法・新規性

VGG-vd-16の畳み込み層のフィルタに対してSVDを行い主成分を抽出すると、Orthonormal Steerable Filtersと呼ばれる既存の直交するフィルタと非常に類似したフィルタとなっていることがわかった。同様にVGG-Mの全結合層に対してSVDを行い主成分を抽出すると、離散コサイン変換の基底関数と類似していることがわかった。したがって、これらの基底関数の線形和で畳み込み層のフィルタや全結合層の重みが決定できるとすると、従来のおよそ半分の学習パラメータ数に抑えることができる。

コメント・リンク集

[#12]
2018.8.4 14:40:52
Multi-Cue Correlation Filters for Robust Visual Tracking
Ning Wang, Wengang Zhou, Qi Tian, Richang Hong, Meng Wang, Houqiang Li
CVPR 2018
Takahiro Itazuri

概要

本論文は複数の異なる種類の特徴量を効率的に利用するため、DCFを使った複数のexpertを構築し、各フレームごとに適切なexpertを選択することで頑健な物体追跡手法(MCCT:Multi-Cue Correlation filter based Tracking)を提案した。深層学習から得た特徴量を用いた場合においてSoTAを達成し、従来のHandcraftedな特徴量を用いた場合において、最新の深層学習ベースの手法と同等の精度かつCPUで45fpsの速度を実現した。

MCCT

手法・新規性

HCFがfeature-levelの統合のみを考慮していたのに対して、MCCTはそれぞれ得られた特徴量の強みを効率よく利用するために、decision-levelの統合も考慮する。MCCTはそれぞれの特徴量が分散を持った異なる視点の特徴量を抽出するようにし、また複数のexpertを各フレームごとに評価し選択することで、良い推定結果を得る。expertの評価にはpair-evaluationとself-evaluationを提案し、これらを統合する過程がdecision-levelの統合に当たる。

コメント・リンク集

[#13]
2018.8.4 15:04:58
Decorrelated Batch Normalization
Lei Huang, Dawei Yang, Bo Lang, Jia Deng
CVPR 2018
Takahiro Itazuri

概要

本論文は、Batch Normalizationに白色化を導入したDecorrelated Batch Normalizationを提案した。通常のBatch Normalizationは標準化を行っているが、白色化を行っていない。したがって、白色化を導入することにより、Batch Normalizationよりさらに早く学習を収束させることが可能になった。

DBN

手法・新規性

PCAを用いた白色化を行うとstochastic axis swappingという問題が発生する。データxが与えられたとき、それに対する正規直交基底をDとすると、異なるイテレーションから得られたデータx1とx2に対する正規直交基底D1とD2において、D1=D2とならない現象のことをいう。この現象を避けるため、Decorrelated Batch NormalizationではZCAを用いた白色化を行う。

コメント・リンク集

[#14]
2018.8.4 15:27:56
RoadTracer: Automatic Extraction of Road Networks from Aerial Images
F.Bastani, S.He, S.Abbar, M.Alizadeh, H.Balakrishnan, S.Chawla, S.Madden, D.DeWitt
CVPR 2018
598
Kazuma Asano

概要

空中画像(aerial image)からオートマッピングするRoadTracerを提案.従来のセグメンテーション手法ではノイジーなCNNの出力では正確なマッピングが難しいことから高いエラーレートの問題があることを述べている. 提案手法ではセグメンテーション手法ではなく, CNNを使った決定関数による探索アルゴリズムで道路をマッピングする. 探索はよく知られている道(大きい道?)のある一ヶ所をスタートポイントとして道に沿って探索していき,各ステップごとにCNNによってネットワークにエッジを追加するか1つ前のツリーに戻るか選択を繰り返しさせて探索していく. 提案手法によりセグメンテーション手法より分岐点などにおいて正しくマッピングできるようになり, DeepRoadMapperやセグメンテーション手法より精度が上昇した.

Item3Image

結果

15都市の空中画像を用いて実験した結果,DeepRoadMapperでは21%,セグメンテーション手法では58%正しく道をキャプチャできた一方,RoadTracerは72%正しくキャプチャできた.また,エラー率を5%に抑え,都市に存在する分岐点の45%以上をキャプチャすることが可能となった.

コメント・リンク集

[#15]
2018.8.4 12:25:46
Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition
Shuyang Sun, Zhanghui Kuang, Wanli Ouyang, Lu Sheng and Wei Zhang
CVPR2018
Kazuho Kito

概要

Optical Flow guided Feature(OFF)という動画の行動認識のための運動表現を提案.OFFはオプティカルフローの定義を基に導出され,オプティカルフローに直交している.deepな特徴マップのピクセル単位の時空勾配を計算することで,わずかな追加コストで既存のCNNベースの動画行動認識のフレームワークに埋め込むことができ,CNNの時空情報を抜き取ることが可能になった.

Optical_Flow_guided_Features.PNG

新規性・結果・なぜ通ったか?

・速くロバストな動作表現であり,RGBのみの入力で200fps以上の速度が出る・OFFを使用したネットワークはend-to-endで訓練させることができる ・UTF-101においてRGB入力のみのOFFを含んだネットワークで93.3%,SoTAな動画認識のフレームワークに埋め込むことで96.0%の精度を達成

コメント・リンク集

[#16]
2018.5.22 17:57:46
Learning a Complete Image Indexing Pipeline
Himalaya Jain, Joaquin Zepeda, Patrick P´erez, and R´emi Gribonval
CVPR2018
Tenga Wakamiya

概要

構造化されたバイナリエンコーディングの統一的なニューラルフレームワーク内の両方のコンポーネントを学習する1番目のシステムを提案する.

Learning_a_Complete_Image_Indexing_Pipeline

新規性・結果・なぜ通ったか?

反転されたファイルおよびコンパクトな特徴エンコーダを構築するために教師ありディープラーニング方法を利用する完全な画像索引付けパイプラインを提示する.以前の方法は,教師なし逆ファイルメカニズムを使用したか,または特徴エンコーダを導出するためにのみ教師ありを採用していた. 提案手法が大規模な画像検索において最先端の結果を達成することを実験的に確立した.

コメント・リンク集

[#17]
2018.8.1 23:22:47
Fast and Robust Estimation for Unit-Norm Constrained Linear Fitting Problems
Daiki Ikami, Toshihiko Yamasaki and Kiyoharu Aizawa
CVPR2018
Kenichiro Wani

概要

本稿では特に,ステレオ問題や3D再構成などのコンピュータビジョンアプリケーションで重要なタスクであるロバストな基本行列推定に焦点を当てている。反復的に再重み付けされた最小二乗(IRLS)を使用するM推定器は,ロバスト推定のための最もよく知られた方法の1つである。しかしながら,IRLSは,初期解が不十分であるために基本行列推定などの頑強な単位ノルム制約付き線形フィッティング(UCLF)問題には効果がない。本稿では,反復的に再重み付けされた固有値最小化(IREM)と名づけられた新しい目的関数およびその最適化を開発することによって,この問題を克服する。

Item3Image

新規性・結果・なぜ通ったか?

IRLSが強固なUCLF問題ではうまく機能しない理由を明らかにし,IRLSの問題点を解決するためにIREMという名前の新しいアルゴリズムを提案している。

コメント・リンク集

  1. 論文
[#18]
2018.8.3 15:40:48
Discovering Point Lights with Intensity Distance Fields
Edward Zhang, University of Washington; MIchael Cohen, ; Brian Curless, Washington
CVPR2018
Kenichiro Wani

概要

本稿では,光の定位問題について考える。シーンは,観測されていない等方点灯のセットによって照らされる。幾何学,材料,およびシーンの照明された外観を考えると,光の局在化の問題は,光の数,位置,および強度を完全に回復することである。最初に,光の可能性が高いシーン変換を提示する。この変換に基づいて,残りのライトを特定してすべての光強度を決定する反復アルゴリズムを開発する。著者らは,2D合成シーンの大きなセットでこの方法の成功を実証し,合成シーンと現実のシーンの両方で3Dにまで拡大することを示している。

Item3Image

新規性・結果・なぜ通ったか?

未知数のローカルな離散エミッタの問題の定式化をしている。 シーン内の反射光に基づいて複数の候補光位置を提示する画像変換をしている。位置および強度を含むシーン照明の完全なセットを回復するために光提案を使用する反復アルゴリズムを提案している。

コメント・リンク集

  1. 論文
[#19]
2018.8.3 15:58:07
Interleaved Structured Sparse Convolutional Neural Networks
Guotian Xie, Jingdong Wang, Ting Zhang, Jianhuang Lai, Richang Hong,and Guo-Jun Qi
CVPR2018
1804.06202
Kenichiro Wani

概要

本論文では,畳み込みカーネルの冗長性を排除した効率的な畳み込みニューラルネットワークアーキテクチャの設計問題を検討する。著者らは,IGCV2:Interleaved Structured Sparse Convolutionと呼ばれる連続したグループコンボリューションで構成されるブロックを設計した.このブロックは,構造化スパースカーネルを乗算することとして数学的に定式化されており,それぞれがグループコンボルーションに対応している。相補条件と平衡条件を導入することで,畳み込みカーネルが密集し,モデルサイズ,計算複雑性,分類性能の3つの側面のバランスが良好になる。実験結果は,インターリーブドグループコンボリューションおよびXceptionと比較して,これらの3つの側面のバランス上の利点,および他の最先端のアーキテクチャ設計方法と比較した競合性能を実証している。

Item3Image

新規性・結果・なぜ通ったか?

畳み込みカーネルの冗長性を排除し,密集したカーネルを構成している。また密集したカーネルを構成することにより,モデルサイズ,計算複雑性,分類性能の3つの側面のバランスが良好になる。

コメント・リンク集

  1. link
[#20]
2018.8.3 14:33:29
Multispectral Image Intrinsic Decomposition via Subspace Constraint
Qian Huang, Weixin Zhu, Yang Zhao, Linsen Chen, Yao Wang, Tao Yue and Xun Cao
CVPR2018
Kenichiro Wani

概要

マルチスペクトル画像は,物体の表面特性の多くの手がかりを含んでおり,したがって,再カラー化およびセグメント化などの多くのコンピュータビジョンタスクで使用することができる。しかしながら,自然なシーンにおける複雑な幾何学的構造のために,同じ表面のスペクトル曲線は,異なる照明および異なる角度のもとで非常に異なって見える可能性がある。本稿では,単一のマルチスペクトル画像からシェーディングと反射を分解する新しいマルチスペクトル画像固有分解モデル(MIID)を提示する。

Item3Image

新規性・結果・なぜ通ったか?

マルチスペクトル画像固有分解モデル(MIID)を提示する。著者らは,マルチスペクトル領域に対して,RGB画像固有分解のために提案されているRetinexモデルを拡張する。これに基づいて,部分空間制約が,シェーディングおよび反射スペクトル空間の両方に導入している。

コメント・リンク集

  1. 論文
[#21]
2018.8.3 15:19:51
Stochastic Downsampling for Cost-Adjustable Inference and Improved Regularization in Convolutional Networks
Jason Kuen, Xiangfei Kong, Zhe Lin, Gang Wang, Jianxiong Yin, Simon See and Yap-Peng Tan
CVPR2018
1801.09335
Kenichiro Wani

概要

推論の間により効率的に動作するように畳み込みネットワーク(CNN)を訓練することが望ましい。しかし,多くの場合,推論のためにシステムが持っている計算予算は,トレーニング中に事前に知ることができないか,または推論予算は,変化するリアルタイムリソースの利用可能性に依存する。したがって,推論コストが調整できず,様々な推論予算に適応できない,単なる推論効率の良いCNNを訓練することは不十分である。確率的ダウンサンプリング点(SDPoint)であるCNNにおけるコスト調整可能な推論のための新しいアプローチを提案する。

Item3Image

新規性・結果・なぜ通ったか?

余分なパラメータとトレーニングコストがかからないため,SDPointは効果的なコスト調整可能な推測を容易にし,ネットワークの正則化(したがって正確なパフォーマンス)を大幅に改善する。

コメント・リンク集

  1. link
[#22]
2018.8.3 14:46:13
Robust Hough Transform Based 3D Reconstruction from Circular Light Fields
Alessandro Vianello, Robert Bosch GmbH; Jens Ackermann, Robert Bosch GmbH; Maximilian Diebold, Heidelberg University; Bernd Jähne, University of Heidelberg
CVPR2018
Kenichiro Wani

概要

ライトフィールド画像は,通常のグリッドで撮影された画像に基づいています。したがって,高品質3D再構成は,エピポーラ平面画像(EPI)の方向を分析することによって得ることができる。しかし,そのようなデータは,オブジェクトの片面のみを評価することを可能にする。さらに,各方位に沿った一定の強度は,ほとんどのアプローチにおいて必須である。本論文では,円環状のフィールドと呼ばれる円形のカメラモーションで得られたデータから奥行き情報を再構築することを可能にする新規な方法を提示する。この手法を使用することで,対象物の全360度のビューを決定することを実現する。

Item3Image

新規性・結果・なぜ通ったか?

使用する画像は,テレセントリックカメラで撮影した画像と標準の遠近両用レンズで撮影した画像の2種類である。従来の線形ライトフィールドとは異なり,円形のライトフィールドを使用している。

コメント・リンク集

  1. link
[#23]
2018.8.2 23:17:28
Towards Faster Training of Global Covariance Pooling Networks by Iterative Matrix Square Root Normalization
Peihua Li, Jiangtao Xie, Qilong Wang, Zilin Gao
CVPR 2018
475
Kazuki Inoue

概要

covariance poolingをNewton-Schulz iterationを用いて高速に行う手法を提案。covariance poolingを行う既存手法の多くでは行列の平方根を行う際に固有値分解と特異値分解を行っているが、これらはGPUで十分にサポートされておらずトレーニング時間を効率的に行うことができなかった。提案手法ではcovariance poolingにおける行列の平方根の計算をGPUでサポートされいているpre-normalization、Newton-Schulz iteration、post-compensationで行う手法を提案。Newton-Schulz iterationでは二つの式の最適化を行い、post-compensationはデータの規模に依存する処理であるpre-normalizationの影響をを緩和するために行う。

Item3Image

新規性・結果・なぜ通ったか?

  • ImageNet LSVRC2012の画像識別、CUB-200- 2011、FGVC-aircraft、Stanford carsのカテゴリ認識を行った。
  • EIGとSVDを用いるcovariance poolingの既存手法に比べて1.5倍程度高速に計算をすることが可能。
  • 上記のデータセットにおける識別でtop-1/5 errにおいて既存手法に比べて最も高い精度を達成。
  • Newton-Schulz iterationsの更新回数は増やすほど精度がよくなるわけではなく、更新を行う回数はハイパーパラメタとなっている。

コメント・リンク集

  • GPUでサポートされていないため、手法の改善を行った、という珍しい研究背景をもつ論文。
  • 論文
  • Project page
[#24]
2018.8.2 13:15:53
On the convergence of PatchMatch and its variants
Thibaud Ehret, Pablo Arias,
CVPR 2018
Munetaka Minoguchi

概要

k-nearest neighbor field(k-NNF)を効率的に近似するPatchMatchアルゴリズムとその亜種の収束についての解析調査。亜種とは、文献で見つかった一般的なPatchMatchを指し、処理速度が大幅に改善されたものなどを含む。PatchMachの収束と収束率の領域を網羅的に算出し検討。また、 Coherency Sensitive Hashingについても検討を加えている。

新規性・結果・なぜ通ったか?

多くのCV分野では、2枚の画像間におけるk-NNFの計算を必要とし、クエリ画像内の各パッチについて、データベース内のk個の最も類似したパッチの位置を決定する。PatchMatchアルゴリズムは、この検索問題を画像パッチの局所的一貫性を利用する共同検索手法によって効率的に近似し、解決した。本論文はこのPatchMatchやその亜種(改良版)について調査している。

リンク集

[#25]
2018.8.1 9:41:06
Stochastic Variational Inference with Gradient Linearization
Tobias Plötz, Anne S. Wannenwetsch, Stefan Roth,
CVPR 2018
Munetaka Minoguchi

概要

stochastic variational inference with gradient linearization (SVIGL)の提案。従来の勾配法による確率的変分推論よりも、収束速度を改善することができ、KL発散の点で同等またはより良い変分近似を可能にする。エネルギー勾配の局所線形化を行えば、確率的変分近似としても同様に使える。

新規性・結果・なぜ通ったか?

確率論的アプローチの変分近似は、閉形式変数更新の分析式を導出するというプロセスを排除し、代わりに対数の勾配を計算するだけでよく、人気が高まっている。しかし、ログ勾配において、標準的な勾配法を用いて最適化することは困難な場合がある。図は、オプティカルフローに応用した結果。 Ground truth (上)、フロー予測(中)、不確実性推定(下)。

コメント・リンク集

オプティカルフロー推定、ポアソンガウスノイズ除去、3D表面再構成の3つのアプリケーションで改善を実証。

[#26]
2018.8.1 22:00:12
Content-Sensitive Supervoxels via Uniform Tessellations on Video Manifolds
Ran Yi, Yong-Jin Liu, Yu-Kun Lai
CVPR 2018
Kazushige Okayasu

概要

・動画の領域分割手法のContent-Sensitive Supervoxels(CSS)の提案・空間次元と同じ方法で動画を単に扱うだけではなくオプティカルフローを使用して、隣接フレーム間のボクセルの接続ブラフを構成し、規則的な3次元格子構造を、高次元の色と時系列空間にマッピングすることによって歪める。 ・K-means++のストリーミングバージョンを適用することにより、一度にメモリにロードすることが出来ない長いビデオを処理可能。

Content-Sensitive_Supervoxels_via_Uniform_Tessellations_on_Video_Manifolds

新規性・結果・なぜ通ったか?

・7つの代表的なスーパーボクセル手法を4つのビデオデータセットで比較し、既存のスーパーボクセル手法より優れている。

コメント・リンク集

[#27]
2018.8.2 01:49:36
Joint Cuts and Matching of Partitions in One Graph
Tianshu Yu, Junchi Yan, Jieyi Zhao, Baoxin Li
CVPR 2018
Kazushige Okayasu

概要

グラフカットとグラフマッチングを同時に最適化する問題を定式化し,解決する手法Iterative Bregman Gradient Projection(IBGP)の提案

Joint_Cuts_and_Matching_of_Partitions_in_One_Graph

新規性・結果・なぜ通ったか?

・実世界の画像と合成データセットの両方で検証し, IBGPは外れ値には脆弱だが,様々な外乱に頑健

コメント・リンク集

[#28]
2018.8.1 23:32:20
MorphNet: Fast & Simple Resource-Constrained Structure Learning of Deep Networks
Ariel Gordon, Elad Eban, Ofir Nachum, Bo Chen, Hao Wu, Tien-Ju Yang,and Edward Choi
CVPR2018
Kenichiro Wani

概要

この論文では,MorphNetと呼ばれるニューラルネットワーク構造の設計を自動化する手法を提案している。 MorphNetはネットワークを繰り返し縮小して拡張し,アクティベーション時にリソースの重み付けされたスパース化レギュラーを介して縮小し,すべてのレイヤーで均一な乗法係数を使用して拡張する。従来のアプローチとは対照的に,本発明の方法は,特定のリソース制約(例えば推論ごとの浮動小数点演算の数)に適合し,ネットワークの性能を高めることができる大規模ネットワークにスケーラブルである。評価実験では,さまざまなデータセットとシードネットワーク設計での自動構造学習のMorphNetアルゴリズムを評価している。FLOPとモデルサイズの制約の分析では,制約と精度との間のトレードオフの形式は特定のリソースに大きく依存し,MorphNetはFLOPまたはモデルサイズのいずれかを対象とするときにこのトレードオフをうまく乗り越えることができることを示した。

Item3Image

新規性・結果・なぜ通ったか?

ニューラルネットワーク構造の設計を自動化にしている。またリソース制約をすることにより大規模ネットワークに拡張可能になっている。

コメント・リンク集

  1. link
[#29]
2018.8.1 22:23:31
Detect-and-Track: Efficient Pose Estimation in Videos
Rohit Girdhar et al.
CVPR2018
1712.09184
Takumu Ikeya

概要

  • 複数人が写っている動画において動画内に存在するすべての人物のパーツを推定,追跡する新たな手法として,Mask R-CNNのすべての2次元の畳み込みを3次元へ拡張することで3次元の姿勢推定を行う新たなネットワークを提案した.

3D_mask_rcnn.PNG

新規性・結果・なぜ通ったか?

  • Mask R-CNNを時系列方向に拡張した3D Mask R-CNNを提案した.
  • Multi-Object Tracking Accuracy (MOTA)がValidation setにおいて55.2 %,Test setにおいて51.8%を達成し,ICCV2017のPoseTrackChallengeでSOTAを達成した.

コメント・リンク集

[#30]
2018.8.1 22:37:44
Robust Physical-World Attacks on Deep Learning Visual Classification
K.Eykholt, I.Evtimov, E.Fernandes, B.Li, A.Rahmati, C.Xiao, A.Prakash, T.Kohno and D.Song
CVPR 2018
192
Kazuma Asano

概要

DNNにおいて,システムを混乱させるような攻撃にロバストとなるには,それらの攻撃された画像を学習する必要がある.そこで本稿では,識別する画像に細工を加えることで従来のDNNの識別を間違えさせるアルゴリズムを提案.今回は道路標識の画像に対し環境情報,空間的制約を分析して画像上に細工を加える.作成した画像をLISA-CNNやGTSRB-CNNに識別させ,その間違えた結果を評価している.

Item3Image1Item3Image2

結果

実際に”STOP”の標識を"Speed Limit 45"などに誤認識させており,さらにその識別結果が80%を越えている.この事からかなりの精度で攻撃できていることがわかる.

コメント・リンク集

[#31]
2018.7.20 16:17:17
Boosting Self-Supervised Learning via Knowledge Transfer
Mehdi Noroozi et al.
CVPR 2018

概要

Pretext taskに特化したNNでのSelf-supervised学習(SSL)により獲得した特徴表現をtarget task用のNNに蒸留する手法。従来まではpretext taskに使用したモデルをそのままfine-tuningしていたのでモデル構造の制約が存在したが、二つのtaskそれぞれに適したモデルを選択することができる。さらにjigsawに対して、tailの一つを他の画像に置き換えることによりさらに難度を上げるjigsaw++を提案。

Boosting_Self_Supervised_Learning_via_Knowledge_Transfer.png

詳細・なぜ通ったか?

(a)従来通り何かしらのラベルなし表現学習。(b)ラベルなし特徴抽出&クラスタリング。(c)target taskモデルでクラスタ(pseudo labeling)識別。(d)target taskモデルで本学習。VggからAlexに蒸留した場合は精度向上。 同一モデル同士の蒸留はあまり効果がない。通常の蒸留よりもクラスタ識別させた方が効果がある。

コメント・リンク集

Self-supervisedに獲得した特徴表現ではなくても(HOGでの実験が論文内にあるように)可能なアルゴリズム。単純に蒸留するよりもクラスタ識別にしたほうが良い精度以外での裏付けもみたかった。

[#32]
Perturbative Neural Networks
Felix Juefei-Xu et al.,
CVPR 2018
Tomoyuki Suzuki

概要

Pixel-wiseでの固定ノイズの加算=>ReLU=>1×1convというPerturbative layerを使用したPNNの提案。実験ではPerturbative residual moduleを用いたPNN-Resnetを使用してImageNet, Cifar-10のclassification、Pascal VOCのobject detectionによる評価でそこそこ良い性能を示した。結論としては、今回の実験結果から最適な画像認識用のNNはConvが必要であるとは限らないと言っている。

Perturbative_Neural_Networks.png

手法・なぜ通ったか?

通常のconvの代わりに固定のhand-craftなカーネルを1×1convによる重み付けで近似し、計算コスト・学習パラメータの削減を行うLBCNNを元の発想としている。(固定カーネルがPixel-wiseでの固定ノイズの加算に変わっている)実質、 Perturbative layerでの受容野は1×1領域になるので論文中では(Convは使用しないため)Pooling層などで受容野を拡大すると述べられている。

コメント・リンク集

[#33]
Learning distributions of shape trajectories from longitudinal datasets: a hierarchical model on a manifold of diffeomorphisms
A.Bone, O.Colliot and Stanley Durrleman
CVPR2018
Kota Yoshida

概要

複数の時点で繰り返し観測される個々のオブジェクトの集合から形状軌道の分布を学習する方法を提案.非線形混合効果統計モデルを,マニフォールド値の縦方向データの一般統計モデル,マニホールド構造を持つ有限次元の微分同相写像を用いた形状軌道を定義する.評価実験では,アルツハイマー病の進行に関連した2Dシミュレーションデータおよび3D脳構造の大きなデータセットに関する我々の方法を検証し,時空間パターンを分類する.

Image

新規性・結果・なぜ通ったか?

  • 形状変化の形状,開始およびペースの変動をそれぞれ記述する空間シフト,時間シフトおよび加速因子の分布とともに,長手方向データセットからの形状変化の平均時空間軌道を推定
  • 潜在変数の適応ブロックサンプリング、形状輪郭のランダムな局所変位に基づく形状パラメータのための特定のサンプリング戦略、および目標対数尤度の消失テンパリングに適応するためにMCMC-SAEMを導入

コメント・リンク集

シミュレートされたデータと実際のデータの両方を使用して,MCMC-SAEMアルゴリズムを使用してモデルを推定し自動診断に活用する予定

[#34]
2018.8.1 19:44:20
Learning Convolutional Networks for Content-weighted Image Compression
M.Li, W.Zuo, S.Gu, D.Zhao and D.Zhang
CVPR2018
Kota Yoshida

概要

画像圧縮はエンコーダー,デコーダー,量子化器を学習することによるジョイントレート –と歪みとの間の最適化問題として定式化される.CNNベースでの画像圧縮システムを開発することは困難とされているが本論文では,情報コンテンツが画像内で空間的に変わっているという動機づけによって画像空間の重要度マップを作成した,これらの合計を圧縮率を制御するための離散エントロピー推定の連続的代替とした.造類似性(SSIM)における評価としてJPEGおよびJPEG2000よりも著しく優れており,鮮明なエッジ,豊かな質感,および人工っぽさの少ない非常に優れた視覚的結果が得られることが実験によって示されている.

Image

新規性・結果・なぜ通ったか?

  • コンテンツの重要度マップと2値量子化を画像圧縮システムに導入する
  • 重要度マップは、ジョイントレート - 歪み最適化におけるエントロピーレート推定を代用するためのみでなく,ローカルビットレート割り当てを導くためにも用いられる
  • 2値量子化とプロキシ関数によりend-to-endで学習できJPEGおよびJPEG 2000以上の画質にできる

コメント・リンク集

  • 圧縮後でもオリジナルの画像とほぼ同程度の画像になっていた.
  • Paper
[#35]
2018.8.1 13:45:35
Learning Time/Memory-Efficient Deep Architectures with Budgeted Super Networks
T.Veniat and L.Denoyer
CVPR2018
Kota Yoshida

概要

研究指針の1つとして予測の質に加えて推論コストを考慮に入れることがある.本研究では,予測品質とコストの両方に関して効率的なニューラルネットワークアーキテクチャを発見する問題に焦点を当てるためにBudgeted Super Networks(BSN)と呼ばれるモデルを提案.計算コスト,メモリ消費コスト,および分散コストの3つのコストに対応する技術の能力を分析.

Image

新規性・結果・なぜ通ったか?

  • 最大認可コストを織り込んだ予測の学習目的関数に適用される勾配降下手法を使用して学習するアプローチ
  • FAR-10およびCIFAR-100を用いたResNetやConvolutional Neural Fabricsのアーキテクチャよりも低コストで,より正確なニューラルネットワークアーキテクチャを見つけることを実証

コメント・リンク集

  • 今後は,メタラーニング等を使ってトレーニング時間を短縮するために適合できるかどうかを検討するようだ.
  • Paper
[#36]
2018.8.1 13:37:54
Learning a Discriminative Filter Bank within a CNN for Fine-grained Recognition
Y.Wang, V.I.Morariu and L.S.Davis
CVPR2018
Kota Yoshida

概要

本研究では,fine-grained認識でクラス固有の識別パッチを余分な部分や境界ボックスの注釈なしにキャプチャする畳み込みフィルタバンクを学習する.このことで,中間層の表現学習がCNNフレームワーク内で強化されることを示す.  一般的なfine-grained認識のデータセットを対象に評価実験をしたところSoTAを達成.

Image

新規性・結果・なぜ通ったか?

  • フィルタバンクとは畳み込みフィルタの監視と非ランダムレイヤーの初期化を備えた新規で非対称なマルチストリームアーキテクチャ
  • このことで適切に差別化を図り学習可能
  • CUB-200-2011,Stanford Cars and FGVC-Aircraftを対象に評価実験をしたところSoTAを達成

コメント・リンク集

[#37]
2018.8.1 11:08:53
Seeing Temporal Modulation of Lights from Standard Cameras
N.Sakakibara, F.Sakaue and Jun Sato
CVPR2018
Kota Yoshida

概要

蛍光灯などの光の見づらいフリッカー模様は市販のカメラと鏡面反射を伴う動く物体の単純な組み合わせによって観測することができることを示し,抽出されたフリッカー模様に基づいて画像内の動きのぼやけを除去するための効率的な方法を提案する.環境光のフリッカー模様により誘発される高い周波数特性と画像のブレを除去することが可能になる.

Image

新規性・結果・なぜ通ったか?

  • 環境光のフリッカパターンを符号化画像の符号化光として用いることにより,高い周波数特性をもつ画像のブレを除去
  • 高速カメラや特別に設計されたコード露光カメラを用いずに市販のカメラによってモーションブラーを正確かつ効率的に除去するのに非常に有用であることも証明

コメント・リンク集

移動車両の車載カメラを用いるだけで、移動車両と交通信号との間の高速可視光通信を実現することができるようだ.

[#38]
2018.8.1 10:52:01
Feedback-prop: Convolutional Neural Network Inference under Partial Evidence
T.Wang, K.Yamaguchi and V.Ordonez
CVPR2018
Kota Yoshida

概要

既知ラベルが利用可能であるときに、深い畳み込みニューラルネットワーク(CNN)のための推論手順を提案.一般的なフィードバックベースの伝搬手法で重なり合わない任意の組のターゲットラベルの値が分かっている場合に,未知のターゲットラベルの任意の組の予測精度を向上.マルチタスクモデルを使って実験し,feedback-propがすべてのモデルで有効であることを示す.

Image

新規性・結果・なぜ通ったか?

以下の3つのステップで構成されている.

  • すべてのラベルの初期スコアを予測する完全順方向伝播
  • 既知のラベルに基づいて中間層を更新するための逆方向伝播の切り捨て
  • 未知のラベルのスコアを更新するための順方向伝播

コメント・リンク集

[#39]
2018.8.1 10:42:30
A Constrained Deep Neural Network for Ordinal Regression
Y.Liu, A.W.K.Kong and C.K.Goh
CVPR2018
Kota Yoshida

概要

順序回帰は、インスタンスをを順序カテゴリに分類することを目的とした教師付き学習の問題である.クラス内情報を表現するための高次な特徴と,序数関係を同時にクラス分けするための機能を自動的に抽出することは困難である.そのためにCNNによる実装が考えられる.本研究では,インスタンスの順序関係によって制約される複数のカテゴリの負の対数尤度を最小にする序数回帰問題の制約付き最適化手法 convolutional neural network with pairwise regularization for ordinal regression (CNNPOR)を提案.4つのベンチマークを用いて実験し,CNNPORは既存手法よりも良い結果であり,SoTAを示した.

Image

新規性・結果・なぜ通ったか?

  • 順序回帰の制約最適化問題を解くためにDNNを適応
  • 徴抽出や予測のための復号化などの後処理を行わず,end -to-endのアプローチ
  • 提案手法は,小規模なデータセットに適しており,大規模なデータセットに対してもスケーラブル

コメント・リンク集

[#40]
2018.8.1 10:34:25
Focus Manipulation Detection via Photometric Histogram Analysis
C.Chen, S.MacCloskey and J.Yu
CVPR2018
Kota Yoshida

概要

近年画像操作ツールの自動化とリアリティの向上によってソーシャルメディアの誤った情報が増えているため,画像の捜査が重要になる.本手法では画像の人工的なぼかしによる加工を検出し、画像強度と様々な手がかりとの間に非相関な測光関係を生成する.iPhone7Pulsなどのポートレートモードの画像の新しく収集されたデータセットと野外の画像の一般的なデータセットの両方で評価実験をしたところ,既存の手法を上回った.

Image

新規性・結果・なぜ通ったか?

光度ヒストグラム分類のための小さい2つのCNNを融合することで手がかりを統合する.このことで,自然な画像の非対象部分をぼやかせる浅い被写界深度DoFを持つ画像を区別するため画像の捜査方法を提案

コメント・リンク集

[#41]
2018.8.1 10:26:27
Boosting Adversarial Attacks with Momentum
Yinpeng Dong, Fangzhou Liao, Tianyu Pang, Hang Su, Jun Zhu, Xiaolin Hu, Jianguo Li
CVPR2018
Kazuma Matsui

概要

DNNsは,アルゴリズムに対するセキュリティ上の懸念をもたらす,敵対的な攻撃に対して脆弱である.敵対的攻撃は,ディープ・ラーニング・モデルが展開される前の頑健性を評価する重要な代理として機能する.しかし,既存の攻撃の大半は精度の低いブラックボックスモデルしかだますことができない.この問題に対処するため,反撃攻撃を促進するために,運動量ベースの反復アルゴリズムの幅広いクラスを提案する.攻撃の成功率を向上させるために,モンテウム反復アルゴリズムをアンサンブルモデルに適用し,強力な防御能力を備えた対抗的に訓練されたモデルも攻撃に対して脆弱であることを示す.提案された方法は,様々な深いモデルや防衛方法の頑健性を評価するためのベンチマークとして役立つと考えられる.

Boosting_Adversarial_Attacks_with_Momentum.png

新規性・結果・なぜ通ったか?

Ensembleの敵対的訓練は、訓練されたモデルだけでなく、他の拘束モデルからも生成された敵対的なサンプルを用いて訓練データを補強する.したがって、アンサンブルの訓練を受けたモデルは、ワンステップ攻撃とブラックボックス攻撃に対して堅牢である.本稿では,ブラックボックスモデルだけでなくホワイトボックスモデルを効果的に欺くことができる反撃攻撃を促進するための,広範なモーダルベース反復手法を提案する.この手法は,一段階のグラジエントベースの方法とバニラの反復法を一貫してブラックボックス方式より優れている.本研究では提案された方法の有効性を検証し,それらが実際に働く理由を説明するために広範な実験を行う.生成された敵対的な例の転送可能性をさらに向上させるため,ログが融合されたモデルのアンサンブルを攻撃することを提案する.アンサンブル敵対的訓練によって得られたモデルはブラックボックス攻撃に対して脆弱であり,より堅牢な深い学習モデルの開発のための新たなセキュリティ問題を引き起こすことを示している.

コメント・リンク集

[#42]
2018.7.31 16:19:50
On the Duality Between Retinex and Image Dehazing
Adrian Galdran, Aitor Alvarez-Gila, Alessandro Bria, Javier Vazquez-Corral, Marcelo Bertalmio
CVPR2018
Kazuma Matsui

概要

画像曇り除去は,霧の存在による屋外画像における望ましくない可視性の喪失の除去を扱う.ほとんどのRetinexベースのアルゴリズムは,常に明るさを上げるという特長を持っている.これは、輝度が反転したぼやけた画像にRetinexを直接適用することにより,効果的な画像の曇り除去ができる可能性があることを示している.この論文では、反転強度に対するRetinexが画像の曇りの問題に対する解決策であるという理論的証明を行う.包括的な定性的および定量的結果は,Retinexのいくつかの古典的で現代的な実装が,より複雑なフォグ除去法と対になって競合する画像枯渇アルゴリズムに変換され,この問題に関連する主な課題のいくつかを克服できることを示している.

On_the_Duality_Between_Retinex_and_Image_Dehazing.png

新規性・結果・なぜ通ったか?

多くの画像枯渇技術は通常、外部の情報源、または同じ場面の複数の画像を必要とする。著者は、2潜在層マルコフランダム場による深度と真の放射輝度の共同確率的推定によって、この必要性を克服する。この論文では、画像の曇りと不均一な照明分離の問題を結びつける二重の関係を厳密に数学的に証明した.倒立画像にRetinex演算を適用した後,結果を再び反転することにより,ぼかし処理された結果が得られ,逆もまた同様であることが示されている.特定のアルゴリズムに限定されるのではなく,Retinexの広範な手法に対してこれが正式かつ実験的に示されている.定性的および定量的実験は,現在の枯渇アルゴリズムと比較して競合結果を示した.

コメント・リンク集

[#43]
2018.7.30 17:46:29
A Deeper Look at Power Normalizations
Piotr Koniusz, Hongguang Zhang and Fatih Porikli
CVPR2018
707

概要

特徴マップの非線形プーリングにパワー正規化(Power Normalization;PN)を実装する新しい層を導入する.PNは,Bag-of-Wordsのデータ表現コンテキストで非常に有用な非線形オペレータである.CNN(ResNet-50)の最後の畳み込み層で生成された特徴マップの特徴ベクトルφとそれを符号化した空間座標cを組み合わせる.このカーネルを線形化すると,特徴ベクトルの2次統計を獲得するpositive definite matrixが得られる.ここでは,MaxExpとGammaの2つのPN関数について研究する.

20180730_DLPN_1.jpg20180730_DLPN_2.jpg

新規性・結果・なぜ通ったか?

ResNet-50モデルにPN層を実装し,fine-grained認識,シーン認識,マテリアル分類の4つのベンチマークを行い,すべてのタスクでパフォーマンスの向上を行うことができた.

コメント・リンク集

DNNでPNはあまり聞き慣れないが,機械学習や信号処理ではよく使われる手法のよう.数式や評価が細部まで行き渡っている.

[#44]
2018.8.1 13:08:25
Bootstrapping the Performance of Webly Supervised Semantic Segmentation
Tong Shen, Guosheng Lin, Chunhua Shen and Ian Reid
CVPR2018
165

概要

画像のクラスラベルのみを用いてセマンティックセグメンテーションのための高品質な識別器を学習する弱教師あり学習手法を提案.ブートストラップ法を用いて学習画像の正確なピクセルレベルの教師ラベルを作成し,Ground truthの代理として用いる.Domain adaptationのような手法をとり,ターゲットデータはPASCAL VOCなどのラベルつき画像,ソースデータはWebから収集した画像(Web domain)である.Initial-SECを始めに学習して,粗いラベルを作成する.間違ってラベル付けされている画像(ノイズ)はここで除去され,セグメンテーションに適した画像のみ残される.次に,WebSECを学習してWeb画像の粗いラベルを作成し,Grabcutにより細かいラベルを得る.そして,Web-FCNを学習して,Web domain内の特徴を得る.最後に,代理GTを用いてFinal-FCNを学習する.

20180730_BPWSSS.jpg

新規性・結果・なぜ通ったか?

セマンティックセグメンテーションの教師あり学習に必要な,多大な時間をかけてピクセル単位のクラスマスク教師画像を作成する手間を減らすことができる.ResNetをベースに用いることで,他の弱教師あり学習などと同等またはそれ以上の性能を得ることができた.

コメント・リンク集

多段のDCNNをうまく用いて教師ラベルの削減を行っている.これはEnd-to-endでは難しい?

[#45]
2018.8.1 13:03:49
Regularizing Deep Networks by Modeling and Predicting Label Structure
Mohammadreza Mostajabi, Michael Maire and Gregory Shakhnarovich
CVPR2018
Yuta Matsuzaki

概要

DNNの教師あり学習時に使用するカスタム正規化関数を提案.アノテーションセットをオートエンコーダーで学習することで,正規化関数を導出.セマンティックセグメンテーション実験では,スクラッチ学習によるモデルおよびImageNet pre-trained modelを用いたファインチューニングによるモデルの両者においてベースライン以上の精度を確認.また異なるCNNにおいても一貫して精度向上を確認.

Image

新規性・結果・なぜ通ったか?

学習の流れは以下の通り

  1. オートエンコーダでラベルをモデル化
  2. オートエンコーダの隠れ層を介して出力を予測する補助ブランチを接続し,ネットワークを学習(学習終了後接続したブランチは削除,通常のネットワークとして使用可能)利点および新規性
  • 学習終了後,使用するネットワークに接続したオートエンコーダは削除されるため,テスト時の計算コストは本手法を適用する前と同様
  • ラベル空間の抽象化モデルを構築し,本来のタスクと抽象概念を学習することでよりよいネットワークの重みを学習可能

コメント・リンク集

[#46]
2018.7.31 18:37:16
Two-Step Quantization for Low-bit Neural Networks
Peisong Wang, Qinghao Hu, Yifan Zhang, Chunjie Zhang, Yang Liu and Jian Cheng
CVPR2018
Yuta Matsuzaki

概要

ネットワーク量子化問題において起こる精度の低下に対処するアプローチを提案.学習コードと学習コードに基づく変換を学習の2つのステップに分割量子化を行うTwo-Step Quantization (TSQ) frameworkを構築.CIFAR-10 と ILSVRC-12 datasetsを用いた網羅的な実験によるTSQの有効性,SOTAであることを確認.

Image

新規性・結果・なぜ通ったか?

  • 既存のネットワーク量子化手法のほとんどは変換と符号化を同時に学習(これによって最適な学習が不可能).TSQによってこの問題に対処.
  • コードを学習するためのスパースな量子化手法
  • 低ビット制約つきの非線形最小二乗法による回帰問題として定式化し,反復的かつ効率的に解くアプローチ
  • 特にAlexNet(2-bit activation and ternary weight quantization)において,TSQによる精度はオリジナルと比較しても0.5%低い程度(最新の量子化手法と比較しても5%向上).

コメント・リンク集

[#47]
2018.7.25 18:01:43
Multi-shot Pedestrian Re-identification via Sequential Decision Making
Jianfu Zhang, Naiyan Wang and Liqing Zhang
CVPR2018
Yuta Matsuzaki

概要

マルチショット(異なるカメラ間)な人物再同定(Person ReID)問題に解釈可能な強化学習ベースのアプローチを組み込んだ手法の提案.3つのベンチマークテストをでは提案手法は他の最新の手法と比較し,3%〜6%の画像しか使用することなく優れた性能を発揮.提案した手法は効率と性能の両面において,他の手法と比べ有利であると提示.

Image1Image2

新規性・結果・なぜ通ったか?

  • RNNのような時系列モデルを使用する既存研究と異なり,強化学習ベースの手法(かつ解釈可能)を適用.
  • 圧倒的少ない学習データ(既存手法の3%〜6%)で優れた性能を発揮
  • Re-ID Agentは一対の画像を検証するように設計されており,結果を出力(同一人物か否か)するか,再度検証するために別の画像を要求(出力結果の断定できない場合,決定の延期)
  • 学習時の報酬を調整することで,速度と精度間のトレードオフを調整可能

コメント・リンク集

[#48]
2018.7.25 16:20:10
Optimizing Filter Size in Convolutional Neural Networks for Facial Action Unit Recognition
Shizhong Han, Zibo Meng, Zhiyuan Li, James O’Reilly, Jie Cai, Xiaofeng Wang and Yan Tong
CVPR2018
Yuta Matsuzaki

概要

本論文では,CNNの層フィルタサイズと重みを学習データと畳込みフィルタから同時に学習する新規のフィルタサイズ最適化CNN(Optimized Filter Size CNN:OFS-CNN)を提案.実験ではOFS-CNNが様々な画像解像度に対して最適なフィルタサイズを推定し,網羅的な検索によって得られた最良のフィルタサイズを有することを確認.従来手法より優れていること確認.

Image1Image2

新規性・結果・なぜ通ったか?

  • 既存のCNNを用いた顔認識におけるaction unitsは,予め規定された固定値の畳込みフィルタが適応される仕組み.本研究では完全に学習によってフィルタサイズを最適化(ヒューリスティックに設定した規定のフィルタサイズなし)
  • 本研究のような学習プロセスは層が深くなるにつれ計算コストが増加し効率が下がるが,OFS-CNNでは一般のCNNと比較しより効率的に学習可能
  • フィルタサイズは連続関数として定義され,トレーニングロスを最小限に抑制し最適化

コメント・リンク集

[#49]
2018.7.25 14:22:26
Erase or Fill? Deep Joint Recurrent Rain Removal and Reconstruction in Videos
Jiaying Liu, Wenhan Yang, Shuai Yang and Zongming Guo
CVPR2018
Yuta Matsuzaki

概要

RNNを用いた映像中の雨を除去する手法を提案.雨による画質の劣化分類,空間的テクスチャに基づく雨の除去,時間的一貫性に基づく背景の詳細な再構築を同時に行うJoint Recurrent Rain Removal and Reconstruction Network (J4R-Net) を提案.既存手法を用いた網羅的な実験により,提案手法がSOTAであることを確認.

Image1Image2

新規性・結果・なぜ通ったか?

  • 分類,除去,構築をend to endに行う手法の構築
  • 雨の除去と背景の細部再構成感のトレードオフをRNNで再現し,雨の透過率の低さによる背景の詳細が完全に失われる問題に対処
  • rain degradation classification(分類)によって雨による劣化箇所のバイナリマップを出力,これによって除去箇所を正確に把握

コメント・リンク集

[#50]
2018.7.25 13:36:14
Easy Identification from Better Constraints: Multi-Shot Person Re-Identification from Reference Constraints
Jiahuan Zhou, Bing Su and Ying Wu1s
CVPR2018
Yuta Matsuzaki

概要

Multi-shot Person Re-IDentification (MsP-RID)に向けた類似的制約によるモデル学習方法の提案.視覚的指標を学習し,視覚的外観の大きな変化を扱うことで信頼できるモデルを構築.網羅的な実験・ベンチマークテストを行い,識別精度と速度ともに最先端のMsP-RIDの方法に比べ大幅な優位性を確認.

Image1

新規性・結果・なぜ通ったか?

Image2

  • 視覚的指標を学習し,視覚的外観の大きな変化を扱い,モデルを構築.
  • 新規の類似的制約(典型的な回帰メトリック学習モデルを利用)により,既存メトリックベースの手法における最適化時の制約によるパフォーマンス低下の問題や学習データの不均衡性に対応.
  • 網羅的な実験・ベンチマークテストを実施.

コメント・リンク集

[#51]
2018.7.23 19:08:59
WILDTRACK: A Multi-camera HD Dataset for Dense Unscripted Pedestrian Detection
Tatjana Chavdarova, Pierre Baque, Stephane Bouquet, Andrii Maksai, Cijo Jose, Timur Bagautdinov, Louis Lettry, Pascal Fua, Luc Van Gool, and Franc¸ois Fleuret
CVPR2018
Yuta Matsuzaki

概要

本稿では複数の同期されたカメラを利用した歩行者検出のための大規模かつ高解像度のデータセットを提案.カメラフレームと合わせて,正確なキャリブレーションと2frame/sの速度で検出するための400種類のアノテーション付きフレーム7種類を確保.これにより,40,000を超えるバウンディングボックスが注目領域に存在するすべての人に作成され、合計で300人以上の人物に対してアノテーションを付与.深層ニューラルネットワークを用いた多視点からの人物検出のベースラインアルゴリズムや非マルコフモデルを用いたベースラインアルゴリズムによるベンチマークテストを実施.

Image1

新規性・結果・なぜ通ったか?

Image1

  • 歩行者検出のための他視点からの大規模かつ高解像度のデータセットを構築.
  • 深層ニューラルネットワークを用いた多視点からの人物検出のベースラインアルゴリズムや非マルコフモデルを用いたベースラインアルゴリズムによるベンチマークテストによる網羅的な調査.

コメント・リンク集

[#52]
2018.7.23 17:18:50
Object Referring in Videos with Language and Human Gaze
Arun Balajee Vasudevan, Dengxin Dai and Luc Van Gool
CVPR2018
Yuta Matsuzaki

概要

人間の視線情報を用いた動画中のObject Referring (OR)を行う.(OR: 言語記述を伴うシーン内のターゲットオブジェクトのローカライズの問題).物体の外観や動き,注視(視線情報),時空間コンテキストを1つのネットワークに統合する動画におけるORのための新規のネットワークを提案.提案した手法がモーションキューや人間の視線情報,時空間のテキストを効果的に利用可能であることを確認.従来のOR手法より優れていることを確認.

Image

新規性・結果・なぜ通ったか?

  • ORの既存手法では静的物体のみ対応.提案手法では動的な物体にも対応可能.
  • 人間の視線に着目した手法を提案.
  • ORのための新規のデータセットを構築(5,000以上のビデオシーケンスに30,000個のオブジェクトの説明文と視線情報のアノテーション).
[#53]
2018.7.23 14:20:22
Pose Transferrable Person Re-Identification
Jinxian Liu, Bingbing Ni, Yichao Yan, Peng Zhou, Shuo Cheng and Jianguo Hu
CVPR2018
Yuta Matsuzaki

概要

ReIDモデルの学習をより強化するために,Pose transferによるサンプルオーグメンテーションを利用したposetransferrable person ReID frameworkを提案. MARSデータセットのポーズインスタンスを利用し,豊富なポーズバリエーションを持つ新規データを生成,学習することでよりロバストな学習が可能.また従来のGANの識別器に加え,生成した新規データがReIDにおける損失を最適にするguider sub-networkを提案.Market-1501,DukeMTMC-reIDおよびCUHK03において精巧なモデルを使用することなくSOTAであることを確認.

1

新規性・結果・なぜ通ったか?

2

  • 人間の姿勢変動をどのように捕捉するかを考慮したReIDアプローチ
  • 単にMARSを用いたPose transferをするだけでなく,guider sub-networkによる最適化

コメント・リンク集

[#54]
2018.7.20 16:36:42
Detect Globally, Refine Locally: A Novel Approach to Saliency Detection
Tiantian Wang, Lihe Zhang, Shuo Wang, Huchuan Lu, Gang Yang, Xiang Ruan and Ali Borji
CVPR2018
Yuta Matsuzaki

概要

salient objectの位置を正確に特定するために重み付けされた応答マップによってコンテキスト情報を利用可能にするネットワークglobal Recurrent Localization Network (RLN)を提案.また,物体境界を正確に把握するために各空間位置について局所的なコンテキスト情報を適応的に学習するlocal Boundary Refinement Network (BRN)を提案.本アプローチが既存のすべての手法に対してSOTAであることを確認.

1

新規性・結果・なぜ通ったか?

  • salient object detectionにはコンテキスト情報の効果的な統合が不可欠であるが,既存の方法のほとんどは主にCNNの階層的特徴をどのように統合するかに注力.しかしそれらは高レベルな情報と低レベルな情報組み込むために,予測の質を下げる可能性存在.RLNとBRNによってこれらの問題に対処.
  • 複数の段階に渡り,CNNの内部構造を漸進的に改良するためにrecurrent moduleを採用
  • 学習した伝搬係数は、各ピクセルとその近傍との間の関係を最適に捕捉

コメント・リンク集

[#55]
2018.7.20 15:39:52
Wrapped Gaussian Process Regression on Riemannian Manifolds
Anton Mallasto, et al.,
CVPR 2018
Munetaka Minoguchi

概要

マニフェルドのターゲットのコンテキストにGaussian process(GP)回帰を確率的に適用し、リーマン多様体のWrapped Gaussian Processes(WGPs)によって、ベクトル空間のデータに限定されるGPを拡張する取り組み。

新規性・結果・なぜ通ったか?

図において、(a)は、通常のGP回帰。黒曲線は予測値であり、他の色の曲線は予測分布からのサンプルであり、球体から大きくずれている。(b)は、データの幾何学的制約を考慮したWGP回帰を使用している結果。

コメント・リンク集

diffusion weighted imaging(DWI)や球上の指向性データ、ケンドール形状空間で検証。多様な値の回帰のための効率的かつ柔軟な手法としてWGP回帰の有効性を示唆。

[#56]
2018.8.1 8:36:40
Deep Sparse Coding for Invariant Multimodal Halle Berry Neurons
Edward Kim, Darryl Hannan, Garrett Kenyon,
CVPR 2018
Munetaka Minoguchi

概要

標準的なフィードフォワード深層学習モデルを、希薄性、トップダウンフィードバック、横方向抑制など、生物学的にインスパイアされた概念を用いて改善する取り組み。構築したモデルを解析した結果、人間の脳に見られる「ハルベリーニューロン」を模倣したニューロンが出現したことを証明。

新規性・結果・なぜ通ったか?

CNNは様々なCVタスクに貢献しており、分類問題では人間を超越しているという結果もある。一般的なアプリケーションでは、やはり人間には及ばない。希薄性、トップダウンフィードバック、横方向抑制など、人間(哺乳類)に見られる脳のしくみに着目し、深層学習においてそれを再現するようにモデリングしている。

コメント・リンク集

CVや機械学習タスク全般における、定性的および定量的な改善を証明。

[#57]
2018.7.31 23:27:15
Neural Motifs: Scene Graph Parsing with Global Context
Rowan Zellers, Mark Yatskar, Sam Thomson, Yejin Choi,
CVPR 2018
Munetaka Minoguchi

概要

画像中のシーンにおいて、構造化されたグラフ表現を生成するMotif Network(MOTIFNET)の提案。シーングラフ解析を、境界領域、領域のラベルおよび関係を予測する段階に分割。各段階の間で、コンテキストをbidirectional LSTMを使用して算出し、その後の段階で使用。検出器によって領域を提案し、領域間のコンテキスト情報を計算して、伝搬する。コンテキストをラベル推定に使用。コンテキスト化された頭、尾、および領域情報を外積と組み合わせることによって、ラベルを割り当てます。

新規性・結果・なぜ通ったか?

図の犬、耳、目などのバウンディングボックスにおいて、物体間の関係性を構造化する。モチーフという考え方を利用し、Visual Genome datasetを分析。

コメント・リンク集

[#58]
2018.7.30 11:01:30
Learning Generative ConvNets via Multi-grid Modeling and Sampling
Ruiqi Gao, et al.,
CVPR 2018
Munetaka Minoguchi

概要

画像エネルギーベースのCNNモデルを学習するためのマルチグリッド法の提案。各グリッドについて、エネルギー関数が、CNNによって出力するエネルギーベースの確率モデルを学習。提案学習アルゴリズムの各反復における、観察された各訓練画像について、最小1×1バージョンのトレーニング画像から複数のグリッドで合成画像を生成する。各後続グリッドにおける合成画像は、前の粗いグリッドで生成された合成画像から得られる。合成された例を得た後に、複数のグリッドにおけるモデルのパラメータを、合成された例と観測された例との間の差異に基づいて、同時に更新する。

新規性・結果・なぜ通ったか?

本マルチグリッド法は、エネルギーベースのCNNモデルを学習することができ、元のcontrastive divergence(CD)とpersistent CDより高精度。

コメント・リンク集

2つの異なるクラスのモデル間の不一致や学習の不安定性などの問題を改善することによって、GAN法の代替え法として有効。

[#59]
2018.7.31 10:46:15
EPINET: A Fully-Convolutional Neural Network Using Epipolar Geometry for Depth from Light Field Images
Changha Shin, et al.,
CVPR 2018
Munetaka Minoguchi

概要

迅速かつ正確に、CNNベースでライトフィールドから深度を推定する取り組み。ライトフィールドの幾何学的形状を考慮したネットワークによって、トレーニングデータの欠落を克服。ビューシフトや回転などのライトフィールドの画像固有データの拡張方法を提案。

新規性・結果・なぜ通ったか?

ライトフィールドカメラは、光線の空間的性質および角度的性質の両方を取得できる。様々な照明環境のライトフィールドから深度を計算可能。しかし、ハンドヘルドカメラからのライトフィールド画像は、ノイズが多く深度推定が困難。これらを克服したネットワークを提案。

コメント・リンク集

HCI 4D Light Field Benchmarkにて高精度を確認し、実世界のライトフィールド画像に対する手法の有効性を確認。

[#60]
2018.7.30 22:59:01
clcNet: Improving the Efficiency of Convolutional Neural Network using Channel Local Convolutions
Dong-Qing Zhang,
CVPR 2018
Munetaka Minoguchi

概要

計算の効率化のために、畳み込みの方法を工夫したchannel local convolution(CLC)の提案。Channel Dependency Graph(CDG)によって入出力チャネル間の計算依存関係を表現する。これにより、入力チャネルのサブセットを使用し、出力チャネルを算出。畳み込みのCDGを変更することによって、Interlaced Grouped Convolution(IGC)と呼ばれる新しいCLCカーネルが作成される。また、IGCとGCを組み合わせて、通常の畳み込みを近似するCLC Blockを作成。CDGを分析に利用することで、IGCとGCのメタパラメータを設定するルールと、処理コストを最小限に抑える。

新規性・結果・なぜ通ったか?

CNNの効率化のために、より深く畳み込む手法やグループ化した畳み込みが提案されている。CLC Blockによってネットワークを構成することで、パラメータ数を抑えて計算効率を向上させることができる。

コメント・リンク集

ImageNet-1Kにて効率化の有効性を証明。

[#61]
2018.7.30 22:44:43
End-to-end weakly-supervised semantic alignment
Ignacio Rocco, Relja Arandjelović, Josef Sivic
CVPR 2018
Munetaka Minoguchi

概要

画像ペアをマッチングするための、End-to-Endで学習可能なセマンティックアライメント用のCNNアーキテクチャを開発する。クラス内での大きな変動、視点の変化、背景の乱れに頑健。学習時には、画像の対応点の注釈が要らず、同一のクラスであるが異なる画像における外観変化からパラメータを学習できる。

新規性・結果・なぜ通ったか?

入力画像ペア(図上)において、意味的に一致する密な対応を、幾何学変換とおもに出力し(図中) 、幾何学的に一致しないペアを破棄する(図下) CNNを提案。RANSACからインスパイアされた手法によって、ネットワークアーキテクチャとトレーニング手順を設計し、弱教師付き学習で実装可能。

コメント・リンク集

精度は高く、SOTA。しかし、依然として複数のオブジェクトが存在する場合や、違うクラスにおける画像ペアを扱うことができていない。

[#62]
2018.7.30 22:37:16
Interpretable Video Captioning via Trajectory Structured Localization
Xian Wu, et al.,
CVPR 2018
Munetaka Minoguchi

概要

局所的な時空間表現を統合することで、より精度の良いビデオキャプションを可能にするTrajectory Structured Attentional Encoder-Decoder (TSA-ED)の提案。物体の細かい動き情報と、ビデオキャプションの文構造の両方を探索できる。LSTMによるエンコーダ/デコーダモデルをベースとしており、文章構造と物体の動きをとの相関を学習するスキームを組み込んでいる。これにより、より詳細なキャプションを生成できる。

新規性・結果・なぜ通ったか?

既存の手法では、RNNに入力する前にグローバルな画像特徴を取っているだけであると指摘。異なる時間において、顕著な物体に着目することや、微妙な言語表現を学習するために細かい移動や動きに対する関係性を見出す必要がある。Trajectoryレベルでの特徴を統合して学習することにより、動画中の動く物体を精度よく記述できる。

コメント・リンク集

CharadesとMSVDデータセットで実験し精度向上を確認。また、提案手法は可視化ツールとしてみなすことができ、モデルの解釈能力を向上させることができる。

[#63]
2018.7.30 22:29:43
Semantic Video Segmentation by Gated Recurrent Flow Propagation
David Nilsson, Cristian Sminchisescu,
CVPR 2018
Munetaka Minoguchi

概要

ラベルなしデータの情報を活用し、セマンティックセグメンテーションの精度を向上させる、End-to-Endで学習できるGated Recurrent Flow Propagation(GRFP)の提案。オプティカルフローによってラベリング情報を時間的に伝搬できるCNNと、時空間的変換を行うリカレントレイヤーを組み合わせる。フローや認識、時間的伝搬モジュールは共同で学習することができ、弱教師付きビデオ学習をすることができる。

新規性・結果・なぜ通ったか?

アノテーションなしで余分な計算を減らしつつ学習する。ラベルのないフレームに存在する情報を順番に利用でき、セグメンテーションの精度と時間的一貫性の両方を改善することに成功。

コメント・リンク集

CityScapesやCamVidデータセットにおいて精度向上を確認。

[#64]
2018.7.30 22:19:21
Event-based Vision meets Deep Learning on Steering Prediction for Self-driving Cars
Ana I. Maqueda, et al.,
CVPR 2018
Munetaka Minoguchi

概要

イベントカメラを用いて自動車のステアリング角度を予測するDNN手法の提案。約1000kmのイベントカメラデータにCNNを適用し、ステアリング角度推定が可能になる理由を定量的および定性的に示す。イベントカメラの出力は、イベントの極(正か負)別にチャンネルを使用し、一定の時間間隔Tごとにフレームを収集。ResNetによってステアリング角度を推定。

新規性・結果・なぜ通ったか?

動き推定タスクにおいて無駄のない情報を得ることができるイベントカメラを用いて、そのポテンシャルを示すことにモチベーションを置いている。イベントセンサーの出力と連携して動作するように設計することで高精度に推定できる。

コメント・リンク集

イベントベースカメラの方が、標準的なカメラよりも優れていることを実証。特に照明条件や高速な動きにも頑健。

[#65]
2018.7.30 22:05:22
Classification-Driven Dynamic Image Enhancement
Vivek Sharma, et al.,
CVPR 2018
Munetaka Minoguchi

概要

人間の感覚における画像強調ではなく、画像分類精度向上を目的としたImage Enhancement手法の提案。End-to-Endの動的フィルタ学習を介したCNNアーキテクチャとなっている。図のように、画像をCNNに直接入力するのではなく、入力画像を, weighted least squares(WLS)フィルタと畳み込みによって画像を強調し、クラス分類を改善する。

新規性・結果・なぜ通ったか?

CNNは、画像の質感や構造を利用して、分類するための識別器として使われるが、Image Enhancementによって画像を協調し、CNNの前処理として使用可能。既存の画像強調手法は、人間の画像の知覚向けに設計されている。画像強調のためにCNNを拡張し、画像分類精度が向上するように共同で学習することができる。

コメント・リンク集

CUB 200-2011、PASCAL VOC2007、MIT Indoor、DTDの4つのベンチマークデータセット(fine-grained, object, scene, and texture classification)で実証。全ての一般的なCNNにおいて精度向上を確認。

[#66]
2018.7.30 21:52:44
Excitation Backprop for RNNs
Sarah Adel Bargal, et al.,
CVPR 2018
Munetaka Minoguchi

概要

動画におけるクラス推定やキャプショニングにおいて、RNNが使用されたという証拠を空間的に立証するExcitation Backprop(EB)の提案。入力動画に対して、どの部分がクラス分類/キャプショニングの根拠になったのか、顕著性マップを出力して可視化。トップダウンの顕著性によって、単一パスで空間的および時間的な証拠を同時に立証するように定式化。

新規性・結果・なぜ通ったか?

RNNが何を根拠にタスクをこなすのか、GradCamのように出力するモデルの提案。図は、CliffDivingとHorseRidingの両方を含む動画において、アクティブクラスであるCliffDivingの顕著性を強調している例。

コメント・リンク集

ActionとCaptionにて実験。単語に対するローカライズの精度は良い印象だが、キャプショニングの場合の精度は微妙。

[#67]
2018.7.30 21:42:53
Guided Proofreading of Automatic Segmentations for Connectomics
Daniel Haehn, et al.,
CVPR 2018
Munetaka Minoguchi

概要

細胞画像などの、コネクトミックにおける自動的なセマンティックセグメンテーションについて、ガイド付き校正を行う。修正が必要なエラーとして、領域を分けすぎてしまったり、大きく領域を取りすぎてしまうスプリット,マージエラーを対象としている。古典的なCNNアーキテクチャで構成されており、4チャンネル(image、Prob.、Label、Border)を入力として、コンテキスト情報を取り入れながら学習。修正の際、ユーザはYes/Noで回答することで修正できるため、以前の手法と比較して7.5倍高速化に成功。

新規性・結果・なぜ通ったか?

コネクトミックという神経の分野におけるセマンティックセグメンテーションでは、エラーがたびたび発生する。これらのエラー部分を人間に提示し、マージとスプリットの候補を自動でクラシフィケーションする。CNNで自動セグメンテーションのエラーを学習することで実現。人間がYes/Noを判定する校正が基本だが、確率に閾値を設けることで自動構成モードにも切り替えられる。

コメント・リンク集

初心者と専門家による広範囲的な実験で検証。効率化を達成し、校正時間の短縮に成功。

[#68]
2018.7.30 21:34:05
SSNet: Scale Selection Network for Online 3D Action Prediction
Jun Liu, et al.,
CVPR 2018
Munetaka Minoguchi

概要

ストリーミング3Dスケルトンシーケンスにおけるオンライン行動予測のためのSSNetの提案。拡張CNNによって時間軸上に対してもスライディングウィンドウを行う。これにより、時間次元における運動をモデル化する。SSNetは、タイムステップによって適切な畳み込みレイヤーを選択することで動作を観測した部分に集中し、スケール変動に対応することができる。また、activation sharing scheme(活性化共有スキーム)によって、隣接したステップ間における重複計算に対処することで、効率化を図っている。

新規性・結果・なぜ通ったか?

行動に対して、タイムステップごとにラベル付けをおこなう行動予測において問題視されるスケール変動や計算の効率化に着目している。スケルトンを入力とし、行動ラベルや行動開始時間を出力とする。

コメント・リンク集

行動予測用データセットのPKU-MMDとOADにて実験し、従来手法と比較して高精度化を実証。

[#69]
2018.7.30 21:16:15
Recurrent Saliency Transformation Network: Incorporating Multi-Stage Visual Cues for Small Organ Segmentation
Qihang Yu, et al.,
CVPR 2018
Munetaka Minoguchi

概要

腹部のCTスキャン画像から、膵臓などの小さな器官をセグメント化する研究。 saliency transformation module(顕著性変換モジュール)を搭載したRecurrent Saliency Transformation Networkを提案。確率分布マップを反復的に変換する。この結果を空間的重みとして、次の反復処理に適応させる。トレーニングは2つのスケール下で共同に行うことができる。テストでは反復的にコンテキスト情報を伝播させていくことで精度向上を図る。

新規性・結果・なぜ通ったか?

  • 画像の大きさに対して小さな物体をセグメント化する場合、従来では1段階目の荒い予測を行い、次に2段階目の細かい予測をすることで精度向上を図っていた。しかし、コンテキスト情報の不足などにより、細かい段階での予測の精度が低い。

コメント・リンク集

  • 膵臓のセグメンテーションと多臓器のセグメンテーションの2つのデータセットで精度評価し、SOTA。自ら収集したNIH膵臓セグメンテーションデータセットでも高精度。
[#70]
2018.7.30 21:04:21
Deep Material-aware Cross-spectral Stereo Matching
Tiancheng Zhi, et al.,
CVPR 2018
Munetaka Minoguchi

概要

RGBとNIRによるステレオマッチング手法によって、画像の位置合わせや視差推定を行う研究。深層学習によって異なるスペクトル帯域間の画像を同時に変換し、視差を推定する。視差を推定するDisparity Prediction Network(DPN)とスペクトルを変換するSpectral Translation Network (STN)を提案。DPNの設計は既存の手法だが、入力をRGBとNIRに置き換えている。STNでは,RGB画像をNIR画像に置き換える。

新規性・結果・なぜ通ったか?

  • 図に示すようなRGB画像とNIR画像の異なるスペクトル帯域の画像におけるマッチングは、外観変動の影響で困難とされる。DPNには,マテリアル(光源、フロントガラス、光沢のある表面)を意識したロスを設計することによって高精度に視差を推定。また、車載RGB-NIRステレオシステムによって、実際に路上を撮影。データセット(13.7時間)を構築して評価している。

コメント・リンク集

  • 自ら作成したデータセットにて、高精度かつリアルタイムに処理できることを実証した。
[#71]
2018.7.30 20:47:23
CNN Driven Sparse Multi-Level B-spline Image Registration
Pingge Jiang, James A. Shackleford
CVPR 2018
Kazushige Okayasu

概要

異なる時間に撮影された2つの画像や異なるモダリティを共通の座標系にマッピングする空間変換を再現しようとするタスクにおいて、2つの画像間の変換を記述するための最も適切なパラメータ化を学習することに焦点を当てたmulti-grid B-spline法を提案

CNN_Driven_Sparse_Multi-Level_B-spline_Image_Registration

新規性・結果・なぜ通ったか?

B-splineのパラメータを大幅に削減

コメント・リンク集

[#72]
2018.8.1 14:43:45
Enhancing the Spatial Resolution of Stereo Images using a Parallax Prior
D.S. Jeon, S. Baek, I. Choi and M.H. Kim
CVPR2018
Ryota Suzuki

概要

複数枚画像の超解像といえば主に時系列画像で行われてきたが,本稿ではステレオで行う. このとき,それぞれのステレオで視差が異なるので, 視差の考慮が必要である. ステレオ画像から視差は計算できるが, これを基に超解像を行う従来法によるとサブピクセル精度が出せずジャギーが出てしまう.

本稿では,End-to-Endにステレオ画像から視差に基づくシフト量と高解像画像の出力を行うDNNを提案する.構造的には,YCbCrにして照度,カラー成分に分けて2段階で学習するNNを構成, 照度画像で,まずシフトを考慮した高解像照度画像を生成.片方の眼の画像のシフト画像を複数枚用意し, もう片方の眼の画像と併せてCNNに入力. 出力の高解像照度画像と,低解像のカラー成分画像からCNNで高解像カラー画像を最終的に出力する.

Figure1

新規性・結果・なぜ通ったか?

従来のステレオベース手法よりなめらかな高解像画像が出力できている.PSNRでよりよいスコアをマーク.シフト量,シフト画像の枚数についても議論.

コメント・リンク集

[#73]
2018.8.1 12:12:48
Learned Shape-Tailored Descriptors for Segmentation
N. Khan and G. Sundaramoorthi
CVPR2018
Ryota Suzuki

概要

テクスチャセグメンテーションにおいて,それぞれのテクスチャ領域において照明条件などの条件に不変な特徴を取りたいが,その時にテクスチャの領域のセグメンテーションがされていないとテクスチャ間の特徴が混ざってしまうという,鶏と卵問題がある.

本研究では,Shape-Tailored Descriptorを提案.様々なスケール,任意の形状領域での向き付き勾配の基本特徴を弁別するNNを学習する. この特徴表現はROIにおける偏微分方程式により定義される. 学習したメトリックにより基本特徴を弁別することで,結合最適化問題の定式化及び最適化を行う. これは学習した特徴のグルーピングで行われる.

Figure1

新規性・結果・なぜ通ったか?

形状もちゃんと考慮された領域の特徴抽出を一つの枠組みで提供できている.

コメント・リンク集

[#74]
2018.7.31 17:16:18
Very Large-Scale Global SfM by Distributed Motion Averaging
Siyu Zhu, Runze Zhang, Lei Zhou, Tianwei Shen, Tian Fang, Ping Tan, Long Quan
CVPR 2018
Goshi Sasaki

概要

入力画像をいくつかのグループに分けて、何百万枚のスケールでglobal SfMを行った。最初に入力画像を相関に基づいて複数のパーティションに分割する。次に、パーティションごとに回転や並進といった変換を求めてから全体の最適化を図り、パーティションの境界を明確化したり、1つの座標系ですべてのカメラを表せるようにした。最後に収束するまで部分最適と全体最適をを繰り返す。

architectur

新規性・結果・なぜ通ったか?

従来手法より多い数百万の入力画像でglobal SfMを行えるようにした入力画像が増加した場合に全体最適化で生じるメモリーの飽和を部分最適化を用いることで回避できるようにした

コメント・リンク集

[#75]
2018.8.1 00:15:36
PiCANet: Learning Pixel-wise Contextual Attention for Saliency Detection
Nian Liu, Junwei Han and Ming-Hsuan Yang
CVPR 2018
Kodai Nakashima

概要

コンテキストはサリエンシー検出タスクにおいて重要な役割を果たす.しかし与えられたコンテキスト領域において,全てのcontextual informationが役に立つわけではない.この研究では,ピクセルごとにinformative context locationを選択的に関与することを学習するため,新たにピクセルワイズなcontextual attention network(PiCANet)を提案する.これにより,ピクセルごとにattention mapを生成することができる.

PiCANet_Learning_Pixel-wise_Contextual_Attention_for_Saliency_Detection.png

新規性・結果・なぜ通ったか?

PiCANetにより,サリエンシー検出のパフォーマンスが向上すること確認した.グローバルおよびローカルのPiCANetは,全体的なコントラストと均質性の学習を容易にする.その結果サリエンシーモデルは,物体をより正確かつ均一に検出することができ,SOTA手法に対して有効に機能する.

コメント・リンク集

[#76]
2018.8.1 03:45:52
Learning Structure and Strength of CNN Filters for Small Sample Size Training
Rohit Keshari, Mayank Vatsa, Micha Singh and Afzel Moore
CVPR 2018
Kodai Nakashima

概要

CNNのパラメータが多いため,データセットのサイズが小さいと過学習するという問題がある.この研究ではこの問題を解決するため,SSF-CNNを提案する.これは,フィルタの構造と強度を学習することにフォーカスすることにより,CNNのパラメータ数を減らすことができるという方法である.ここでフィルタの構造は,辞書ベースのフィルタ学習アルゴリズムを使用して初期化され,強度は小さなサンプルトレーニングデータを用いて学習される.これによりアーキテクチャーは,小規模および大規模のトレーニングデータベースの両方を使用した柔軟なトレーニングを提供し,小規模のトレーニングデータでも優れた精度を実現することができる.

Learning_Structure_and_Strength_of_CNN_Filters_for_Small_Sample_Size_Training.png

新規性・結果・なぜ通ったか?

このアルゴリズムの効果を確認するため,はじめにMNIST,CIFAR10とNORBのトレーニングデータ数を変化させながら実験を行った.その結果,SSF-CNNはパラメータの数が減少することを確認した.次にデータセットのサイズが小さいIIITD Newborn FaceとOmniglotを用いて実験を行ったところSOTAな結果を得ることができた.

コメント・リンク集

[#77]
2018.8.1 03:05:35
Feature Generating Networks for Zero-Shot Learning
Yongqin Xian, Tobias Lorenz, Bernt Schiele and Zeynep Akata
CVPR 2018
Kodai Nakashima

概要

未知クラスのラベル付きサンプルの必要性を回避するため,画像ではなくCNN特徴量を生成するGAN(f-CLSWGAN)を提案する.クラスレベルのセマンティック情報で条件づけることにより,よりリッチなCNN特徴空間を生成することができるとのこと.

Feature_Generating_Networks_for_Zero-ShsoetenLearning.png

新規性・結果・なぜ通ったか?

ZSL, GZSLの両方の問題設定において,CUB, FLO, SUN, AWA, ImageNetを用いて実験を行ったところ,提案手法によりSOTA手法の精度が向上した.

コメント・リンク集

[#78]
2018.8.1 01:18:57
Towards a Mathematical Understanding of the Difficulty in Learning with Feedforward Neural Networks
Hao Shen
CVPR 2018
1462
Kazuki Inoue

概要

smooth optimisationの観点から、多層パーセプトロンに対する数学的な考察を行なった論文。DNNの学習の際に最もよく使われるアルゴリズムであるバックプロパゲーションは局所最適解に収束する可能性があることと、収束が遅いことが問題視されている。本論文ではロス関数のcritical point(停留点)に対する解析を行うことで、局所最適解に収束することなく帯域最適解に収束する条件を確認。また、より速くネットワークの学習を収束させるために、ヘッシアンに対する解析や、帯域的最適解に二次収束するという点でapproximate Newton’s algorithmと呼ばれるGeneralised Gauss-Newtonアルゴリズムを用いた学習による評価を行なった。

Item3Image

新規性・結果・なぜ通ったか?

  • ロス関数の停留点について解析することで、多層パーセプトロンによる学習が局所最適解に収束することなく、帯域的最適解に収束するための条件を確認。また、より収束を速くするためにヘッシアンについても解析を行なった。
  • Generalised Gauss-Newton algorithmのパフォーマンスを二次平面上の4つのクラス識別によって調査。二次収束し、バックプロパゲーションよりも速く収束することを確認。活性化関数としてSoftPlusやBent identityを使用することで帯域解へ収束することを確認.

コメント・リンク集

  • 論文の多くのページをMLPについての数学的な解析に割いており、Conclusionチャプターでは”All aspects discussed in this paper require a further systematic and thorough investigation both theoretically and experimentally, and are expected to be also applicable for training recurrent neural networks.”と述べている。
  • 式40本に対して、図が一つ、表0という数学的な論文。しかし、今後のDNNの発展のためには数学的理解はますます重要と考えられるため、積極的に読んでいく必要がある。
  • 論文
  • Supplementary material
[#79]
2018.7.31 22:45:54
Statistical Tomography of Microscopic Life
Aviad Levis, Yoav Y. Schechner, Ronen Talmon
CVPR 2018
Kazushige Okayasu

概要

ランダムな3D方向、位置、およびスケールを有する3Dボリューム自然物体の断層を投影された2D画像から推定する3D-POPの提案

Statistical_Tomography_of_Microscopic_Life

新規性・結果・なぜ通ったか?

従来手法(SPR)よりスケール変化による推定誤差が少ない

コメント・リンク集

[#80]
2018.7.31 23:22:17
Continuous Relaxation of MAP Inference: A Nonconvex Perspective
D. Khuê Lê-Huu, Nikos Paragios
CVPR 2018
Kazushige Okayasu

概要

MRFにおけるMAP推論の非凸連続緩和法においてADMMに基づく多重線形分解フレームワークを使用し、より効果的な解を求める手法を提案

Continuous_Relaxation_of_MAP_Inference_A_Nonconvex_Perspective

新規性・結果・なぜ通ったか?

最先端のMRF最適化アルゴリズムと比較し、変数と制約の数が少ないため、メモリ効率が良い。また、高度に並列化可能なため,分散アプリケーションやリアルタイムアプリケーションにも適している。

コメント・リンク集

[#81]
2018.7.31 21:53:12
Modeling Facial Geometry using Compositional VAEs
Timur Bagautdinov, Chenglei Wu, Jason Saragih, Pascal Fua, Yaser Sheikh
CVPR 2018
Yue Qiu

概要

  • Compositional VAEを用いた非線形顔幾何representation学習手法を提案した.様々な顔モデルフィッティングタスクに提案顔幾何representation用いられる.
  • 従来の顔幾何representationがglobal, local linearの2種類に分ける.著者達が顔のglobalとlocal linearモデルがAEと類似することから, Compositional VAEにより顔のglobalとlocal linearモデルを結合できると指摘した.これにより,新たな顔の異なるレベルの詳細を表示できるマルチスケールVAEを提案し,それにより詳細的な顔幾何表現を学習できる.

ModelingFacialGeometry-CVAEs

新規性・結果・なぜ通ったか?

  • ①dense デプスマップ②スパース2D,3D対応付け③shadingから形状リコンストラクションの3つのタスクにおいて提案手法を評価し,従来の線形モデル及びVAEをベースとした手法より良いパフォーマンスを得られた.
  • 提案手法は16人しか含めていないデータセットにより硬質な顔幾何を学習できる.

コメント・リンク集

[#82]
2018.7.31 19:41:50
Deep Adversarial Metric Learning
Yueqi Duan, Wenzhao Zheng, Xudong Lin, Jiwen Lu, Jie Zhou,
CVPR 2018
Yue Qiu

概要

  • Metric learningに用いられる観測されたnegative examplesからhard negative examplesを生成する手法Deep Adversarial Metric Learning (DAML)を提案した.提案の生成手法を様々な従来metric learning手法に用いられる.
  • 従来のあらゆるデータセットにはeasy negativesがより多い,hard negativesが相対的少ない特徴がある.Metric learningタスクに対し,難しいのはhard negativesとpositivesの相似性を大きくすることである.そこで,提案手法は大量なeasy negativesからhard negativesを生成する手法を提案し,easy negativesから大量な補充情報を用いる
  • 提案手法はadversarial mannerで同時にhard negative generatorとfeature embeddingを学習し,生成した大量なhard negativeから有効的なdistance metricsを学習する.また, negative generatorのロスは①合成サンプルはanchorと近い②合成サンプルのアノテーション情報を保持する③合成サンプルはlearned metricをご認識させるの3つをベースに設計した.

deep_adversarial_metric_learning

新規性・結果・なぜ通ったか?

  • 従来のmetric learning手法は主にeasy negativesをignoreして,提案手法DAMLはeasy negativesをexploitし, easy negativesをhard negativesの生成の補充情報として使用する.これにより生成できるhard negativesはよりpotentialである.
  • CUB 200-2011, Cars196, Stanford Online Productsの3つのデータセットにおいて実験の結果によりDAMLは従来のmetric learning手法より良いパフォーマンスを得られた

コメント・リンク集

  • Easy negativesを利用したhard negatives生成が面白い.
  • 論文
[#83]
2018.7.31 19:36:53
OLÉ: Orthogonal Low-Rank Embedding, A Plug and Play Geometric Loss for Deep Learning
José Lezama, Qiang Qiu, Pablo Musé, Guillermo Sapiro
CVPR 2018
Kazushige Okayasu

概要

・クラス内の分散を低減し、クラス間のマージンを同時に学習するOrthogonal Low-Rank Embedding(OLE)を提案・ OLEはlossに低ランク制約と直交化制約を加える.

OLE_Orthogonal_Low-Rank_Embedding_-_A_Plug_and_Play_Geometric_Loss_for_Deep_Learning

新規性・結果・なぜ通ったか?

・学習画像が少ないデータセットで特に効果があり,Stanford STL-10でstate-of-the-art

コメント・リンク集

[#84]
2018.7.31 17:39:25
Divide and Conquer for Full-Resolution Light Field Deblurring
M. R. Mahesh Mohan, A. N. Rajagopalan
CVPR 2018
Kazushige Okayasu

概要

・ Light Field Blind Motion Deblurring (LF-BMD)を低次元の部分問題に分解できるMDFベースのブレ軽減手法の提案

Divide_and_Conquer_for_Full-Resolution_Light_Field_Deblurring

新規性・結果・なぜ通ったか?

・最先端の手法と異なり、現実的にレンズの屈折効果を捕らえ、広角のアングルや不規則な撮影者の動き対しても適用可能・並列処理可能なアルゴリズムのためGPUなどの並列処理可能

コメント・リンク集

[#85]
2018.7.31 13:57:59
Analytical Modeling of Vanishing Points and Curves in Catadioptric Cameras
P. Miraldo, F. Eiras and S. Ramalingam
CVPR2018
Ryota Suzuki

概要

透視投影カメラ画像上の消失点,消失線に関する議論は多く行われてきたが,反射屈折カメラ画像上での消失点,消失曲線を表現する解析的モデルの開発は行われてきていなかった. 反射屈折カメラ画像上では,一つの消失点から発生する平行曲線は別の消失点に再度収束するというところが透視投影カメラ画像のものとは異なる.

そこで,カメラのキャリブレーションパラメータ,鏡形状係数,3D空間の平行線の方向ベクトルのパラメータを用いた パラメトリック方程式を提案. 鏡面は軸対称二次曲面で表現.それを透視投影カメラが観測するような光学モデルのもと,定式化.

Figure1

新規性・結果・なぜ通ったか?

今まで行われてこなかった反射屈折カメラにおける消失点・消失曲線のパラメトリック解析手法を与えた.

コメント・リンク集

凄くすっきりしたネタと論文.

[#86]
2018.7.31 12:18:57
Encoding Crowd Interaction with Deep Neural Network for Pedestrian Trajectory Prediction
Yanyu Xu, Zhixin Piao, Shenghua Gao
CVPR 2018
Shusuke Shigenaka

概要

歩行者ごとで隣接フレーム間の変位を逐次予測するCIDNN(Crowd Interaction Deep Neural Network)を提案.群衆による歩行者の影響のレベルをLSTMによって重み付けをし,従来の手法に比べ, 対象の歩行者への空間的親和性の重要度を高くしている. 提案手法は以下を可能にし公的に利用可能なデータセットにおいて高精度な軌道予測を実現した.

  • LSTMベースのモーションのエンコード
  • 位置推定に基づく空間的測定
  • 座標変位に基づく軌道予測

Encoding_Crowd_Interaction_with_Deep_Neural_Network_for_Pedestrian_Trajectory_Prediction

新規性・結果・なぜ通ったか?

  • 歩行者の軌道に影響を及ぼす可能性を空間的特性を維持しながらレベル感を考慮し軌道予測を行った.
  • キーフレームにおける外観ベースのキーポイントと組み合わせることで各フレームのキーポイント検出をさけ精度を低下させることなく効率的に行った.

コメント・リンク集

[#87]
2018.7.31 12:34:53
Disentangling Factors of Variation by Mixing Them
Qiyang Hu, Attila Szabó, Tiziano Portenier, Matthias Zwicker, Paolo Favaro
CVPR2018

概要

追加のアノテーションやドメイン知識なしに、disentangleな変動要因からなる表現をunsupervisedに学習することが目標。disentangleな変動要因とは、物体の姿勢や色など画像に渡って一貫して識別できる画像特徴に対応する要因のこと(ここではfeature chunkと呼ぶ)。この論文のポイントと提案手法は次の項目。1)disentangleな変動要因表現は、feature chunkの連結によって構成されるということ。2)autoencoderを利用し、不変的な画像属性とfeature chunkをencodeとdecodeすることを促進する目的関数、3)変動要因を見分けられ、各feature chunkが一貫性を持つ表現を確実にするために分類制約したこと。

Disentangling_Factors_of_Variation_by_Mixing_Them.png

新規性・結果・なぜ通ったか?

前述の2)に関して、図のようなmixing autoencoderとadversarial learningを組み合わせたことが新しい。encoderとdecoderが(画像全体を表現するのに十分であれば)ただ一つのfeature chunkで表現できてしまう問題(shortcut problem)を分類制約を加えることで回避したことも新しい。

コメント・リンク集

この論文のキーアイデアは、論文中のmixされたx1の属性がx3にdecodeされ、再びencodeされたときx1の属性が保存されていることであり、cycle構造のようで、この論文に似ていた。これをclassifierと組み合わせてdisentangleな特徴抽出を行ったのはおもしろい。だが、これでdisentangleな特徴が得られているのか、比較が単純なAEだけ(VAEやほかの関連研究との比較が不足)、など評価方法に疑問が残る。

[#88]
2018.7.31 12:52:58
Preserving Semantic Relations for Zero-Shot Learning
Yashas Annadani, Soma Biswas
CVPR 2018
Yue Qiu

概要

  • セマンティック空間の構造を利用したunseen categories識別のための新たなZero-shot learningの手法を提案した.
  • 従来のrankingベースなZero-shot learningの手法はfixed marginなどの原因で,セマンティック構造が失ってしまう問題点がある.著者達がZero-shot learningタスクに対し①識別能力②unseen categories識別のためにセマンティック空間の特性をinhertingすることの2つが重要と指摘し,識別能力を保ちながら,セマンティック関係も守れる手法を提案した.
  • 具体的には①semantic space構造をカテゴリ間のrelationsに分解する②relationsを更に3種類に分解する:identical; semantic similar; semantic dissimiar.③指定されたカテゴリに対して,semantic tupleを求め, semantic tupleに現状のカテゴリと3種類の関係を持つほかのクラスのサンプルを記録する.また,embedding spaceのこういった関係を保つようなロス関数を設計した.

PreservingSemanticRelations-ZeroShotLearning

新規性・結果・なぜ通ったか?

  • SUN, AWA2, CUB, aPYなどのデータセットにおいてSoTAなzero-shot learningパフォーマンスを得られた.
  • 提案手法を用いてattribute informationなしのカテゴリに対してsemanticの推定も行えると指摘した.

コメント・リンク集

  • Unseen categoryに対してsemanticを予測するタスクも面白いと思う
  • 論文
[#89]
2018.7.31 12:28:55
Smooth Neighbors on Teacher Graphs for Semi-supervised Learning
Yucen Luo, Jun Zhu, Mengxi Li, Yong Ren, Bo Zhang
CVPR 2018
Yue Qiu

概要

  • Self-supervise学習のための学習済みの教師グラフのneighboring pointsをregularizeする手法SNTGを提案した.
  • 従来のSelf-supervise学習の一つの種類では,data pointにpertubationsを追加する手法がある.このような手法では,従来単一のdata pointに対しpertubationsを追加,data points間のconnetctionsが考えられなかった.このため,従来手法がunlabeled data structureの clusters, manifoldsなどの情報を利用できない.このような問題点から, Smooth Neighbors on Teacher Graphs (SNTG)を提案し,data points間のconnectionsを考慮したdata manifoldのsmoothness手法を提案した.
  • 具体的には①SNTGが教師モデルの予測をベースにgraphを構築する②構築したgraphを用いてneighboring pointsの相似性を評価する,低い次元のmanifoldでneighboring pointsがsmoothである.このようなプロセスを用いて,neighboring pointsが相似し,non-neighborが相似しないように学習される.

SmoothNeighborsOnTeacherBraphs-SemiSupervisedLearning

新規性・結果・なぜ通ったか?

  • Semi-supervised学習ベンチマークでSoTAな結果を得られた.CIFAR-10(4000 labels):9.89%error rates, SVHN(500 labels):3.99%error rates.
  • クラス数が少ない場合,大幅に進歩が従来より大きい.MNIST(20 labels)ではerror ratesを4.81%から1.36%に下げた.

コメント・リンク集

[#90]
2018.7.31 12:20:27
Structured Uncertainty Prediction Networks
Garoe Dorta, Sara Vicente, Lourdes Agapito, Neill Campbell, Ivor Simpson
CVPR 2018
Yue Qiu

概要

  • 合成画像のStructured uncertainty distributionを予測する手法を提案した.提案手法をAE, VAEなどと組み合わせにより良いパフォーマンスを得られる.
  • 伝統的なfactorized Gaussian distributions により生成したサンプルが平滑しすぎる問題点がある.著者達がこの問題を解決するために,trained probabilistic生成モデルからresidual distributionを予測するネットワークを提案した.特に,structured Gaussian distributionによりresidual distributionをモデリングする.提案ネットワークがmaximum likelihood estimationにより学習可能であり,従来のfactorized Gaussian distributions と比べよりリアルで詳細的な画像を生成できると指摘した.

Structured_Uncertainty_Prediction_Networks

新規性・結果・なぜ通ったか?

  • 提案手法が有効的に合成画像のresidual distributionをリコンストラクでき,リアル顔画像から高頻度で,より詳細的な類似顔画像を生成できる.

コメント・リンク集

  • 伝統的なVAE, AEと組み合わせしてよりリアルな画像を生成できるので,合成データを作成する場合に参考になれる.
  • 処理詳細についてよく理解できていなかった
  • 論文
[#91]
2018.7.31 11:38:58
What do Deep Networks Like to See?
Sebastian Palacio, Joachim Folz, Andreas Dengel, Jörn Hees, Federico Raue
CVPR 2018
Yue Qiu

概要

  • クラス識別器がどのような入力信号により識別を行っているかにより新たなDCNN理解・解釈性に関する手法を提案した.
  • 提案手法は①Auto-Encoderを学習する②評価対象となる物体識別器を学習する③①のencoder,②の識別器のパラメータをfixして,AE+Classifierをfinetuning.④ finetuning後のdecoderの結果を分析することによりDCNNの分析・解釈を行う.また,提案手法がAE+classifierで行う理由が①decoderがclassifierが使用する有用な情報を保護し,いらない情報を捨てる効果がある②再学習によりAEがノイズなどの元の入力の邪魔になる部分を減衰させる方法で入力を再構成するように学習できる.

WhatDoDeepNetworksLikeToSee

新規性・結果・なぜ通ったか?

  • 従来のDCNN解釈性の方法は主に中間層あるいは出力層の表現より分析を行っている.この文章で入力信号をどれくらい用いるかにより新たな視点でDCNN解釈性を取り組んだ.
  • 提案手法は実験に用いた全部の識別器が少ない入力信号しか頼らないことを発見した.(例えばResNet:<10%)このようなことから, DCNN識別器がadversarial examplesによりロバストではないことがわかる.

コメント・リンク集

  • 入力画像信号のかなり少ない部分しか識別器の結果に影響する発見が面白い.いかに入力画像の信号をより多く推定に使用することがロバスト識別に重要です.
  • 論文
[#92]
2018.7.31 11:33:24
A Revised Underwater Image Formation Model
Derya Akkaynak, Tali Treibitz
CVPR 2018
Kazushige Okayasu

概要

現在の水中画像形成モデルでは無視されていたより多くの依存関係を実際に導入することにより,画像補正を行う.

A_Revised_Underwater_Image_Formation_Model

新規性・結果・なぜ通ったか?

理論的分析と現実世界の実験を通して、一般的に使用される水中画像形成モデルがこれまで説明されていなかった誤差を生じることを実証した。

コメント・リンク集

[#93]
2018.7.31 12:16:43
Inference in Higher Order MRF-MAP Problems with Small and Large Cliques
Ishant Shanu, Chetan Arora, S.N. Maheshwari
CVPR 2018
Kazushige Okayasu

概要

一般的なMRF-MAP問題はNP-hardだが、ポテンシャル関数がsubmodularのとき、多項式時間で解くことができる。この式を解くためには、フローベースのアプローチと多面体ベースのアプローチがある。その2つのアプローチを組み合わせるフレームワークを提案

Inference_in_Higher_Order_MRF-MAP_Problems_with_Small_and_Large_Cliques

新規性・結果・なぜ通ったか?

Generic Cuts やSOSMNPのようなアルゴリズムを組み合わせることの有効性を確立

コメント・リンク集

CNNじゃない論文

[#94]
2018.7.31 10:55:22
Radially-Distorted Conjugate Translations
James Pritts,Zuzana Kukelova,Viktor Larsson,Ondˇrej Chum
CVPR
Kazuki Tsubura

概要

適度に歪んだレンズの画像であっても,,ピンホールカメラモデルを使用した平面補正は不正確または無効である.提案するソルバーは,カメラモデルにレンズ歪みを組み込み,精密な整流をワイドアングル画像に拡張する.これは現在コンシューマカメラにおいて一般的である.ソルバーは,放射状のレンズ歪みのための分割モデルと統合された,撮像されたシーン平面の共役変換によって誘発される制約から導かれる.理想的な彩度を持つ隠れ変数のトリックを使用して制約を再定式化し,Gröbner法で生成されたソルバーが安定し,小さくて速くなるようにする.

Item3Image

新規性・差分

整流およびレンズ歪みは,共役的に翻訳されたアフィン - 共変動特徴または2つの独立して翻訳された類似共変動特徴のいずれかから回復される.提案されたソルバーはRANSACベースの推定器で使用され,少数の反復後に正確な整流が行われる.提案されたソルバーは最先端技術に対して評価され,ノイズの多い測定で大幅に改善された整流を表現する.

結果

合成実験では,最先端技術と比較して,提案されたソルバーの整流精度およびレンズ歪み推定の測定に関して,良好な安定性およびノイズに対する優れた堅牢性を実証した.しかしながら,分割モデルによって歪められた共役変換から生じる多項式制約式は,安定したソルバーを生成するために隠れ変数トリックで変換される必要がある,定性的な実像実験では,高度に歪んだ広角レンズのための高品質の整流を表現した.

[#95]
2018.7.31 10:53:26
Deeply Learned Filter Response Functions for Hyperspectral Reconstruction
Shijie Nie,Lin Gu,Yinqiang Zheng,Antony Lam,Nobutaka Ono,Imari Sato
CVPR2018
Kazuki Tsubura

概要

RGBイメージングからのハイパースペクトル再構成は,疎なコーディングと深い学習を経て著しい進歩を遂げているが,既存のRGBカメラが人間の三色知覚を模倣するように調整されているため,それらのスペクトル応答はハイパースペクトル再構成に必ずしも最適ではない.この論文では,RGBスペクトル応答を使用するのではなく,(ハードウェアで実施される)最適化されたカメラスペクトル応答関数と,エンドツーエンドネットワークを使用するスペクトル再構成のためのマッピングとを同時に学習する.

Item3Image

新規性・差分

私たちのコアアイデアは,カメラスペクトルフィルタが畳み込み層のように効果的に作用するから,標準的なニューラルネットワークを訓練することによって,それらの応答関数を最適化することができる.我々は,空間モザイク処理を用いない3チップ構成と,Bayer形式の2×2フィルタアレイを用いた単一チップ構成の2種類の設計されたフィルタを提案する.数値シミュレーションは,既存のRGBカメラと比較して深く学習されたスペクトル応答の利点を​​検証する.

結果

深い学習手法を用いて非負の無限大空間におけるフィルタ応答関数を学習する方法を示した.特殊な畳み込みレイヤーをU-netベースの再構成ネットワークに追加し,3つの独立したフィルタとBayerスタイルの2x2フィルタアレイの形で、標準RGBレスポンスより優れた応答関数を確認できた.実際のマルチスペクトルカメラを構築するために,CCDカメラの応答を設計プロセスに組み込んだ.2つのフィルタをうまく設計/実装し,スナップショットハイパースペクトル画像のためのデータに基づいたバイスペクトルカメラを構築しました.

[#96]
2018.8.1 05:09:47
Crowd Counting with Deep Negative Correlation Learning
Zenglin Shi,Le Zhang,Yun Liu,Xiaofeng Cao,Yangdong Ye,Ming-Ming Cheng,Guoyan Zheng
CVPR2018
Kazuki Tsubura

概要

深い畳み込みネットワーク(ConvNets)は,多くのコンピュータビジョンタスクで前例のないパフォーマンスを達成しているが,単一の画像を集める集団への彼らの適応はまだ未熟な状態であり,過度の過度のフィッティングに苦しんでいる.ここでは深い負の相関学習(NCL)によって一般化可能な特徴を生成する新しい学習戦略を提案する.より具体的には,本質的な多様性を管理することによって,健全な一般化能力を持つ無相関回帰変数のプールを深く学習する.

Item3Image

新規性・差分

無相関ConvNet(D-ConvNet)という名前の提案方法は,エンドツーエンドで訓練可能であり,バックボーン完全畳み込みネットワークアーキテクチャから独立している.非常に深いVGGNetとカスタマイズされたネットワーク構造に関する広範な実験は,いくつかの最先端の方法と比較した場合のD-ConvNetの優位性を示している.

結果

Decorrelated ConvNet(D-ConvNet)と名付けた提案方法が,固有の多様性を管理することによって健全な一般化能力を有することを示している.DConvNetは,一般的であり,バックボーン完全畳み込みネットワークアーキテクチャから独立している.非常に深いVGGの広範な実験や,いくつかの難しいデータセットでカスタマイズされたネットワーク構造がD-ConvNetの優位性を実証した.

[#97]
2018.8.1 04:44:51
A Hybrid l_1−l_0 Layer Decomposition Model for Tone Mapping
Zhetong Liang,Jun Xu,David Zhang,Zisheng Cao,Lei Zhang
CVPR2018
Kazuki Tsubura

概要

トーンマッピングは,視覚情報が保存された高ダイナミックレンジ画像から標準ダイナミックレンジ画像を再現することを目的とする.最先端のトーンマッピングアルゴリズムは,主に画像を基本レイヤーと詳細レイヤーに分解し,それに応じて処理する.本論文では,これらの問題に対処するハイブリッドl_1−l_0分解モデルを提案する.我々はさらに,我々の層分解モデルに基づいてマルチスケールトーンマッピングスキームを提案する.

Item3Image

新規性・差分

最先端のトーンマッピングアルゴリズムは,主に画像を基本レイヤーと詳細レイヤーに分解し,それに応じて処理します.これらの方法は,2つの層に課せられた適切なプリヤの不足のために,ハローアーティファクトおよび過度の増強の問題を有する可能性がある.本論文では,これらの問題に対処するハイブリッドl_1−l_0分解モデルを提案する.具体的には,基底層には,その区分的な平滑性をモデル化するために,1つの希薄項が課される.ディテールレイヤーには構造優先として「0」の希薄語が課され,これは区分的に一定の効果をもたらす.我々はさらに,我々の層分解モデルに基づいてマルチスケールトーンマッピングスキームを提案する.

結果

実験では,トーンマッピングアルゴリズムは,主観評価と客観評価の両方で最先端のトーンマッピングアルゴリズムより優れたハローアーチファクトで視覚的に魅力的な結果を達成した.

[#98]
2018.7.31 12:43:07
Spatially-Adaptive Filter Units for Deep Neural Networks
Domen Tabernik,Matej kristan,Ales Leonardis
CVPR2018
Kazuki Tsubura

概要

古典的なD-ConvNetは,パラメータの数の増加を防ぐために,徐々に分解能を低下させるか,手作業で拡張した畳み込みを適用することによって受容野のサイズを増加させる. 本論文では,手作業を必要としない新しい変位型集約ユニット(DAU)を提案する.固定された規則的なグリッド上に配置された単位(ピクセル)を有する古典的なフィルタとは対照的に,DAUの変位が学習され,フィルタが受容野を所与の問題に空間的に適応させる.通常のフィルタを備えたConvNetsと比較して,DAUを備えたConvNetsは,より速いコンバージェンスと,パラメータの最大3倍の低減で同等の性能を実現します.

Item3Image

新規性・差分

分類およびセマンティックセグメンテーションタスクでDAUの強さを広範に実証している.通常のフィルタを備えたConvNetsと比較して,DAUを備えたConvNetsは,より速いコンバージェンスと,パラメータの最大3倍の低減で同等の性能を実現する.さらに,DAUにより,斬新な視点からDeepNetWorkを研究することができる.DAUフィルタの空間分布を研究し,フィルタ内の空間カバレッジに割り当てられるパラメータの数を分析する.

結果

フィルタごとのパラメータ割り当てに関する包括的な調査では,既存のConvNetsのパラメータの非効率的な割り当てが示された.DAU-ConvNetsは従来のCovnNetsに匹敵する性能をフィルタ当たり3倍少ないパラメータで達成した.分析によれば,増幅係数が最も低いユニットを除去することで,性能を犠牲にすることなくパラメータの10%を節約することができるため,さらなる改善の余地があることがわかる.さらに,完全に接続されたレイヤにDAUを適用するための最近の予備的な作業は,完全に接続されたレイヤのパラメータの節約も可能であることを示している.

[#99]
2018.8.1 04:57:02
Learning Multi-Instance Enriched Image Representations via Non-Greedy Ratio Maximization of the l1-Norm Distances
K. Liu et al.,
CVPR 2018
Kensho Hara

概要

Multi-instance learning (MIL) で画像中に複数のインスタンス (patch) があるものを表現する話. 従来手法だとインスタンスごとの表現はされるものの画像全体のGlobal表現が落ちているものが多かった. 加えて,従来だと複数のベクトルで画像を表現するものがあるが,それはやりづらいので単一のベクトルで表現可能なことが望ましい. そこでこの研究では,複数のインスタンスと全体のコンテキスト情報を合わせて単一の特徴ベクトルで表現するための手法を提案.

新規性・結果・なぜ通ったか?

  • MILにおいてインスタンスだけでなく画像全体も合わせて単一のベクトルで特徴表現するための手法を提案
  • それを実現するための目的関数と最適化方法の部分で理論的に新規性がありそう?

コメント・リンク集

  • 論文
  • 非Deep論文で,関連研究とか比較手法としてすらDeepの話が一単語も出てこないのすごい.
  • 特徴表現を提案している論文っぽく見えるのに,実験の比較はSVMなど識別器と比較しているのがちょっとよくわからない.
  • Non-greedy Ratio Maximization of the L1-norm Distancesという論文の肝っぽいところもよくわかってない...
[#100]
2018.7.11 15:45:23
Manifold Learning in Quotient Spaces
Eloi Mehr, Andre Lieutier, Fernando Sanchez Bermudez, Vincent Guitteny, Nicolas Thome, Matthieu Cord
CVPR 2018
2989
Kazuki Inoue

概要

3D shapeを学習する際にposeに独立なgeometryの潜在変数空間を学習するネットワークであるquotient autoencoder(QAE)を提案。通常のAEに加えて、orbit poolingとquotient lossという2つのアイディアを追加した。orbit poolingでは、入力された3D shapeに対して様々な回転を与えそれらから得られる潜在変数のうち、各成分の最大値をその3D shapeを表現する潜在変数とする。quotient lossでは、リコンストラクションされた3D shapeと参照3D shapeの距離の下限をロスとして採用する。この2つの方法によってposeに不変な潜在変数空間を構築する。

Item3Image

新規性・結果・なぜ通ったか?

  • ShapeNet datasetを用いてデータオーギュメンテーションを行なった通常のVAEと比較。
  • リコンストラクションした際のdepth map、ボクセルの誤差においてもっとも高い精度を達成。
  • 一度QAEを学習すれば、同一3D shapeに対して任意の回転を与えた出力を行うことが可能。
  • orbit pooling においてRBFを用いた非剛体変形を学習させることも可能。

コメント・リンク集

  • 3D shapeに特化したモデル構築ではなく一般的な枠組みなので、他のデータ入力にも対応可能だと考えられる。
  • 論文
  • Supplementary material
[#101]
2018.7.30 20:32:01
Single Image Dehazing via Conditional Generative Adversarial Network
Runde Li, Jinshan Pan, Zechao Li and Jinhui Tang
CVPR2018
Kenichiro Wani

概要

本稿では,かすんでいる画像から鮮明な画像を復元する手法を提案する。既存の手法では伝送マップおよび大気光を推定するために,例えば暗いチャネル,色の視差,最大のコントラストといった手作りの特徴を使用することが多い。本稿ではこの問題を条件付き生成的対立ネットワーク(cGAN)に基づいて解決する。ここで,鮮明な画像は,end-to-endの訓練可能なニューラルネットワークによって推定される。基本的なcGANの生成ネットワークとは異なり,本稿ではより良​​い結果を生み出すことができるように,エンコーダとデコーダのアーキテクチャを提案する。

Item3Image

新規性・結果・なぜ通ったか?

・条件付きGANを用いることにより,かすんでいる画像から鮮明な画像の生成を実現している。・鮮明な画像を生成するためにVGGフィーチャとL1正規化勾配を事前に導入することによって,基本のcGANフォーメーションをさらに修正している。

コメント・リンク集

[#102]
2018.7.30 21:17:04
The power of ensembles for active learning in image classification
William H. Beluch, Tim Genewein , Andreas Nurnberger and Jan M. Kohler
CVPR2018
Tenga Wakamiya

概要

本稿では高次元のデータと畳み込みニューラルネットワーク分類機を用いたアクティブ学習から最近提案されたいくつかの手法の検討をする.モンテカルロドロップアウト手法と幾何学手法に対してアンサンブルベースと比較する. MNISTとCIFAR-10の結果を示し,約12,200個のラベル付き画像で90%のテストセット精度を達成し,ImageNetで初期結果を得た.

The_power_of_ensembles_for_active_learning_in_image_classification.png

新規性・結果・なぜ通ったか?

アンサンブルベースの不確かさは,他の不確かさ推定方法(特にMCドロップアウト)よりも一貫して優れていることを示し,MNISTとCIFAR-10の最先端のactivity learningパフォーマンスにつながる.

コメント・リンク集

[#103]
2018.7.30 20:47:28
Geometric Multi-Model Fitting with a Convex Relaxation Algorithm
P.Amayo, P.Pini´es, L.M. Paz and P.Newman
CVPR2018
Kota Yoshida

概要

凸緩和を介して複数の幾何モデルを複数の構造データにフィッティングするための新しい方法を提案.COnvex Relaxation Algorithm(CORAL)を用いて多次元データを適合させ、セグメント化するための新しい最適化を行う.復ごとに同等のアーキテクチャで2桁の速さで最小化されるため、より多くの幾何学的マルチモデルフィッティング問題にリアルタイムで堅牢なパフォーマンスを得た.

Image

新規性・結果・なぜ通ったか?

  • COnvex Relaxation Algorithm(CORAL)は幾何学的マルチモデルフィッティングのための最適最小化アルゴリズム
  • ラベルに対するポイントごとの評価を同時に処理することにより、本質的にランタイムパフォーマンスを向上

コメント・リンク集

[#104]
2018.7.30 21:04:46
FOTS: Fast Oriented Text Spotting with a Unified Network
X.Liu, D.Liang, S.Yan, D.Chen, Y.Qiao and J.Yan
CVPR2018
Kota Yoshida

概要

既存のテキストの認識手法は,検出と認識を別のタスクとして扱う物が多い,しかし,本研究では,同時に検出と認識をするためのend-to-endで学習可能なFast Oriented Text Spotting(FOTS)を提案する.ICDAR 2015、ICDAR 2017 MLT、およびICDAR 2013を用いた文字の検出,識別の評価実験では既存の手法と比較してSoTAであった.

Image

新規性・結果・なぜ通ったか?

  • フレームワークをend-to-endとし,畳み込んだ特徴を共有することで,わずかな計算オーバーヘッドで同時にテキストを検出,認識することができ速度が向上.
  • 畳み込んだ特徴マップから方向付けられたテキスト領域を抽出するためのRoIRotateを導入し,検出と識別の工程を結合.

コメント・リンク集

  • YouTubeを見てみたが検出・識別する速度が早い!
  • Paper
  • YouTube
[#105]
2018.7.30 02:12:34
A Robust Method for Strong Rolling Shutter Effects Correction Using Lines with Automatic Feature Selection
Yizhen Lao and Omar Ait-Aider
CVPR2018
Kazuho Kito

概要

一組のイメージカーブを用いて,3D直線に対応するという知識に基づき単一画像内のRS歪みを補正するロバストな方法を提案.一様な運動モデル下で移動するローリングシャッターカメラによって出現する3D直線の投影のためのパラメトリック方程式を定式化し,少なくとも4つのイメージカーブを用いて,姿勢パラメータとは別にカメラの角速度を効率的に推定する方法を提案.さらに,3D直線に対応するイメージカーブを選択し,3次元での実際のイメージカーブを選択するRANSACのような戦略を提案.

A_Robust_Method_for_Strong_Rolling_Shutter_Effects_Correction_Using_Lines_with_Automatic_Feature_Selection_2.PNGA_Robust_Method_for_Strong_Rolling_Shutter_Effects_Correction_Using_Lines_with_Automatic_Feature_Selection.PNG

新規性・結果・なぜ通ったか?

・ 合成データと実データの両方を用いた比較実験によりstate-of-the-art.

コメント・リンク集

[#106]
2018.7.30 20:54:33
Discrete-Continuous ADMM for Transductive Inference in Higher-Order MRFs
Emanuel Laude, Jan-Hendrik Lange, Jonas Schupfer, Csaba Domokos, Laura Leal-Taixe, Frank R. Schmidt, Bjoern Andres and Daniel Cremers
CVPR2018
Kazuho Kito

概要

高次のMRF(Markov Random Field)によるトランスダクティブ推論のための新しいアルゴリズムの提案.MRFでは単項式のエネルギーは可変分類器によってパラメータ化され,連続的な分類子のパラメータと離散的な変数の共同最適化問題として提起される.問題解決のために,凸緩和などの従来手法と対照的にADMM(Alternating Direction Method of Multipliers)での効率的な最適化手法として関連目的関数を離散的かつ連続的な問題に切り離すことを提案.離散変数の完全性を保ち,臨界点への大域収束性を保証している.

Discrete-Continuous_ADMM_for_Transductive_Inference_in_Higher-Order_MRFs.PNG

新規性・結果・なぜ通ったか?

・ MAPの推論問題の準最適解を得ることができ,計算上より困難なMRFを考慮することが可能.・ k-meansと対照的に深層特徴と統合される ・ 従来手法より一貫した結果となり,ランタイム,メモリ消費について効率的.

コメント・リンク集

[#107]
2018.7.30 20:52:40
Feature Quantization for Defending Against Distortion of Images
Zhun Sun, Mete Ozay, Yan Zhang, Xing Liu and Takayuki Okatani
CVPR2018
Kazuho Kito

概要

画像歪みに対するCNNの頑健性を改善する研究.特徴分布の高いモーメント統計は画像の歪みによってシフトする可能性があり,性能低下につながる.この効果を低減するために,特徴量の量子化によるアプローチを提案.1)スケーラブルな分解能を持つ床関数,2)学習可能な指数を持つ累乗関数,3)データ依存指数を用いた累乗関数の3種類の非線形関数をCNNに採用.

Feature_Quantization_for_Defending_Against_Distortion_of_Images.PNGFeature_Quantization_for_Defending_Against_Distortion_of_Images_2.PNG

新規性・結果・なぜ通ったか?

・ 提案手法を用いたResNet-50でモーションブラー,ごま塩ノイズ,それらの複合の歪みで歪んだ画像を用いたILSVRC-12分類タスクでそれぞれ6.95%,5.26%,5.61%の精度向上.

コメント・リンク集

[#108]
2018.7.30 20:50:32
Viewpoint-aware Attentive Multi-view Inference for Vehicle Re-identification
Yi Zhou and Ling Shao
CVPR2018
Kazuho Kito

概要

多視点での車両の再識別問題を解決するために,視覚情報のみを用いたViewpoint-aware Attentive Multi-view Inference(VAMI)モデルを提案.VAMIは,任意の視点の車両画像を与えると,入力画像毎に単一視点の特徴を抽出し,その特徴を可変多視点の特徴表現に変換する.また,異なる視点で重要となるコア領域を選択し,敵対的学習で効果的なマルチビューの特徴推論を実装するため,視覚的なアテンションモデルを採用.

Viewpoint-aware_Attentive_Multi-view_Inference_for_Vehicle_Re-identification.PNG

新規性・結果・なぜ通ったか?

VeRiとVehicleIDの2つのデータセットでの車両の再識別についてstate-of-the-artよりも改善.

コメント・リンク集

[#109]
2018.7.30 20:44:31
MovieGraphs: Towards Understanding Human-Centric Situations from Videos
Paul Vicol, Makarand Tapaswi, Lluís Castrejón and Sanja Fidler
CVPR2018
Kazuho Kito

概要

MOVIE graphsという新しいデータセットの提案.映画のクリップ中の社会的状況のグラフベースのアノテーションを詳細に行ったデータセットであり,各グラフは現在誰が写っているのか,感情や体格はどうか,複数人写っている場合の関係は,それらの間のインタラクションはといったさまざまなノードで構成されている.また,データセットの徹底的な分析を行い,時間経過とともにシーンの異なる社会的側面の興味深い常識的な相関関係を示す.グラフを用いてビデオとテキストを照会する方法として1)私たちのグラフは各場面をまとめて複数の意味的に関連する状況を取り出す方法,順序付けと理由の理解を通してインタラクションの理解のための方法を提案.

MovieGraphs_Towards_Understanding_Human-Centric_Situations_from_Videos.PNG

新規性・結果・なぜ通ったか?

・ 人間中心の状況の推論された特性に焦点を当てた最初のベンチマークである.・ 各クリップには,シチュエーションラベル,シーンラベル,および支援言語の説明がアノテーションされおり,視覚的かつ時間的に接地されている.グラフのキャラクターはクリップの中の顔のトラックに関連付けられ,ほとんどのインタラクションは発生する時間間隔に関連付けられる.

コメント・リンク集

[#110]
2018.7.30 20:47:40
Beyond Holistic Object Recognition: Enriching Image Understanding with Part States
Cewu Lu, hao Su, CK Tang
CVPR 2018
Yue Qiu

概要

  • 新たな画像からPart stateをピクセルレベルで予測するタスク及び手法を提案した.(例:車のドアを入力画像から検出し,状態はopened)
  • 著者達が物体パーツのセマンティックスペースを離散的なpart stateによりtokenizeし,各々のオブジェクトパートが一組のstateと関連する.推定段階ではピクセルレベルで物体パーツを検出し,stateをphraseにより出力する.また,提案タスクに用いられる新たなデータセットを構築した(画像はPASCAL VOC2010を用いた).
  • RGB-S(入力画像と推定したパーツセグメンテーション画像)からinteractiveでparts stateの予測を精密化するネットワークを提案した.

BeyondHolisticObjectRecognition

新規性・結果・なぜ通ったか?

  • 新たなpart stateデータセットを提案.
  • 提案手法をオブジェクトrelationship推定タスクにも用いられる.また,実験により提案手法が有効的にセマンティックパーツstatesを予測できる.

コメント・リンク集

  • 従来のパーツセグメンテーションより一層理解のレベルが高い.また,提案のパーツstates推定が様々なほかのタスクに用いられる.
  • VQA, Image captioningなどの画像理解部として用いられそう
  • 論文
[#111]
2018.7.30 20:53:34
InLoc: Indoor Visual Localization with Dense Matching and View Synthesis
Hajime Taira, Masatoshi Okutomi, TTorsten Sattler, Mircea Cimpoi, Marc Pollefeys, Josef Sivic, Tomas Pajdla, Akihiko Torii
CVPR 2018
Yue Qiu

概要

  • 大規模室内画像の6Dカメラ姿勢推定の手法InLocを提案した.提案手法がquery画像と大規模室内3次元マップからquery画像のカメラ姿勢推定を行う.大規模室内における新たな視覚的位置推定手法を提案した.具体的には:①大規模環境から候補姿勢を推定する②dense matchingを用いたテクスチャーレスシーンにも用いられる姿勢推定を行う.③視点合成をベースとした姿勢検証を行い,視点,シーンレイアウト,遮蔽にロバストに対応できるようにした.
  • 大規模室内環境の画像の6Dカメラ姿勢推定用データセットを提案した.提案データセットのquery画像が手持ち携帯カメラにより異なる時間帯で収集され,ロバストアルゴリズムに用いられる.

InLoc

新規性・結果・なぜ通ったか?

  • 初めてのdense data associationを用いた室内環境位置推定手法であると指摘した.
  • 提案したデータセットにおいて,従来手法より大幅に精度向上を実現した.

コメント・リンク集

  • 室内の画像6D姿勢推定はかなり挑戦的なタスクのように思う.
  • 論文
[#112]
2018.7.30 20:49:59
3D Semantic Trajectory Reconstruction from 3D Pixel Continuum
Jae Yoon, Ziwei Li, Hyun Park
CVPR 2018
Yue Qiu

概要

  • 大規模3D synchronizedマルチビデオからヒューマンインタラクションのdense semantic trajectory streamを再構成する手法の提案.
  • マルチビデオからヒューマンインタラクションの軌跡を推定するにあたり,自己遮蔽,2Dノイズ,軌跡がfragmentedであるなどの問題点がある.著者達は,多視点の中により確信度が高い視点が存在するとして,そのような視点を導くための軌跡のセマンティックラベルの概率分布図3D semantic mapを提案した. 3D semantic mapは可視性および2D認識の確信度をベースとしたview poolingにより生成できる.また,密な軌跡が得られる場合,同じ物体の軌跡を局所剛体変換により表示できることから, 3D semantic map から局所剛体変換を推定することにより長距離軌跡に対応できる軌跡ラベル推定を行う.

3DSemanticTrajectoryReconstruction

新規性・結果・なぜ通ったか?

  • リアル環境でオブジェクト,シーンまたは人などとインタラクションする人のセマンティック軌跡推定実験を行い,定性的結果により提案手法が①推定の正しさ②ロバスト性③長距離での有効性などの面においてベースライン手法より良い表現を達成した.

コメント・リンク集

  • 人をVR環境に再生することに用いられそう
  • 論文
[#113]
2018.7.30 20:45:28
Attentional ShapeContextNet for Point Cloud Recognition
Saining Xie, Sainan Liu, Zeyu Chen, Zhuowen Tu
CVPR 2018
Yue Qiu

概要

  • PointCloudデータをCNNにより直接取り扱う新たなネットワークSCN(Shape Context Net)を提案した.クラシックなshape contextを階層的なCNNと組み合わせることをベースとした.
  • 提案手法は従来のshape contextをCNN Building Blockにした.このblockを積み重ねることにより,局所からグローバル特徴を表せる.Shape Context Blockは具体的には,selection,aggregation,transformationから構成される.① selection:coarseグループとなる局所ポイントを選択する.②aggregation:相対位置の分布を捉えられるrobust descriptorを構築③transformation:異なる領域のポイントグループのdescriptorsを高次な特徴空間に射影する.

AttentionalShapeContextNet-PointCloudRecognition

新規性・結果・なぜ通ったか?

  • 提案のShape context blockをCNNより取り扱えるほか,hand designedな特徴量も適応できる.
  • 提案のshape context blockをベースとしたpointcloud分類,セマンティックセグメンテーションネットワークはshapenet,modelnet40などのデータセットにおいてSoTAなパフォーマンスを達成した.

コメント・リンク集

  • PointNetと類似し,PointNet++より簡潔な構造を持っている.
  • 論文
[#114]
2018.7.30 20:40:36
Progressively Complementarity-aware Fusion Network for RGB-D Salient Object Detection
Hao Chen, You fu Li
CVPR 2018
Yue Qiu

概要

  • Cross-modal, cross-levelな特徴を融合するEnd-to-EndなRGB-D salient物体検出ネットワークを提案した.
  • 従来のRGB-Dデータを取り扱うネットワークは直接RGB,Dの特徴を連結するか,深い層の特徴だけ融合する事が多い.著者達は①もっと明示的にcross modalのcomplementary part をモデリングするべき②全部のレベルでcomplementを探索するべきの2つのところから,complementarity awareなネットワーク(CA Fuse)を提案し,CNNの層ごとにcross modalの特徴を結合する. CA Fuseに浅いから深い層までlevel-wiseに教師信号により,cross-levelなcomplementがより良く組み合わせられると指摘した.

ProgressivelyComplemetarity-awareFusionNetwork

新規性・結果・なぜ通ったか?

  • 提案手法がcross modal, cross levelでRGBとDの情報を結合することにより,より有効的にRGBとDを融合できる.
  • NLPR, NJUD, STEREOデータセットにおいてSoTAなsalient物体検出パフォーマンスを得られた.

コメント・リンク集

  • RGBとDをいかに融合した方が良いのかを紹介しているので,一度実装してみたい
  • 論文
[#115]
2018.7.30 20:35:22
Wide Compression: Tensor Ring Nets
Yifan Sun et al.
CVPR2018
1802.09052
Takumu Ikeya

概要

  • DNNにおける全結合層と畳み込み層の両方のパラメータを圧縮するTensor Ring Networks (TR-Nets)を提案した.
  • 実験によりTR-NetsはLeNet-5を精度の劣化なしに1/11に圧縮できることを示し,Cifar10の画像分類タスクにおいてWide ResNetを2.3%の劣化で1/243に圧縮できることを示した.

TensorRingNets.png

新規性・結果・なぜ通ったか?

  • 既存の手法では主に全結合層のパラメータの圧縮に着目していたが,本研究では層の深いニューラルネットワークにおける全結合層と畳み込み層の多次元のテンソルパラメータを圧縮する手法を提案した.

コメント・リンク集

[#116]
2018.7.30 23:08:59
Deep Lesion Graphs in the Wild: Relationship Learning and Organization of Significant Radiology Image Findings in a Diverse Large-Scale Lesion Database
Ke Yan et al.
CVPR2018
1711.10535
Takumu Ikeya

概要

  • 長年にわたって収集した異常や病変のアノテーションを施した放射線画像は基本的にソートされておらず、タイプや位置情報などの意味的なアノテーションがされていない.そこでこの研究では各病気の特徴を学習し,それらを整理,探索することで,重要な放射線画像を含む大規模なデータセットDeepLesionを提案した.

DeepLesion_Graphs_in_the_Wild.PNG

新規性・結果・なぜ通ったか?

  • PACSから収集した新たな病変データセットとして,32Kを超える画像枚数と病変のバウンディングボックスとサイズを含むDeepLesionを提案した.
  • CT画像内で検出された病変間の関係を効果的に検出,整理,学習する手法を開発した.

コメント・リンク集

[#117]
2018.7.30 20:12:31
Efficient Large-Scale Approximate Nearest Neighbor Search on OpenCL FPGA
Jialiang Zhang, Soroosh Khoram, Jing Li
CVPR 2018

概要

近似的最近傍探索法(Approximated Nearest Neighbor; ANN)をベースにした直積量子化(Product Quantization; PQ)手法を提案する。粗な量子化、直積量子化、回転行列、コードブック計算に量子化法を用い、OpenCL-FPGAを使用したIntel HARPv2プラットフォームにより実装する。

180730LargeScaleApproximateNN

新規性・結果・なぜ通ったか?

大規模かつ高次元のANNにおいて、FPGAによりCPU/GPUのパフォーマンスを越えることに成功した最初の例である。YFCC100M/BigANN/Deep1Bにおいて検証を行なった。

リンク集

[#118]
2018.7.30 19:44:24
Alternating-Stereo VINS: Observability Analysis and Performance Evaluation
Mrinal K. Paul, Stergios I. Roumeliotis
CVPR 2018

概要

ビジョンベースの慣性ナビゲーションシステム(Vision-aided Inertial Navigation Systems; VINS)に関して、低コストなステレオビジョンを提案する。通常は2カメラを用いるが、計算的なコストやレイテンシが問題になってしまう。Left-Rightカメラの代替として、片方のカメラのみでカメラ姿勢を推定、もう一方のカメラにより補間を行い、最後にスケール問題を解決。右図のように交互にアクティブなカメラを切り替えて探索を行う。

180730VINS

新規性・結果・なぜ通ったか?

Low-latencyなステレオのカメラを交互に切り替えて慣性ナビゲーションを行うalternating-stereo VINSを提案する。実際にシステムを構築して実験を行なったことも評価されている。

リンク集

[#119]
2018.7.30 18:57:33
Coupled End-to-End Transfer Learning With Generalized Fisher Information
Shixing Chen, Caojin Zhang, Ming Dong
CVPR 2018

概要

ふたつのネットワークの協調学習であるCoupled End-to-End Transfer Learning(CETL)を提案、デコーダのパラメータを共有して対象ドメインに関してデータが少ないという転移学習の問題を改善する。さらに同ネットワークを最適化させるための誤差関数であるCoupledLossを提案した。ドメイン変換や知識蒸留でも使えることを示した。

180730CoupledEnd2EndTransferLearning

新規性・結果・なぜ通ったか?

転移学習の問題(事前学習には膨大なデータがあるが、対象データが少量)を解決するためのCETLを提案した。汎用フィッシャー情報を提案して複数タスクにおける最適化を実行した。

リンク集

[#120]
2018.7.30 17:00:27
Hashing as Tie-Aware Learning to Rank
Kun He, Fatih Cakir, Sarah Adel Bargal, Stan Sclaroff
CVPR 2018

概要

ハッシングに関するランキングを直接最適化、Average Precision(AP)やNormalized Discounted Cumulative Gain(NDCG)などにより評価できる手法について提案する。Intによるハミング距離をランキングし、AP/NDCGにより評価、勾配を最適化することによりCNNを学習する。ハミング距離による画像検索において新しいベースラインを作ることに成功した。

180730TieAwareLearning

新規性・結果・なぜ通ったか?

ハッシングによる最適化について、評価指標をダイレクトに誤差に用いることができるTie-aware Learningを提案し、画像検索問題に応用した。CIFAR-10,NUS-WIDE,LabelMe,ImageNet100において新しいベースラインを作った。

コメント・リンク集

ハッシング、意外と根強く残っているし論文も通っているのでもっと目立っても良い?

[#121]
2018.7.30 10:27:22
Beyond Gröbner Bases: Basis Selection for Minimal Solvers
Viktor Larsson, Magnus Oskarsson, Kalle Astrom, Alge Wallis, Zuzana Kukelova, Tomas Pajdla
CVPR 2018

概要

CVのアルゴリズムはカメラモーションやシーンにおける3次元構造など幾何的なロバスト推定を要することが多く、RANSACに頼ることも多い。本論文では単項式の選択により高速な多項式計算を実装するための方法について検討する。Grobner基底を利用することにより、効率的な計算を実現する。

180730Grobner

新規性・結果・なぜ通ったか?

Grobner基底によりロバスト推定を高速化する方法について提案することに成功。単項式によるサンプリングについてヒューリスティックな方法を実現。幾何推定やカメラ校正問題についてState-of-the-artな方法を高速に実装。

コメント・リンク集

Grobner(oにウムラウト)という単語があり、CVFのオープンアクセスにリンクできなかった。

[#122]
2018.7.30 10:12:25
Robust Classification With Convolutional Prototype Learning
Hong-Ming Yang, Xu-Yao Zhang, Fei Yin, Cheng-Lin Liu
CVPR 2018

概要

CNNによりロバスト性を与えるための学習手法Convolutional Prototype Learning(CPL)を提案する。識別器が騙されるということが少なくなり、識別問題に対して有効である。複数カテゴリに対して条件を与えること、PrototypeLoss(PL)による正則化を与えることでクラス内のコンパクト性を高めた。

180730ConvolutionalPrototypeLearning

新規性・結果・なぜ通ったか?

識別のロバスト性を高めるCPLを提案した。CPLではカテゴリを識別するだけでなく、アウトライア除去と新しいカテゴリを追加する機構が備わっている。MNIST/CIFARにて分離性の高い特徴を生成することができた。

コメント・リンク集

自動カテゴリ追加、もっとできるようになって欲しい!

[#123]
2018.7.30 09:58:59
Multi-Task Learning by Maximizing Statistical Dependence
Youssef A. Mejjati, Darren Cosker, Kwang In Kim
CVPR 2018

概要

Multi-task Learning(MTL; 多タスク学習)について、例えばCNNとGaussian ProcessといったHeterogeneousな学習や推定を同時に行う新しい方法を提案する。タスクに依存しないランダムパラメータを求めることができるため、あらかじめタスクごとの知識を前提としないMTLを実現可能である。実空間における回帰やランキングの問題において良好な精度を実現可能である。

180730MultiTaskLearning

新規性・結果・なぜ通ったか?

異なるタスク間(CNNとGaussian Processなど)において事前情報を前提としない学習法を提案した。各種データセットにおいて良好な精度を実現した。(表に示す通りであり、大体においてベースラインよりも精度が高い)

コメント・リンク集

モデル自体も異なる多タスク学習。あまり見ないがそんなこともできるのか、という印象。

[#124]
2018.7.30 09:45:39
Local and Global Optimization Techniques in Graph-Based Clustering
Daiki Ikami, Toshihiko Yamasaki, Kiyoharu Aizawa
CVPR 2018

概要

グラフベースのクラスタリングに関して、Micro-averageを用いたコスト関数micro average association(micro-AA)を提案。グラフベースのクラスタリングはSpectral Clusteringが従来法の代表例であり互いに素な分類が望ましいが、所望のクラスタより小さな集合を形成してしまい望ましくない。本論文では初期値にも依存しない局所的最適化解を求めることができる。Direct Local Optimization(DLO)により、近似を行うことなく全体最適化を行う。DLOでは初期値に依存するが、Initial-guess-free algorithmを用いることにより解決。

180730GraphbasedClustering

新規性・結果・なぜ通ったか?

グラフベースのクラスタリングについて、micro-AAを提案、さらに全体最適化する方法や局所最適解に陥らないような最適化テクニックについても紹介したことが大きな貢献である。COIL20 datasetにて100%のクラスタリングを実現するなど、良好な精度を実現することに成功した。

コメント・リンク集

発想が面白く、最適化のテクニックも多数紹介されているので有益。

[#125]
2018.7.30 09:26:01
Hierarchical Recurrent Attention Networks for Structured Online Maps
Namdar Homayounfar, Wei-Chiu Ma, Shrinidhi Kowshika Lakshmikanth, Raquel Urtasun
CVPR 2018

概要

スパースな3次元点群データから道路面(レーン検出レベルで)構造を把握するためのHierarchical Recurrent Attention Networkを提案する。また、3次元点群処理において推定したエッジと正解値の微分可能な誤差関数Polyline Lossも提案する。高速道路にて90km/hで移動する車両から92%の確率でレーン検出を可能にした。右図は提案手法であるHierarchical Recurrent Attention Networkの構造を示したものである。基本的には対称のスキップコネクションを含むEncoder-Decoder方式であるが、Encoderの各層からRecurrent Countingを行う層を追加、Decoderとの整合性をとることで精度を高める。

180730HierarchicalRecurrentAttentionNetwork

新規性・結果・なぜ通ったか?

高速道路を想定した環境でも3次元点群処理を高精度に実行するネットワークHierarchical Recurrent Attention Networkを提案した。入力である点群処理からレーン検出を行うことができる。さらに誤差関数PolylineLossを提案することで点群からの推定値と正解値との誤差を計算することができネットワークを学習可能とした。

コメント・リンク集

高速道路のデータは意外と少なかった?高速に移動する車両からの物体検出やセグメンテーションが現状どの程度できているか疑問である。

[#126]
2018.7.30 08:52:51
A Biresolution Spectral Framework for Product Quantization
Lopamudra Mukherjee, Sathya N. Ravi, Jiming Peng, Vikas Singh
CVPR 2018

概要

Product Quantization(PQ; 直積量子化)は与えられたデータを低次元に分解できるため、高次元のエンコーディングに対して有効である。本論文ではPQの直交(orthogonal)時について解析するとともに、Spectral Decompositionについても関係性を調べる。本論文の解析によりスペクトル解析に関する知見が得られることや、計算コストについても言及できる。本論文で提案する定式化により、よりシンプルで効率化されたdecomposition手法を与えることができる。

180730ProductQuantization

新規性・結果・なぜ通ったか?

PQの課題においてスペクトル解析と関連することを示した(+定式化)ことが最大の貢献である。各種データセット(Sift25K/1M,Mnist,Cifar,VladLong)にて従来法よりも良好な精度を実現するとともに、効率的な計算ができることも示した。

コメント・リンク集

本論文では理論的な解法を与えたことが評価された点である。検索問題を考えるとPQは面白そうである。

[#127]
2018.7.30 08:35:08
KIPPI: KInetic Polygonal Partitioning of Images
Jean-Philippe Bauchet, Florent Lafarge
CVPR 2018

概要

スーパーピクセル(Superpixels)において多角形形状にて画像領域を近似する問題を取り扱う。従来手法(例えばボロノイマップ)では細い形状にて多角形性を失いがちであるが、本論文では克服することに成功し、サイズや形状によらず柔軟な推定が可能である。事前情報として直線のセグメントを計算しておくことで精度が向上することが明らかとなった。実験ではより少ない多角形で幾何学的な特徴を捉えることに成功した。

180730KIPPI

新規性・結果・なぜ通ったか?

画像のスーパーピクセル近似にて、多角形により効率化された計算を可能にした。事前情報として直線検出と組み合わせることにより画像中の情報をよりよく捉えることができる。

コメント・リンク集

特に人工物における形状を効果的に捉えることができる?

[#128]
2018.7.30 08:00:38
Curve Reconstruction via the Global Statistics of Natural Curves
Ehud Barnea, Ohad Ben-Shahar
CVPR 2018

概要

自然の中に存在するカーブ(Natural Curves)を想定、認識することで欠損やオクルージョン環境下の補完/インペインティングを実行。与えられた画像中の物体から2つのエンドポイント(End Point)とタンジェント角度(Tangent Orientation)をラベルづけ、推定したカーブの平均値により補完を実行する。

180730CurveRecognition

新規性・結果・なぜ通ったか?

自然のカーブを想定することでオクルージョンや欠損を含んでいたとしても補完をやりやすくした。基本的には2点のエンドポイントをタンジェント角で繋ぐことでカーブを認識し、背景には様々な角度表現やデータを配置している。

リンク集

[#129]
2018.7.30 01:52:50
Nonlocal Low-Rank Tensor Factor Analysis for Image Restoration
Xinyuan Zhang, Xin Yuan and Lawrence Carin
CVPR2018
Masaki Miyamoto

概要

低階数の信号モデリングは、画像処理アプリケーションにおける非局所相関をキャプチャーするために広く利用されてきた。グループ化された画像パッチによって生成された多次元配列に対して低階数の多次元配列因子分析を用いる新しい手法を提案する.低階数多次元配列は、画像再構築をさらに改善するために,代替方向乗算法(ADMM)に送られる.動作アプリケーションは圧縮センシング(CS)であり,深い畳み込みアーキテクチャが採用され,CSアプリケーションにおける高級なマトリックス反転を近似する.NLR-TFAと呼ばれるこの低階数多次元配列の因数分解法に基づく反復アルゴリズムが詳しく示される.ノイズのないものとノイズのあるCS測定の実験結果は、特に低CSサンプリングレートでの提案手法の優位性を証明する.

Nonlocal_Low-Rank_Tensor_Factor_Analysis_for_Image_Restoration.PNG

新規性・結果・なぜ通ったか?

パッチグループ化に基づいて推定画像から多次元配列を生成する.次に多次元配列を分解後に多次元配列を低階数に設定する. この新しい低階数多次元配列は,ADMMによって解決されるグローバルな目的関数に送られる. これらの2つのステップは,何らかの基準を満たすまで繰り返し実行される.

コメント・リンク集

[#130]
2018.7.30 21:43:23
Bidirectional Retrieval Made Simple
Jonatas Wehrmann and Rodrigo C. Barros
CVPR2018
Masaki Miyamoto

概要

本稿では、双方向検索モデルを学習するための非常に簡単で効果的な文字レベルのアーキテクチャを示す.マルチモーダルコンテンツを整列させることは、画像と記述との間の意味的対応を見つけることの難易度を考慮すると特に挑戦的である.そこで実際の文字を明確な粒度レベルで畳み込むことによって、テキストセマンティック埋め込みを学ぶために設計された効率的な文字レベルのソースモジュールを示す.私たちのアプローチで生成されたモデルは、単語埋め込みに基づく最先端の戦略よりもはるかに入力ノイズに対して堅牢である. 概念的にもかかわらずはるかに単純であり,より少ないパラメータしか必要としない.テキスト分類,特に多言語およびノイズが多い分野での堅実なパフォーマンスを示す.

Bidirectional_Retrieval_Made_Simple.PNG

新規性・結果・なぜ通ったか?

CHAIN-VSEという生の文字に基づいてテキスト埋め込みを学習できる双方向検索のためのシンプルなアーキテクチャによって,概念的には関連研究よりもはるかに単純なアーキテクチャであってもMS COCOなどを考慮して,テキストからイメージへとテキストからテキストへの両方で最先端の結果が得られる.

コメント・リンク集

[#131]
2018.7.30 19:37:13
Explicit Loss-Error-Aware Quantization for Low-Bit Deep Neural Networks
Aojun Zhou, Anbang Tao, Kuan Wang, Yurong Chen
CVPR 2018
Kazushige Okayasu

概要

3値や2値などの非常に低ビットのパラメータ値を持つDNNモデルを顕著な損失なく32ビットの浮動小数点数に近似させる新しい方法であるELLS(Explicit Loss-Error-Aware Quantization)を提案

Explicit_Loss-Error-Aware_Quantization_for_Low-Bit_Deep_Neural_Networks

新規性・結果・なぜ通ったか?

Imagenetでの実験では量子化を行ったことによる精度の低下の少なさでstate-of-the-art

コメント・リンク集

[#132]
2018.7.30 18:10:58
Time-resolved Light Transport Decomposition for Thermal Photometric Stereo
K. Tanaka, N. Ikeya, T. Takatani, H. Kubo, T. Funatomi, Y. Mukaigawa
CVPR2018
Ryota Suzuki

概要

熱画像における経時変化の光伝送分解手法を提案.熱の伝播の速さは光よりも非常に遅く,遠赤外光の過渡遷移がサーマルカメラで観測可能である. 近似的ににコントロールされた環境における可視光画像と似ているため, 従来のCV技術をストレートフォワードに熱画像に適用できるのが肝.

熱画像における散乱光成分は分離可能で,したがって物体の表面の法線を推定可能である.

熱画像を用いれば,黒色,透明,半透明物体に適用可能である.

Figure1

新規性・結果・なぜ通ったか?

可視光と熱の伝播モデルの差を考慮したCV技術転用のモデル化方法を与えている.また,遠赤外光の伝播特性の差異を用いた手法は新しい.

コメント・リンク集

熱変化は実際経時変化が人間にも認識できるレベルの速さなのが特徴的で,研究には実際専用の知見が必要そう. 適用可能かどうかは実際やってみないと分からないところが多いと思う.頑張ってほしい.

可視光以外を使っている研究の「黒色,透明,半透明OK」は実際キラーワード.

[#133]
2018.7.30 18:04:54
In-Place Activated BatchNorm for Memory-Optimized Training of DNNs
Samuel Rota Bulò et al.
CVPR2018
1712.02616
Takumu Ikeya

概要

  • 近年のDNNの学習におけるメモリフットプリントを大幅に削減する新たな手法としてIn-Place Activated Batch Normalization (INPLACE-ABN)を提案した論文.
  • INPLACE-ABNは従来のBatch正規化+活性化層を単一のプラグイン層に置き換えることで,構造を大きく変えることなく,既存のDNNに簡単に適用することができる.

In-Place.PNG

新規性・結果・なぜ通ったか?

  • 0.82%というわずかな計算時間の増加で最大50%のメモリ消費を抑えることができる.
  • Batch正規化+活性化層が存在するネットワークに適用することができる新たに独立したINPLACE-ABN層を提案し,近年のDNNの学習におけるメモリ使用率を低減した.

コメント・リンク集

[#134]
2018.7.30 16:54:18
Improving Color Reproduction Accuracy on Cameras
Hakki Can Karaimer and Michael S. Brown
CVPR2018
Masaki Miyamoto

概要

デジタルカメラで実行される重要な操作の1つに、センサ固有の色空間を標準の知覚色空間にマッピングすることがある.この手順は、ホワイトバランス補正の後に色空間変換を適用することを含む。 この比色マッピングの現在のアプローチは、2つの決まった照度(すなわち,2つのホワイトバランス設定)について計算された事前にキャリブレーションされた色空間変換の補間に基づく. 異なる照度の下で取り込まれた画像は,この補間処理の使用により,色の再現精度が低下する. 本稿では,現在の比色マッピング手法の限界について議論し,色再現精度を向上させる2つの手法を提案する.7つの異なったカメラでアプローチを評価し,色再現誤差の点で最大30%(DSLRカメラ)と59%(携帯電話カメラ)改善した.

Improving_Color_Reproduction_Accuracy_on_Cameras.PNG

新規性・結果・なぜ通ったか?

比色マッピング手順を改善する2つの方法として,1つ目は,補間方法における追加のキャリブレーションされた照度を含む補間方法の単純な拡張を行う. 2つ目は、フルカラー補正マトリクスに依存した,すべての入力画像に対して固定CSTマトリクスを使用する方法である.

コメント・リンク集

[#135]
2018.7.30 16:33:49
Efficient Subpixel Refinement with Symbolic Linear Predictors
V. Lui, J. Geeves, W. Yii and T. Drummond
CVPR2018
Ryota Suzuki

概要

学習ベースのサブピクセルリファインメント手法Linear Predictiorsにおいて,効率的な計算方法を提案. テンプレート画像をワープさせて誤差が小さくなるようにワープパラメータを最適化するやり方について扱う.

新手法Symbolic Linear Predictorsにより,学習ステップの効率化を実現.一度計算すると複数回異なる画像パッチに対し使いまわせる. これにより,性能を落とさずにオンラインで実行可能に.SLAMなどで使えるようになる.学習ベース手法の実行時効率性のの恩恵がうけられる. また,推測可能な誤差尺度を提案.推測することで,テンプレートの位置合わせ時の誤差を小さくすることができるようになる. 従来手法によれば何百も存在するキーポイントにおいて評価が必要であったが, これにより最良のキーポイント達だけ使えばよくなる.

Figure1

新規性・結果・なぜ通ったか?

SLAM等における有用な手法をアプリケーションレベルに効率化した.

コメント・リンク集

Subpixel Refinementが共通認識のように語られているが,まとめ人的には画像上の位置合わせにおけるサブピクセル精度での精整のことだと気づくのに結構時間かかった.勉強不足だろうか.

コントリビューションの明示的主張のない,CVPRでは珍しい論文.

カメラレディ原稿のフォーマットの不備がある.校正頑張ってほしい.

[#136]
2018.7.30 17:06:26
High-order Tensor Regularization with Application to Attribute Ranking
K. Kim, J. Park and J. Tompkin
CVPR2018
Ryota Suzuki

概要

世の中のデータはマニフォールド上にある事が多いので,ユークリッド空間のような環境空間ではなく,データの表すマニフォールド幾何を考え, その正規化によって学習できると性能を向上できる. 実際,マニフォールド幾何はテンソルで扱えるのだが, 既存手法ではテンソルの学習における微分可能なマニフォールド幾何の正規化ができていない.

本稿では,テンソルの正規化・学習ができるように,リーマン多様体上での学習を考え, サロゲート(代理)目的関数を導入. テンソルが表す幾何特徴をカプセル化する. これにより,非対称かつ高次テンソルの学習ができるようになる.

Figure1

新規性・結果・なぜ通ったか?

多様体におけるテンソルの学習ができるようにした.実際やってみたら予想通り学習もうまくいった.

コメント・リンク集

  • マニフォールド(多様体)局所的にはユークリッド空間とみなせるような空間.地球は丸いけど住民にとっては平面.

  • リーマン多様体(超粗く言うと)隣は次どっちにどれだけ離れてるかという情報が定義されている多様体.多様体の基本の表し方の一つ.

  • 論文

[#137]
2018.7.30 11:53:00
Tensorize, Factorize and Regularize: Robust Visual Relationship Learning
SEONG JAE HWANG, Zirui Tao , Vikas Singh, Hyunwoo Kim, Sathya Ravi, Maxwell Collins
CVPR 2018
Yue Qiu

概要

  • Visual relationship検出タスクの新たなend-to-endパイプラインを提案した.提案手法が学習データからtensorial representationを探索し,またそれからrelational priorを求める. relational priorにより有効的にrelationship検出学習のpriorとして用いられる.
  • 従来のVisual relationship用学習データセットのrelationshipがスパースで,学習データから潜在的な関係を学習するのが困難である.このようなスパースな学習relationshipから有効的にrelational priorを導く非学習型の手法(numerical線形代数をベースとした手法)を提案した.
  • また,提案のVisual relationship検出パイプラインは①入力がぞうからバウンディングボクス,関係などを検出②提案の学習済みrelational priorを利用し,scene graph learningを用いた手法を用いてオブジェクト及び関係を予測する.

Tensorize_Factorize_Regularize-VisualRelationshipLearning

新規性・結果・なぜ通ったか?

  • Relationshipsがスパースな学習データセットからrelational priorを有効的に求める手法を提案した.
  • 提案のrelational priorを用いたらVisual GenomeデータセットのScene graph予測タスクでSoTAなパフォーマンスを得られた.

コメント・リンク集

  • スパースな関係(1%,2%以下)を有効的にrepresentできる代数ベースな手法の提案.詳細は良く理解できていなかった.
  • 論文
[#138]
2018.7.30 12:00:29
Visual Grounding via Accumulated Attention
chaorui Deng, Qi Wu, Fuyuan Hu, Fan Lyu, Mingkui Tan, Qingyao Wu
CVPR 2018
Yue Qiu

概要

  • Visual Groundingタスクに用いられる新たなattentionメカニズムA-ATTを提案した.VGタスクのattentionを①query attention②image attention③objects attentionに分解し,累積をベースとした手法でこの三つのattentionを求める.
  • 従来のVGタスクは画像・query・objectsの情報をまとめて取り扱うので, 情報が冗長になるという問題がある.そこで,著者達がVGタスクを3つのサブタスク,①クエリ中の主目的の判別②画像中のコンセプトの理解③関連性が最も高い物体の定位,に分解した.また,この3つのサブタスクを3種類のattention問題として取り扱う.具体的には,A-ATT attentionメカニズムを提案し,それにより累積的に3つのattentionを求め,異なる累積の段階でattentionをリファインする.これによりノイズなどに対してロバストになる.

VisualGrounding-AccumulatedAttention

新規性・結果・なぜ通ったか?

  • 提案のA-ATTメカニズムによりノイズ,冗長性などが異なる累積段階で影響が減っていく.また,このメカニズムにより提案手法が幅広いタイプのクエリに対応できる.
  • ReferCOCO, ReferCOCO+,ReferCOCOg,Guesswhat?!の4つのデータセットにおいてSoTAな精度を得られた.

コメント・リンク集

  • 提案のA-ATTメカニズムはVQAにも使えそう.
  • 論文
[#139]
2018.7.30 11:55:45
Differential Attention for Visual Question Answering
Badri Patro, Vinay P. Namboodiri
CVPR 2018
Yue Qiu

概要

  • VQAタスクに用いられる新たなattentionメカニズムdifferential attentionを提案した.これにより,人間のattentionにより近いattentionを得られる.
  • 従来のVQA手法でもattentionが広く用いられるが,人間のattentionに関連性が低かった.そこで,認知心理学に広く用いられるexemplarベースな手法を用いてsupporting, opposing exemplarsによりdifferential attention領域を求める.具体的には,①入力画像,質問からreference attention embeddingを求める.②このembeddingによりデータベースから順序を求め,現在の入力と近いsupporting exemplar及び遠いsupporting exemplarを求める.③これらexemplarと入力からdifferential attention vectorを求める.

DifferentialAttention-VQA

新規性・結果・なぜ通ったか?

  • VQAタスクにexemplar based approachという新たな視点をもたらした.また,提案したdifferential attentionが人間のattentionにより近いことを示した.
  • VQA1.0,VQA2.0,HATなどのデータセットにおいてimage attentionベース手法の中で最も良い精度を達成し,Image-Question attentionベース手法と近い精度が得られた.

コメント・リンク集

  • 認知心理学の知見をVQAタスクに応用した例.今後も人間のattentionを詳細に検討するべきだと思う.
  • 論文
[#140]
2018.7.30 11:51:31
Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning
Jingwen Wang, Wenhao Jiang, Lin Ma, Wei Liu, Yong Xu
CVPR 2018
Yue Qiu

概要

  • Dense Video Captioningにおける2つの課題,コンテキスト融合,イベント表現における新たな提案.コンテキスト融合において,過去と将来のコンテキストを利用しevent proposalの予測を行う.また,event descriptionsのdecoderへのより有益な情報を含む入力の作り方を提案した.
  • 従来のdense video captioningでは主にforward方向でevent proposalを予測するが,著者らは過去と将来のコンテキストからevent proposalを予測できるbidirectional proposal手法を提案した.また,異なるeventが同じ時間に終了する場合,従来手法では正しく対応できないが,著者らはイベントを動画特徴の隠れ状態のattentive fusionにより表示し,その問題を対応できるようにした. また,動的に現在のイベントと周囲のコンテキストのバランスを取るcontext gatingメカニズムを提案した.

Bi-directionalAttentionFusion-DenseVideoCaptioning

新規性・結果・なぜ通ったか?

  • 提案手法のproposalとcaptioningモジュールを従来のフレームワークに適応することで,ActivityNet Captions datasetにおいてSoTAな表現を達成した.(Meteor scoreを4.82から9.65にアップした)

コメント・リンク集

  • Bidirectionalも最近よく見られるワード.
  • 論文
[#141]
2018.7.30 11:47:16
Learning Visual Knowledge Memory Networks for Visual Question Answering
Zhou Su, Jianguo Li, Zhiqiang Shen, Yurong Chen
CVPR 2018
Yue Qiu

概要

  • VQAタスクに用いられるVisual Knowledge Memory Network(VKMN) を提案した. VKMNは人間の知識と深層視覚特徴をメモリーネットワークにより結合し,VQAの精度を向上できる.
  • 自然言語処理のテキストベースなQAタスクに用いられる方法から,確立済みの視覚の知識に基づくVKMNを提案した.①Apparent object(答えが画像から直接読める);②Indiscernible(答えが画像中で小さい);③Invisible objectiveの(直接画像から答えられない)3種類の画像―結果の関係を定義した.また,VKMNはknowledge triples(subject, relation, target)と視覚特徴をvisual knowledge featureにembeddingする.

Learning_Visual_Knowledge_Memory_Networks-VQA

新規性・結果・なぜ通ったか?

  • VQA1.0,VQA2.0において良い結果を達成し,knowledge-reasoningの関係性の質問に対してSoTAな結果を得られた.

コメント・リンク集

  • 自然言語処理系のQAに関する知識をVQAに用いることがセンスある.また,従来のV,Qに向けて様々なVQA方法が提出され,knowledge representationのあたりに力を入れるのも良い方向だと思う.
  • 論文
[#142]
2018.7.30 11:42:34
Deep Video Super-Resolution Network Using Dynamic Upsampling Filters Without Explicit Motion Compensation
Younghyun Jo, Seeing Wug Oh, Jaeyeon Kang and Seon Joo Kim
CVPR 2018
Kodai Nakashima

概要

既存の動画超解像方法とは根本的に異なるフレームワークとして,動的にアップサンプリングフィルタや残差画像を生成するディープニューラルネットワークを新たに提案する.このアプローチにより,入力画像から直接高解像度画像を得ることができる.新しいデータオーギュメンテーション方法と大量の学習動画を用いることにより,SOTAなパフォーマンスを達成.

Deep_Video_Super-Resolution_Network_Using_Dynamic_Upsampling_Filters_Without_Explicit_Motion_Compensation.png

新規性・結果・なぜ通ったか?

図に示すように,提案手法はSOTA手法の一つであるVSRnetと比較して,チラツキが減少していることがわかる.さらにバイキュービック法やVSRnet,VESPCN等と比較し提案手法は,PSNR,SSIMの両方においても優れていることがわかった.

コメント・リンク集

[#143]
2018.7.29 03:32:58
Deep Hashing via Discrepancy Minimization
Z. Chen et al.,
CVPR 2018
Kensho Hara

概要

画像検索などに使うハッシングで画像をコンパクトなバイナリ符号に変換するのを学習ベースでやる話. バイナリ制約付きの離散最適化問題はNP困難で大変なので, よくやられるのがバイナリ変数を連続変数に緩和して解くというやり方. でも緩和による目的関数の違い (discrepancy) のせいで求まる解が最適なものから外れてしまうのが問題. そこで,この研究ではこの目的関数の差を最小化するための手法を提案. 図のように (a) sgnをtanhに緩和すると (b) のように大きく差が出るのを, 最終的に (d) のように差がないように変換している. 画像検索で,従来と同等の符号化時間でPrecision, Recallの向上に貢献することを実験から確認.

新規性・結果・なぜ通ったか?

  • 学習ベースのハッシングにおいてバイナリ制約の緩和の悪影響の最小化を実現

コメント・リンク集

[#144]
2018.7.11 15:45:23
Multi-Cell Detection and Classification using a Generative Convolutional Model
Florence Yellin, Benjamin D. Haeffele, Sophie Roth, Rene Vidal
CVPR 2018
1126
Kazuma Asano

概要

バイオメディカルアプリケーションにおいて,人間の血液中の細胞を検出,測定,分類は重要である.しかし,広範囲に及ぶ細胞の変動や画像を使用した診断にも解像度の限界があるため非常に難しいタスクとなっている.そこで本稿では,ホログラフィックイメージにおける白血球の検出,測定,分類に新たな手法を提案した.具体的には細胞集合の確率生成モデルをベースとしている.それぞれのクラスのテンプレートは血液の細胞についての静的な分布情報から作られる. 分布についてのパラメータは,患者から得た血液の情報(実際に数えた結果?),セルテンプレートは辞書形学習を拡張させたものを使ってセル分類のクラスから得たセルの画像で学習している.

Item3Image

結果

実際に20の正常な血液サンプルと12の正常でない血液サンプルを使って実験しており,従来手法ではエラーが30%ほどに対し,提案手法ではを6.8%以下に抑えた.

コメント・リンク集

[#145]
2018.7.20 16:19:39
Learning Depth from Monocular Videos using Direct Methods
Chaoyang Wang, Jose Miguel Buenaposada, Rui Zhu, Simon Lucey
CVPR 2018
233
Kazuma Asano

概要

眼カメラで撮影した動画をデプス推定する論文.従来のデプス推定では,CNN姿勢予測器を用いてデプス予測を行っているが,従来までの手法だけでは単眼カメラで撮影した動画のデプス予測に最適な手法ではない.そこで本稿ではDirect Visual Odometryを改良したDDVO,Pose-CNN,DDVO+Pose-CNNの3つの手法を用いて姿勢予測し,さらにデプスを教師なし学習で推定する手法を提案している. 構造としては一度の入力に3つの連続した画像 I1,I2,I3を使用する.それらの入力からまずI1,I3からデプスの逆数の値を取ったinverse depth mapと,すべての画像の姿勢推定を行い,I2とそれ以外の画像の姿勢の関係性を推定する.そしてI2とI1,I3とのwarped imageの相違性を比較しロスを求め評価する.

Item3Image1Item3Image2

結果

実験の評価方法としてKITTIデータセットを使用しており,従来手法と比較し,単眼カメラで撮影した動画でありながら,提案手法のPose-CNN+DDVOを使用したものが最も高い評価値である.

コメント・リンク集

[#146]
2018.7.20 16:39:34
DocUNet: Document Image Unwarping via A Stacked U-Net
Ke Ma, Zhixin Shu, Xue Bai, Jue Wang, Dimitris Samaras
CVPR 2018
596
Kazuma Asano

概要

モバイルカメラなどで実際に撮影したレシートや文章などの歪んだ画像をフラットな画像に修正するネットワークを考案.手法としてはセマンティックセグメンテーションに似ており,画素単位で判別していく. ネットワークアーキテクチャとしては2組のU-Netを用いて実現している. 1つ目のU-netでは逆畳み込み層部分を分割して,特徴マップを抽出したものとフォワードマップy1を出力する. これらを合成して2つ目のU-netの入力にする.2つ目のU-netではフラットな画像に修正した画像1枚を出力する. この処理をLossが小さくなるまで繰り返し行う. 評価方法としては実際にモバイルカメラを用いて論文などのプリントを撮影した画像とそのプリントをスキャンしてGround truthにしたものを90Kほど用いてトレーニングを行っている.

Item3Image1Item3Image2

結果

折れ曲がっている部位や極度に撮影の仕方が悪いものは歪んでしまっているが,それでも文字が読み取れるレベルまで画像が修正できている.

コメント・リンク集

[#147]
2018.7.20 16:47:59
Deep Texture Manifold for Ground Terrain Recognition
J.Xue, H.Zhang, K.Dana
CVPR 2018
Kazuma Asano

概要

地形認識はロボット分野や自動運転に対し重要な処理である.しかしテクスチャを使った地形認識では,例えば"grass"と"leaves"は似ているために間違った認識がされることがある. そこで地形認識のためのDeep Encoding Pooling Network (DEP)を提案した. 事前に学習したCNNを特徴抽出器として利用し,CNNからの出力をtexture encoding layerとglobal average pooling layerに送る. texture encoding layerではテクスチャのdetailを持ちつつ,global average pooling layerが持っていたローカル空間情報を出力する. 30000枚以上の画像を40クラスに分類したGTOSデータセットで学習し,よりリアルな条件下で評価するために,テストデータには携帯のビデオで撮影した81個のビデオをasphaltやsandなどの31クラスに分類したGTOS-mobileデータセットを作成した. ネットワークの評価はGTOS-mobileだけでなくMINCやDTDも使用し評価している.

Item3Image1Item3Image2

結果

ランダムに10000枚の画像を選び,ResNetや著者たちの従来手法であるDeep TENと提案手法で識別させ比較すると,提案手法がもっとも分類がうまくいっている.

実際にテストデータにGTOS-mobileを使用した結果も,ResNetやDeepTENより2~5%ほど精度が向上している.

[#148]
2018.7.23 14:14:24
Webly Supervised Learning Meets Zero-shot Learning: A Hybrid Approach for Fine-grained Classification
Li Niu, Ashok Veeraraghavan, Ashutosh Sabharwal
CVPR2018
949
Kazuma Asano

概要

品種などの微妙な違いでカテゴリを区別されるような細かい画像のクラス分けは膨大なカテゴリ分けの高いコストにより難しいタスクとなっている.これにより起こるトレーニングデータの不足に対処する研究として以下の二点が存在する. (1)人のアノテーションが加わっていないフリーなウェブイメージを利用. (2)Zero-shot Learning(ZSL)を利用. しかし,(1)ではウェブイメージにラベルノイズ付きが多いこと,(2)ではZSLは未だに従来の学習に比べて精度が良くないという問題点が存在する. そこでウェブイメージと補助的なラベルデータを用いてトレーニングデータに関連付けられていないテストカテゴリを予測するフレームワークを提案した. 評価にはZSLの評価にもよく使われる3つのデータセット,CNB, SUN, Dogsを使って評価している.

Item3Image1Item3Image2

結果

従来手法(特にZSL)に比べ格段に精度が上昇している.

コメント・リンク集

[#149]
2018.7.23 14:05:28
Automatic 3D Indoor Scene Modeling from Single Panorama
Y.Yang, S.Jin, R.Liu, S.B.Kang, J.Yu
CVPR 2018
516
Kazuma Asano

概要

室内の2Dパノラマ画像1枚から3Dモデルを推定する研究.本稿ではパノラマ画像から18視点の画像(パノラマの中心点から対象を普通に撮影したような画像),sub-viewを生成する. それらを入力とし,sub-viewごとに顕著生マップ(Saliency map)とオブジェクト検出から前景と背景を分けると同時に直線検出(Line segment detection)を行いパノラマ画像を解析し,geometric cueとsemantic cueを推定する. これらから地面の推定,オクルージョンの推定を行い,形状の復元を行う.

Item3Image1Item3Image2Item3Image3

結果

FAROとsyntheticデータセットを使って評価した結果,背景とオブジェクト検出におけるdepth cosine distanceが従来より最先端な結果となった.

[#150]
2018.7.20 16:23:44
Salience Guided Depth Calibration for Perceptually Optimized Compressive Light Field 3D Display
Shizheng Wang et al.
CVPR 2018
Yoshihiro Fukuhara

概要

Multi-layer light field 3D display のための depth calibration の研究. Saliency の高い領域を推定し, その領域の深度を可能な限り表現出来るように calibration することで, Multi-layer light field 3D display の持つ深度表現の制限の元で知覚的に最適化された depth calibration を行う手法を提案. 主観評価実験では既存手法よりも最低でも12%以上良いという結果を達成.

fukuhara-Salience_Guided_Depth_Calibration_for_Perceptually_Optimized_Compressive_Light_Field_3D_Display.png

新規性・結果・なぜ通ったか?

  • 知覚的に最適化された Multi-layer light field 3D display のための depth calibration の研究
  • 深度や色の contrast に基づいて saliency の高い物体を推定する contrast enhanced salience detection を提案
  • Contrast enhanced salience detection によって light field capture region の中で高い saliency をもつ物体を推定
  • 高い saliency を持つと推定された物体を multi-layer LCD の copressive display depth region に優先的に投影する
  • Saliency detection の精度を評価するために public light field dataset を用いて行った評価実験では, SOTAを達成
  • 主観評価実験(12名)では既存手法よりも最低でも12%良いという結果
[#151]
2018.7.30 6:50:55
ISTA-Net: Interpretable Optimization-Inspired Deep Network for Image Compressive Sensing
Jian Zhang et al.
CVPR 2018
Yoshihiro Fukuhara

概要

Compressive sensing (CS) reconstruction の研究. 従来の Iterative Shrinkage-Thresholding Algorithm (ISTA) のイテレーションを end-to-end で学習可能なネットワークに置き換えた, ISTA-Net を提案. 評価実験では幅広い CS Rate において既存の最適化に基づく手法とネットワークに基づく手法の両者よりも優位な結果を達成した.

fukuhara-ISTA-Net_Interpretable_Optimization-Inspired_Deep_Network_for_Image_Compressive_Sensing.png

新規性・結果・なぜ通ったか?

  • 高速かつ正確な compressive sensing (CS) reconstruction のアーキテクチャ ISTA-Net を提案
  • 線形逆問題を解くためのアルゴリズムである Iterative Shrinkage-Thresholding Algorithm (ISTA) を Neural Network でモデル化
  • ISTA-Net では畳み込みと ReLU を組み合わせることで非線形の変換を学習(end-to-end でパラメータの学習が可能)
  • 評価実験では, TVAL3, D-AMP, IRCNN, SDA, ReconNet と比較を行い, 全ての CS Rate で優位な結果を示した
  • 計算速度は GPU を使用して, 25FPS 程度 (ReconNet は 62.5FPS)
[#152]
2018.7.29 22:11:55
Learning Intelligent Dialogs for Bounding Box Annotation
Ksenia Konyushkova, Jasper Uijlings, Christoph Lampert, Vittorio Ferrari
CVPR 2018
Goshi sasaki

概要

アノテーションには対象領域を矩形で囲むのとその確認作業の2つのステップがある。画像がシンプルで検出領域の信頼性が高い場合は手作業で矩形を付ける作業を行わず、確認作業のみを行ったほうが時間を短縮できる。一方、検出領域が小さく、数多くあると確認作業に時間がかかってしまうため、手作業で矩形をつけたほうがよい。このように画像ごとに最適なアノテーション戦略を練る必要があり、Intelligent Annotation Dialogs (IAD) はこの手助けをする。本論文では2つのIAD手法が提案されている。1つ目は検出領域がアノテーターに受け入れられる確率を考慮して、アノテーション時間をモデル化することで最適化する。2つ目はモデリングを行わず、強化学習により最適な戦略を見つける。

architecture

新規性・結果・なぜ通ったか?

物体検出等において精度の高いアノテーションは重要であるがそのコストは高いままである中で、IADを利用することにより既存手法に比べてアノテーション時間を短縮できると示した。

コメント・リンク集

**論文

[#153]
2018.7.30 01:49:58
Lightweight Probabilistic Deep Networks
Jochen Gast, Stefan Roth
CVPR 2018
1799
Kazuki Inoue

概要

DNNに対して活性化や最終層の出力を確率分布で置き換えるモデルを提案。DNNでは要所要所で確率モデルを使用しているが、多くのモデルでは活性化や最終層の出力はサンプリングに終わっている。一方でfull Bayesian networksではパラメタ自体を確率分布に置き換えているが、テストの実行に長い時間がかかってしまう。提案手法ではネットワークの最終層の出力を確率分布で置き換えるprobabilistic output layers (ProbOut)と、assumed density filtering(ADF)を導入することで活性化を確率分布で置き換える2つの方法を提案。これを既存のネットワークに組み込むことで、テスト時の実行速度を落とすことなく識別・回帰の両タスクで高い精度を実現。特に識別ではディリクレ分布に基づく出力を行うモデルを提案。

Item3Image

新規性・結果・なぜ通ったか?

  • オプティカルフローの回帰をベースモデルFlowNetで行なった。{最終層の出力のみ, 活性化}を確率的な分布に置き換えたFlowNet{ProbOut, ADF}と、FlowNet、確率モデルのベースラインとしてFLowNetにGaussian dropoutをボトルネックに加えたFlowNetDropOutと比較
  • Endpoint errorにおいてもっとも高い精度を達成し、テスト時の実行スピードはFlowNetADF/ProbOutそれぞれで38/101fpsとなり、FLowNetの106fpsよりも遅いものの、FlowNetDropOutの3fpsよりも高速に実行可能。
  • CIFAR10とMNISTの識別をAll-CNN-Cをベースモデルとした。
  • 提案手法であるADF、ProbOut+ディリクレ分布に基づいた最終層の出力を用いたモデルがもっとも高い精度を達成。
  • 最終層をsoftmaxにした場合と提案手法によるDirichlet output layerにおけるクロスエントロピーロスと推定時のカテゴリのエントロピの考察を行い、後者の場合に置いて強いそうかんが得られたため、Dirichlet output layerの有用性を主張。
  • DIFAR-10におけるadversarial attackへの頑健性において比較モデルよりも高い精度を達成。

コメント・リンク集

[#155]
2018.7.30 00:28:11
Learning Markov Clustering Networks for Scene Text Detection
Zichuan Liu et al.
CVPR 2018
Yoshihiro Fukuhara

概要

ボトムアップに Scene Text Detection を行う手法を提案. 物体検出を Stochastic Flow Graph のクラスタリングとして定式化した. ボトムアップな手法の恩恵として, スケールや回転に頑強になると共に, 並列化による高速化が可能となった. 評価実験では MSRA-TD500 dataset で SOTA を達成し, かつ既存手法の1.5倍(34FPS)高速に動作.

fukuhara-Learning_Markov_Clustering_Networks_for_Scene_Text_Detection.png

新規性・結果・なぜ通ったか?

  • 入力画像は Markov Clustering Network (MCN)によって Stochastic Flow Graph (SFG) に変換される
  • SFG のノードは格子上に並んでおり, 物体は強く結合したノードとしてモデル化される(SFGは物体の局所的な相関関係やsemanticな情報をencodeしている)
  • SFG にマルコフクラスタリングを適用し, 各クラスター毎に Bounding Box を生成する
  • ボトムアップな手法のため, 物体のスケールや回転に頑強かつ並列化による高速化が可能
  • ICDAR 2013, ICDAR 2015 and MSRA-TD500 を用いて評価実験を行った
  • MSRA-TD500 dataset では SOTA を達成し, その他の dataset でも既存手法と同等の精度を達成
  • 速度については同等の精度の既存手法(TextBoxやCTPN)と比較して1.5倍程度高速化(34FPS)
[#156]
2018.7.28 18:56:55
CBMV: A Coalesced Bidirectional Matching Volume for Disparity Estimation
Konstantinos Batsos et al.
CVPR 2018
Yoshihiro Fukuhara

概要

stero matching に用いる mathching volume の推定を学習データに依存せずに, ロバストに行うモデルを提案. 4つの matcher から得られた mathching volume から確信度の高い部分(確信度の計算は双方向から行う)をそれぞれ抽出し, random forest classifier を用いて最終的な mathching volume の生成を行う. 評価実験では MC-CNN と同等の高い精度を達成すると共に, 高い汎化性能を確認した.

fukuhara-CBMV_A_Coalesced_Bidirectional_Matching_Volume_for_Disparity_Estimation.png

新規性・結果・なぜ通ったか?

  • mathching volume の推定を学習データに依存せず, ロバストに行うモデルを提案
  • Census, NCC, ZSAD, SOBEL の4つの matcher を使用して得られた, それぞれの mathching volume から確信度の高い部分を抽出(確信度の計算は双方向から行う)
  • 抽出された confidence volume に対して random forest classifier を適用して最終的な mathching volume を生成
  • Middelebury 2014, KITTI 2012, 2015, ETH3D を用いて評価実験を行った
  • Middelebury 2014 では純粋にdata-drivenな手法(MC-CNN)と同等の精度を達成
  • Middelebury 2014 で学習したモデルを用いて, ETH3D で SOTA を達成 (高い汎化性能)
[#157]
2018.7.29 11:24:55
Learning to Promote Saliency Detectors
Yu Zeng et al.
CVPR 2018
Yoshihiro Fukuhara

概要

Image-specific な saliency map を得るために, 既存の saliency detector を強化する問題を zero-shot learning として定式化. DNNを用いて, 画像の特徴量マップと各画素のアトリビュートを同じ計量空間に射影し, アトリビュートが射影された点をアンカーとして最近傍探索によって新しい saliency map を得る. ECSSD や PASCAL-S など5つのベンチマークで評価を行いSOTAを達成した.

fukuhara-Learning_to_Promote_Saliency_Detectors.png

新規性・結果・なぜ通ったか?

  • Image-specific な saliency map を得るために, 既存の saliency detector を強化する問題を zero-shot learning として定式化
  • DNN を各画素値とアトリビュート(サンプリング)を同一の計量空間に射影する, 埋め込み関数として学習させる
  • 計量空間ではアトリビュートをアンカーとして最近傍探索によって, 新しい saliency map を得る
  • 上記によって得られた saliency map を再度 DNN の入力とすることで, 再帰的に saliency map を更新(Test時は最初の入力として既存手法によって作成された saliency map を使用)
  • ECSSD, PASCAL-S, HKU-IS, SOD, DUTS の5つのデータセットを用いて評価実験を行った (MAE で測ってSOTAを達成)
[#158]
2018.7.28 18:56:55
Learning Patch Reconstructability for Accelerating Multi-View Stereo
Alex Poms, Chenglei Wu, Shoou-I Yu, Yaser Sheikh
CVPR 2018

概要

Multi-view stereo(MVS)による3次元再構成の問題を取り扱う。事前確率による画像パッチにより少量のデータで3次元形状を復元、より高速な処理を可能とした。右図のように3次元再構成を行うために重要なデータを予め抽出することで16%のデータで約6倍高速にMVSによる3次元データを復元するに至った。ニューラルネットベースの手法(I2RNet)やDepthから3次元復元のための重要なデータを選定。

180727LearningPatchReconstructability

新規性・結果・なぜ通ったか?

MVSにて事前確率(w/ Depth, I2RNet)を用い少量の重要なデータを用いることで高速な3次元復元を可能とした。

コメント・リンク集

VRに有効に見える。Oculus Researchからの研究。

[#159]
2018.7.30 00:46:22
Structure From Recurrent Motion: From Rigidity to Recurrency
Xiu Li, Hongdong Li, Hanbyul Joo, Yebin Liu, Yaser Sheikh
CVPR 2018

概要

動画像の入力から非剛体に対するSfM(Non-Rigid Structure-from-Motion)に対して再帰的に繰り返し動的行動を復元できる新しい手法を考案する。非剛体の形状変化は再帰的になる傾向があるという性質を利用して形状復元を実施した。この性質を用いると、従来の剛体形状復元の方法をほぼ改編しなくても同じようなモデルで復元を可能とした。右図は再帰性を用いた非剛体推定の例である。フレームによりほぼ同じ姿勢が表れており、この知識を用いると剛体推定と同じような枠組みで非剛体を推定できる。

180727SfRM

新規性・結果・なぜ通ったか?

再帰的な動作を捉えることで、従来の剛体推定とほぼ同じモデルで動画からの非剛体推定ができるという知見を与えた(ことが大きな貢献であり、採択された理由である)。

コメント・リンク集

この知見面白い!よく思いついた、実装したと思います。

[#160]
2018.7.27 21:26:47
A Fast Resection-Intersection Method for the Known Rotation Problem
Qianggong Zhang, Tat-Jun Chin, Huu Minh Le
CVPR 2018

概要

カメラ姿勢の中でも角度が既知であるというStructure-from-Motion(SfM)の中でも特殊な問題を扱う。再投影誤差(Reprojection Errors)に関してMini-Max問題を想定し、この問題について擬似凸プログラミング問題(Pseudo-Convex Programming)として解決する。従来では非常に処理時間がかかる同問題に対して、本論文では(比較的)大規模なデータにおいて高速化を図った。最適化の更新処理においてMinimum Enclosing Ball (MEB)を用いることでメモリ低減と同時に高速化を実現した。

180727FastResectionIntersection

新規性・結果・なぜ通ったか?

SfMにおいても特殊と言われる、カメラ角度が既知の状態における擬似凸最適化の問題で、繰り返し最適化手法を考案することで比較的大規模な問題において高速な演算を行うことに成功した。

コメント・リンク集

SfMの問題設定、カメラ角が既知の場合てどんな場面だろう??どんなシステムを想定した場合既知なのでしょうか。

[#161]
2018.7.27 18:13:45
Inverse Composition Discriminative Optimization for Point Cloud Registration
Jayakorn Vongkulbhisal, Beñat Irastorza Ugalde, Fernando De la Torre, João P. Costeira
CVPR 2018

概要

剛体の3次元点群のレジストレーション(位置合わせ)を行うための手法Inverse Composition Discriminative Optimization(ICDO)を提供する。従来のICPはローカルの位置合わせに着目しているために、局所最適解に陥りやすく初期値やアウトライアに依存して位置合わせが失敗してしまう。提案手法であるICDOでは合成トレーニングデータにより学習を行い、繰り返し最適化を行うことでより全体的な最適解に近づけるという戦略を取っている。(本手法はDOの拡張であると位置付けている)

180727InverseCompositionDiscriminativeOptimization

新規性・結果・なぜ通ったか?

3次元点群の位置合わせ問題において、合成データを用いて学習を行うことにより、全体最適解に合わせやすくした。従来法であるDOの拡張であると主張していて、学習した物体に依存するDOに対してICDOでは物体に依存せず全体最適解に位置合わせすることができる。

コメント・リンク集

学習がどの程度よくなるかは不明だが、高速かつ高精度な3次元点群処理が進むとよいです!(あとより簡単だとよい)

[#162]
2018.7.27 17:54:28
Camera Pose Estimation With Unknown Principal Point
Viktor Larsson, Zuzana Kukelova, Yinqiang Zheng
CVPR 2018

概要

Structure-from-Motion(SfM)やカメラ位置推定の一種である6DOFの姿勢推定の問題について取り組む。大抵の場合、中心座標(Principal Point)は画像の中央と決めているが、ここでは対応する4.5点(P4.5Pfuv)を基にして中心座標や焦点距離を推定する。さらにはアスペクト比を5点対応から、中心座標とレンズディストーションを7点対応から推定する。

180727P4.5Pfuv

新規性・結果・なぜ通ったか?

カメラ行列に関して多項式の拘束を与えることで、4.5点対応で中心座標や焦点距離を、5点対応でアスペクト比を、7点対応(特にこれが難しい!)からは中心座標とレンズディストーションを推定した。

コメント・リンク集

カメラ情報を推定する際に、対応点てどうやったら減るんだろう?(論文には書いてあるのですが、モチベーションや発想という意味で)

[#163]
2018.7.27 17:41:32
Uncalibrated Photometric Stereo Under Natural Illumination
Zhipeng Mo, Boxin Shi, Feng Lu, Sai-Kit Yeung, Yasuyuki Matsushita
CVPR 2018

概要

未校正(w/o calibration)かつ未知照明環境(unknown natural illumination)にてフォトメトリックステレオを実現するため、Equivalent Directional Lighting Modelを提案。滑らかに変化するような表面形状の復元や回転に対する曖昧性を許容した復元を可能にした。回転を考慮することでパッチの統合による曖昧性を排除して全体の表面を最適化した。図は提案手法のフロー図である。最初に光源を推定(Equivalent Directional Lighting)し、次にSVDしつつ局所的な(回転による?)曖昧性を除去、法線の空間にて行列計算・補完を行い出力する。

180727UncalibratedPhotometricStereo

新規性・結果・なぜ通ったか?

未校正かつ未知照明の環境にて、滑らかな表面形状変化を捉えるフォトメトリックステレオ手法を考案した。パッチ毎に回転の曖昧性を推定して全体の構造を把握することに成功した。

コメント・リンク集

以前まではフォトメトリックステレオはかなり補助があったような気がするが、いつのまにかキャリブレーションなし、未知光源でできている。

[#164]
2018.7.27 17:18:17
Reconstructing Thin Structures of Manifold Surfaces by Integrating Spatial Curves
Shiwei Li, Yao Yao, Tian Fang, Long Quan
CVPR 2018

概要

細い(Thin)構造の物体を3次元復元するためのMulti-View Stereo手法を提案。トポロジーや連結性を考慮して復元を行ない、3次元メッシュ構造を復元することに成功した。3次元カーブ再構成、4面体系(tetrahedra)を復元してCurbe-conformed Delaunay Refinementを実施する。さらに、メッシュが4面体系上に復元される。

180725ReconstructingThinStructure

新規性・結果・なぜ通ったか?

形状が細い構造物を合成データ/リアルデータ両方のデータセットにおいて3次元メッシュ復元を可能にした。また、図に示されている通り、(細い形状を含め)表面形状を保存したままの復元に成功した。

コメント・リンク集

細い構造、3次元再構成の強い手法だけではできなかったのか?

[#165]
2018.7.27 15:44:53
Estimation of Camera Locations in Highly Corrupted Scenarios: All About That Base, No Shape Trouble
Yunpeng Shi, Gilad Lerman
CVPR 2018

概要

Structure-from-Motion(SfM)にてカメラ位置推定を改善する手法について、本論文ではAll-About-that-Base (AAB) Statisticを提案、重み付けの方法について検討し、カメラ方向についてずれのレベル(ここでいうCorruption levelとは?)を推定しながら位置推定を実現。これによりカメラ方向(Camera Orientation)推定、重み付けについて理論的な証明を行うこと、より高速な手法の提案が展望として考えられる。

180724CameraLocationsCorruptedScenarios

新規性・結果・なぜ通ったか?

2つのカメラにおける誤差を推定して復元する重み付け方法について提案し、カメラの位置推定に寄与した。

コメント・リンク集

数式が多くて最後まで読み解けませんでした。。

[#166]
2018.7.25 08:50:17
Motion Segmentation by Exploiting Complementary Geometric Models
Xun Xu, Loong Fah Cheong, Zhuwen Li
CVPR 2018

概要

動的環境のモーションセグメンテーションにおいて幾何的な情報をホモグラフィとして抽出、平面などをインライアとして扱いマッチングの精度を補間的に高める。従来の基礎行列の手法では(動的環境下では)困難でも、マルチビューのスペクトラルクラスタリングとの統合で相補的にモデルを改善する。

180724ComplementaryGeometricModels

新規性・結果・なぜ通ったか?

既存の基礎行列やホモグラフィといったモデルに対してマルチビューのスペクトラルクラスタリングを用いて空間の幾何構造を把握する研究である。Hopkins155, Hopkins12, MTPV62, KITTIデータセットにてSOTAな性を実現している。

リンク集

[#167]
2018.7.24 11:00:42
Efficient, Sparse Representation of Manifold Distance Matrices for Classical Scaling
Javier S. Turek, Alexander G. Huth
CVPR 2018

概要

本論文では3次元形状において、膨大な空間からマッチングする領域の探索問題を考える。従来では低ランク近似(Low-Rank Approximation)による手法、例としてMDS(Multidimensional Scaling)を適用してきた。本論文ではBiharmonic Interpolationによる測地距離行列を用いたSparse Biharmonic MDS(sBMDS)を提案することでより効率的な探索を実施することができる。sBMDSではデータの多様体を捉えて探索する点を大幅に抑えることができる(1.8Mx1.8M, 26TB => 50,000 landmarks, 20.9GB)。

180723ManifoldDistanceMatrices

新規性・結果・なぜ通ったか?

スパース補間技術であるsBMDSを提案したことで、マッチングする領域を大幅に減らすことに成功。非剛体のマッチングに要する時間は半分、メモリは20分の1になったと主張。

コメント・リンク集

ムービーで非剛体3次元のメッシュをマッチングできたら面白い!まだまだ改善が必要であろうか?

[#168]
2018.7.23 20:30:46
Coding Kendall's Shape Trajectories for 3D Action Recognition
Amor Ben Tanfous, Hassen Drira, Boulbaba Ben Amor
CVPR 2018

概要

本論文ではスパースコーディング/辞書学習として著名なKendall's shape spaceを用いて3次元関節点を入力とした人物行動認識に取り組む。Riemannian幾何による形状空間を構築してスパースコーディング/辞書学習を提案。行動認識を実現するために、Fourier temporal pyramidを施した後にBi-directional LSTMやLinear SVMを適用する。

180723KendallShapeTrajectories

新規性・結果・なぜ通ったか?

3次元関節点を入力とした人物行動認識の文脈において、Riemannian辞書によるスパースコーディングを実装したことで非線形空間をスパースかつ時系列情報のユークリッド空間にて取り扱うことができた。

リンク集

[#169]
2018.7.23 19:47:41
Geometry-Aware Network for Non-Rigid Shape Prediction From a Single View
Albert Pumarola, Antonio Agudo, Lorenzo Porzi, Alberto Sanfeliu, Vincent Lepetit, Francesc Moreno-Noguer
CVPR 2018

概要

紙やシャツなど柔軟な物体に対する形状変化を3次元的に捉える手法を提案した。従来法とは異なり、表面形状に関してテンプレートを準備する必要がないこと、テクスチャ欠損や部分的オクルージョンに対して頑健である。幾何的な変化を捉えるために、基本的に深層学習をベースとしており、2次元画像でのメッシュ検出、3次元形状の復元を実行する。形状変化、材質、テクスチャや照明条件の変化が入る空間を含んだ大規模データセットにて深層学習アーキテクチャをEnd-to-Endで学習。右図は提案手法の概要を示している。ネットワークは主に2次元画像中で位置を特定する2D Detection Branch、3次元的な幾何情報を復元するDepth Branch、非剛体形状を復元するShape Branchから構成される。

180723GeometryAwareNetwork

新規性・結果・なぜ通ったか?

End-to-Endかつリアルタイムな3次元表面形状復元手法を提案。実空間にて撮影したベンチマークにてState-of-the-artな表面形状トラッキングを実現した。現在まではEnd-to-Endな学習が難しいとされていたが、幾何的な情報を復元するに特化した構造とそのためのデータベースを構築したことが評価された形となった。

コメント・リンク集

中間状態として物体位置・距離画像・柔軟形状復元を行なっているけど、それぞれで誤差計算しているのだろうか?

[#170]
2018.7.23 15:39:51
Learning for Disparity Estimation Through Feature Constancy
Zhengfa Liang, Yiliu Feng, Yulan Guo, Hengzhu Liu, Wei Chen, Linbo Qiao, Li Zhou, Jianfeng Zhang
CVPR 2018

概要

CNNのフォワード(のみ)によりステレオマッチングの出力である距離画像を出力する取り組み。従来のステレオマッチングでは左右画像マッチング、視差計算、距離画像修正により構成されていたが、CNNにより大幅に処理コストを削減する。提案のネットワークでは4つのパーツから構成され、マルチスケールで重みを共有しながら特徴計算を行い(Multi-scale Shared Features)、左右画像のマッチング(Disparity Estimation)、距離画像修正(Disparity Refinement)、距離画像の最終出力(Disparity)を実施する。アーキテクチャについては右図に記載されている通りである。

180723FeatureConstancyStereo

新規性・結果・なぜ通ったか?

距離画像計算を一回のCNNのフォワードで実施するネットワークを構築し、ベンチマークであるScene FlowやKITTI datasetにて(論文投稿時)State-of-the-artな精度を実現した。グレースケールの色の一致性、勾配の一致性や特徴空間における恒常性(Feature Constancy)を考慮した結果、CNNによるステレオマッチングの出力が向上したと主張。

[#171]
2018.7.23 15:14:24
LDMNet: Low Dimensional Manifold Regularized Neural Networks
Wei Zhu, Qiang Qiu, Jiaji Huang, Robert Calderbank, Guillermo Sapiro, Ingrid Daubechies
CVPR 2018

概要

データの数や質によってはオーバーフィッティングを起こしてしまうが、本論文ではLow-Dimensional Manifold-Regularized Neural Network (LDMNet; 低次元の多様体により正則化を実行するネットワーク)を提案することで特徴量や入力データに対して正則化を行う取り組みである。外的なパラメータなしに多様体を探索することが望ましいが、ここではEuler-Lagrange方程式は計算的な複雑性を上げることなくポイントクラウド計算にてLaplace-Beltrami方程式と等価(ここ自信ない)であることを示した。実験においてLDMNetは異なるモダリティ、例えばCross-spectralな顔認識において有効であることが判明した。右上図はweight decay/DropOutなどによる正則化手法と比較した結果である。LDMNetは特徴量をもっともよく識別する空間に配置する多様体を構成できている。

180723LDMNet

新規性・結果・なぜ通ったか?

低次元の多様体空間を構成することで、入力データには(できる限り)依存せずデータ/特徴空間に関する正則化を行うことができるLDMNetを提案した。より少ない画像枚数の学習にて良好な精度を実現することが明らかとなった。各カテゴリ50枚のMNIST学習にて95.57%を実現(ベースラインは91.32%/92.31%)した。

コメント・リンク集

クロススペクトラル(ドメインが多少異なる?)に対して良好な精度を実現しているため、過学習は避けられた?しかし、ドメイン変換のようなものについても検証を行ってほしい。

[#172]
2018.7.23 14:45:36
Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference
Benoit Jacob, Skirmantas Kligys, Bo Chen, Menglong Zhu, Matthew Tang, Andrew Howard, Hartwig Adam, Dmitry Kalenichenko
CVPR 2018

概要

Integer(int)演算によるニューラルネットの効率的な量子化および学習の提案である。Int演算でFloat演算よりも効率的な計算を可能とした。同様に、End-to-End学習についても精度を保持しつつ演算の高速化にも成功、accuracy/latencyのトレードオフについても効率的な解決策となった。関連研究であるMobileNetについても効率化に成功し、ImageNet/MSCOCOにてCPU実装をデモした。

180723IntOnly

新規性・結果・なぜ通ったか?

8ビットInt型の演算のみでニューラルネットの学習を実施。学習/推論においてFloat型の精度/速度を凌駕する性能を発揮した。さらに、MobileNet等の効率化されたアーキテクチャについてもより効率化を実現した。

コメント・リンク集

さすがにGoogleは保有データのみでなく、アルゴリズム面においてもトップを行っている。データあり、資源あり、人ありでその上分野を網羅的に攻めることができている。

[#173]
2018.7.23 14:22:37
SobolevFusion: 3D Reconstruction of Scenes Undergoing Free Non-Rigid Motion
Miroslava Slavcheva, Maximilian Baust, Slobodan Ilic
CVPR 2018

概要

非剛体物体の3次元再構成について、人物のみでなくインタラクションしている物体に対しても密な復元を行う手法SobolevFusionを提案。さらに、従来法とは異なり、勾配をL^2の内積で定義し変化をSobolev spaceで扱えるようにしたこと、RGBのテクスチャも貼り付けることが可能になった。Variational Level-setにて領域の切り抜きを実施し、復元方法はTruncated Signed Distance Field (TSDF)を投影することで行われる。この流れはDynamicFusionKillingFusionから来ている。

180721SobolevFusion

新規性・結果・なぜ通ったか?

DynamicFusion/KillingFusionを改良したSobolevFusionを提案した。変化した3D空間をSobolev空間で扱えるようにして動的な空間に関して詳細まで復元することに成功した。

コメント・リンク集

表が一つもない論文で通すのすごい!実装力勝ちですね。

[#174]
2018.7.21 10:57:19
Matching Pixels using Co-Occurrence Statistics
Rotal Kat, Roy Jevnisck, Shai Avidan
CVPR2018

概要

ピクセル同士のマッチングをピクセルの共起性に着目して行う手法を提案した。ピクセルの出現頻度で正規化された共起行列を用いることでテンプレートマッチングを行う。 その際、Multi-dimensional scalingを用いてマッピングを考えることで、画像を別空間に投影して扱うことを可能にする。

Item3Image

新規性・結果・なぜ通ったか?

RGB空間だけでなくDeep featuresなどピクセルとして表現されるあらゆるものに適用可能である。したがって、これまでに提案されてきたあらゆるCVの手法(論文中ではLucas-Kanade法及びKCF trackerを紹介)を使用することが可能である。

コメント・リンク集

[#175]
2018.7.29 20:59:27
Densely Connected Pyramid Dehazing Network
He Zhang, Vishal M. Patel
CVPR 2018
Daichi Horita

概要

霞んだ大気が写っていると認識タスクなどではノイズとなりうるケースがあり、除去する必要がある。そこで以下の手法を用いてSoTA達成し、End2Endで学習を行える除去方法を提案した。 画像を数式化し、それを解く手法をDensly Connected Pyramid Dehazing Networks(DCPDN)とした 霞んだ画像のEdgeなどの構造(TransmissionMapEstimation)と、霞など(AtmosphericLightEstimation)に分離して特徴量を獲得し、それら2つからDehazeImageを作成。 その後、DehazeImagerとEstimation、2つのペアの構造が似ているかをJoint-Discriminatorで識別し学習する。 また、Edgeは画像に分け目でありImageGraduentsに特徴付けらること、輪郭やEdgeのようなlow-levelな特徴量はCNNの最初の方の層で抽出されることの2つの背景から Edgeの特徴量を豊富に学習できる、ImageGradientを取る関数、VGGでcontent featureを取る関数の和であるEdge-preserving Lossを提案を提案した。

Item3Image

新規性・結果・なぜ通ったか?

SSIMでの比較結果が最も高く、結果を見ても綺麗であった。Edge-preserving LossとJoint-Discriminatorがうまく寄与していた。

コメント・リンク集

[#176]
2018.7.29 13:30:55
CRRN: Multi-Scale Guided Concurrent Reflection Removal Network
R.Wany, B. Shi, L.Duan, A. Tan andA.C.Kotx
CVPR2018
KotaYoshida

概要

画像内のガラスの反射は,CV分野にとって脅威となる.この問題を解決するためにConcurrent Reflection Removal Network(CRRN)を提案.人間の知覚に影響を考慮したロス関数を用いて、画像の外観情報とマルチスケールの勾配情報を統合し、多様な実世界のシーンで撮影された3250枚の反射画像を用いて学習したものである.公開されているデータセットを用いて実験したところSoTAを示した.

Image

新規性・結果・なぜ通ったか?

  • 反射を同時に除去するための勾配推定ネットワーク(GIN)と画像の外観情報推定ネットワーク(IiN)を並行したフレームワークとして構築
  • Reflection Image Dataset(RID)と呼ばれる反射画像DB を構築し学習に使用

コメント・リンク集

[#177]
2018.7.28 15:36:48
Adversarially Occluded Samples for Person Re-identification
Houjing Huang, Dangwei Li, Zhang Zhang, Xiaotang Chen, Kaiqi Huang
CVPR2018

概要

Person re-identification(ReID)のためのdata augmentationの方法を提案した。ReIDの難しさの一つとして、カメラの違いなどにより様々なocclusionが発生することである。 そこでocclusionを発生させた学習データを作ることで精度向上を計る。 始めに、通常通りReIDの学習を行うことでネットワークが画像のどの領域に注目するかを調べる。 明らかになった注目領域を塗りつぶすことでocclusionとし、学習しなおすことでocclusionに頑健な学習を実現する。

Item3Image

新規性・結果・なぜ通ったか?

従来手法では上半身など画像の一部の領域にのみに注目していたため、注目領域にocclusionがあると精度が下がったのに対して、提案手法により画像全体に注目するようになりocclusionに頑健になった。実際、Rank1 accuracy, mAPどちらもベースラインと比べ数値が向上したことを示した。

コメント・リンク集

同じCVPR2018に重要な領域だけに注目しようとする研究(URL)があり、全体に注目するように学習をするこの研究と真逆を進んでいるのが気になる

[#178]
2018.7.29 03:11:16
Temporal Hallucinating for Action Recognition with Few Still Images
Yali Wang, Lei Zhou, Yu, Qiao
CVPR2018

概要

1枚画像からの行動認識を、類似する動作の記憶を手がかりに行うHybrid Video Memory(HVM)を提案した。 人間は未知の光景に遭遇したとき、過去の記憶を手がかりに類似したものから類推することができる。 HVMは人間のこのプロセスを模倣し、数枚しかない学習データを類似する動作と関連付けることで学習を可能にする。 学習済みTwo-stream CNNに1枚画像を入力し、Memory動画とSpatial Featureを比較することにより類似する動画へ重み付けを行う。 この類似する動作から得られるTemporal Featureの重みつき和を入力画像のTemporal Featureにする。 行動の予測は得られたTemporal Featureと学習画像及びMemory動画のTemporal Featureの類似度により各動画への重みを決定し、学習画像及びMemory動画のラベルの重み付き和を出力ラベルとする。

Item3Image

新規性・結果・なぜ通ったか?

UCF101をMemory動画として、WEB101, VOC, DIFF20の3つの画像データセットに対する行動予測を実施。いずれのデータセットに関しても、従来手法と比べ提案手法が最も精度が高い(WEB101 35.4%, VOC 42.2%, DIFF20 60.2%)結果が得られた。

コメント・リンク集

アメフトに類似するMemory動画がバンドマーチングなのはなぜ?

[#179]
2018.7.29 01:46:05
Attend and Interact: Higher-Order Object Interactions for Video Understanding
Chih-Yao Ma, Asim Kadav, Iain Melvin, Zsolt Kira, Ghassan AIRegib, Hans Peter Graf
CVPR2018

概要

動画認識のために物体同士のinteractionを表現する方法を提案した。画像中の物体同士の関係を記述する方法は多く提案されているが、動画の場合全フレームに適用してしまうと情報量が多すぎて現実的ではない。 そこで動画に写っている物体同士の関係を高次な特徴として取得することで動画認識に利用する。 動画の各フレームから物体認識によりROIを取得し、K個のMulti Layer Perceptronに画像特徴とLSTMの過去の出力を入力する。 得られた各特徴をLSTMに入力することで物体同士の関係を表すattentionを得る。

Item3Image

新規性・結果・なぜ通ったか?

論文中ではAction Recognitionとキャプショニングの2つのタスクを提案した。Kineticsを用いたAction Recognitionは、既存手法(1FPSにサンプリングした)よりもTop1, 5共に提案手法の方が精度が高い。 キャプショニングはMETEOR, ROUGE-L, CIDEr-D, BLEU@Nの4つのデータセットで実験をし、Validation setの精度は向上したがTest setの精度が高いLSTM-A3には劣る部分がある。

コメント・リンク集

[#180]
2018.7.29 00:48:08
Pulling Actions out of Context: Explicit Separation for Effective Combination
Yang Wang, Minh Hoai
CVPR2018

概要

動画中からコンテキスト情報を取り除き動作そのものから行動を推定する手法を提案。行動認識において、背景などのコンテキスト情報は識別のための重要な手がかりである。 しかし、学習データが似たようなコンテキストのものを多く含んでしまうと、実際には動作が違うにもかかわらず背景などによって異なる動作を認識してしまう。 そこで動画を行動とコンテキストに分解し、行動のみから識別を行う。 行動とコンテキストそれぞれのラベルをつけた学習データを用意するのは困難なため、同じ動画からアクションを含む部分(action sample)と含まない部分(conjugate sample)を考える。 ネットワークとして行動に関する特徴とコンテキストに関する特徴を抽出するものを考える。 行動特徴に関しては、conjugate sampleには注目のアクションを含まないため2つのsampleから抽出した特徴が類似しないように学習する。 一方でcontext sampleに関しては2つのsampleは背景などを共有しているため類似するように学習する。 これに加えてaction sampleから得られる2つの特徴を用いた行動識別を考え、classification lossとする。

Item3Image

新規性・結果・なぜ通ったか?

ActionThread datasetで実験し、13の行動のうち10の行動が提案手法のprecisionが最も高かった。UCF101, Hollywood2を用いてconjugate sampleをaction sampleの隣接するセグメントにとして行った実験も提案手法の精度がベースラインを上回った。

コメント・リンク集

[#181]
2018.7.28 23:42:55
Temporal Deformable Residual Networks for Action Segmentation in Videos
Peng Lei and Sinisa Todorovic
CVPR2018

概要

action segmentationのためのネットワーク、Temporal Deformable Residual Networks(TDRN)を提案した。動画の各フレームからCNNにより抽出した特徴を入力とし、two-streamの構造で特徴を処理していく。 Temporal Residual Streamは、動画のfull scaleのコンテキスト情報を解析する。 Temporal Pooling Streamは、時間方向のPooling, Unpoolingを複数回施すことにより時間方向に関して様々なスケールのコンテキスト情報を解析する。

Item3Image

新規性・結果・なぜ通ったか?

従来のネットワークは1つのstreamで処理するのに対して提案手法は2つのstreamで処理する。さらに2つのstreamは独立してるのではなくTemporal Pooling Streamに逐次Temporal Residual Streamから得られた特徴を入力していく。 50Saladas, GTEA, JIGSAWSの3つの動画データセットで評価し、F1, Edit score, Accuracyの3つの指標いずれも従来手法よりも向上した。

コメント・リンク集

[#182]
2018.7.28 15:13:38
Representing and Learning High Dimensional Data with the Optimal Transport Map from a Probabilistic Viewpoint
Serim Park, Matthew Thorpe
CVPR2018

概要

Kantorovich-Wasserstein metricに基づいて高次元データを微分同相写像により表現する手法を提案した。K-meansによりクラスタリングされたK個の接平面毎にテンプレートとなるベクトルをprobablistic PCAにより学習する。

Item3Image

新規性・結果・なぜ通ったか?

MNIST, ADNI PET, NUCLEIの3つのデータセットにより評価。少ない学習データから提案手法によりデータ数を増やし識別タスクの精度を上げることに成功した。 確率モデルを考えるためBayesian Classificationを可能とし、Logistic Regressionより精度が高いことを確認した。

コメント・リンク集

The数学という感じの論文

[#183]
2018.7.28 17:57:59
Consensus Maximization for Semantic Region Correspondences
Pablo Speciale, Danda P. Paudel, Martin R. Oswald, Hayko Riemenschneider, Luc V. Gool, Marc Pollefeys
CVPR2018

概要

DayとNight、OutdoorとIndoorなど2種類の3次元モデルのregistrationをする手法を提案した。入力として3次元のsemantic labelを考え、各ラベル領域の点郡を楕円によって近似する。 このとき、点郡から得られるConvex Hullの内側の楕円Inner Ellipsoidと外側の楕円Outer Ellipsoidを考える。 2つの3次元モデルsourceとtargetの楕円をそれぞれInnerとOuterと考え、InnerがOuterの内部に存在する場合をラベル同士が対応していると考える。 この対応してる楕円の数が最大になるような変換を考えることでモデル間のregistrationを実現する。

Item3Image

新規性・結果・なぜ通ったか?

合成データのテストでは、楕円数が少ないときは1秒以下で計算が可能であり、多い時でも従来手法よりもoutlier ratioが70%程度までは早い計算が可能である。精度に関してもICPよりRMSEが小さいことを確認した。 リアルデータのテストではrotation errorは最大で3°以下、translation errorとscale errorは3%以下であった。 計算時間はおよそ2から5分程度である。 何故Analyzing Humansのセッションなのだろうか?

コメント・リンク集

[#184]
2018.7.28 22:41:15
3D Registration of Curves and Surfaces using Local Differential Information
Carolina Raposo and Joao P. Barreto
CVPR2018

概要

3次元の曲線を3次元の表面にregistrationするための手法を提案した。曲線(表面)上の点を、点に加え微分情報を表すvector(法線もしくは接平面)のpoint+vector(2-tuplesと呼ぶ)と考える。 2点の2-tuplesを考え、4つのパラメータにより表現して対応曲線と表面上の点が対応しているかの判定を行う。

Item3Image

新規性・結果・なぜ通ったか?

ノイズがある場合、ない場合どちらにおいても、元のデータよりも点の数が減っていると従来手法は精度が下がるのに対して提案手法は点の数が少なくなっても精度が下がりにくい。計算時間は、オフラインのプロセスが0.3~1.9sであり、オンラインのプロセスは10^0から10^-1のオーダーで計算できる。 curve vs curveやsurface vs surfaceのregistrationにも発展させることが可能である。

コメント・リンク集

[#185]
2018.7.28 21:34:35
Memory Matching Networks for One-Shot Image Recognition
Qi Cai, Yingwei Pan, Ting Yao, Chenggang Yan, and Tao Mei
CVPR 2018
425
Yusuke Okimoto

概要

One-shot learningでよく用いられる評価時の設定(C-way k-shot, Cカテゴリで各カテゴリk枚の画像を教師に,入力画像のカテゴリを推定する)と同じ条件で学習を行うため,Memory Networkとbi-LSTMを用いたMemory Matching Networks(MM-Net)の提案. 学習時,学習データから数カテゴリ・カテゴリ毎数枚の画像が教師データとして選択され(support set).embeddingされたrepresentationがmemoryに書き込まれる. 入力画像のカテゴリ推定は,メモリから読み出した各教師画像のrepresentationと,入力画像から得たrepresentationの対応(matching)を取って行う. この際,入力画像からrepresentationを得るCNNのフィルタのパラメータは,メモリから読み出した教師画像のrepresentationの列からbi-LSTMで推定する. 評価時も,学習データからsupport setを選択する操作を除いて,学習時と同じ手順で行う. Omniglotの多くの条件でSOTA,miniImageNetにおいてもSOTA.

overview

新規性・結果・なぜ通ったか?

  • Memory Networkとbi-LSTMを上手く用いることで,one-shot learningにおいて,学習時と評価時とを同じ手順で行うことを実現
  • One-shot learningで最もよく使われるOmniglot datasetでは98.95%から99.28%のaccuracyを達成.また,miniImageNetでは49.21%から53.57%のaccuracyを達成.

コメント・リンク集

  • ネットワーク構造,学習手順ともに相当複雑なので,実際に実装して学習の様子を見てみたいところ
  • 論文
[#186]
2018.7.28 22:11:44
Learning Dual Convolutional Neural Networks for Low-Level Vision
Jinshan Pan, Sifei Liu, Deqing Sun, Jiawei Zhang, Yang Liu, Jimmy Ren, Zechao Li, Jinhui Tang, Huchuan Lu, Yu-Wing Tai, Ming-Hsuan Yang
CVPR2018
Kazushige Okayasu

概要

・ 超解像やノイズ除去などのLow-level VisionのためのDualCNNの提案・ DualCNNでは全体の構造の推定,細部の推定をそれぞれ行い超解像やノイズ除去などのタスクに応じた定式化を行い画像の生成を行う

Learning_Dual_Convolutional_Neural_Networks_for_Low-Level_Vision

新規性・結果・なぜ通ったか?

・従来の超解像やノイズ除去はそれぞれタスクに特化したアーキテクチャが考案されていたが,本手法では1つのネットワークで最先端の手法と同等の精度を実現

コメント・リンク集

[#187]
2018.7.27 21:30:49
Towards Dense Object Tracking in a 2D Honeybee Hive
Katarzyna Bozek, Laetitia Hebert, Alexander S. Mikheyev, Greg J. Stephens
CVPR 2018
Takahiro Itazuri

概要

密集した物体を追跡するタスクを行うため、蜂の巣を撮影し、映像中の蜂についてそれぞれの位置と方向がラベル付けされたデータセットを構築したのち、CNNで追跡するタスクを行った論文。実験の結果、人間と同等の精度で密集した蜂を追跡することに成功した。

手法・新規性

セグメンテーションを行うU-Netの構造と類似しているが、ネットワークサイズを94%削減したネットワークに対して、物体の同定と向いている方向に関する損失関数を設計した。向いている方向の精度を向上させるため、再帰的なフレームワークを導入することで人間と同等の精度を達成した。

[#188]
2018.7.28 15:23:37
Low-Shot Learning With Imprinted Weights
Hang Qi, Matthew Brown, David G. Lowe
CVPR 2018
Takahiro Itazuri

概要

クラス分類タスクに対してLow-Shot Learningを行うためのWeight Imprintingという技術を提案した論文。Low-Shot Learningは予め十分な量のデータが与えられて学習した後に、データ数が非常に少ない分類すべき新しいクラスが与えられ、その上でそれらを分類するタスクである。Weight Imprintingはすでに学習したクラスの部分に変更を加えないため、学習コストが少なく、少ないデータ数で学習可能である。

手法・新規性

Weight Imprintingはクラス分類器に適用する手法である。通常のCNNによるクラス分類器と異なる点は、畳み込み層から得られた特徴量を正規化する点と、バイアス項のない全結合層である点である。バイアス項がないため、重み係数は正規化された特徴量のテンプレートとして機能する。したがって、分類すべき新しいクラスが与えられたときに、その正規化された特徴量をそのまま重み係数とすることができる。複数のサンプルが与えられた場合は平均を計算して、重み係数とする。Weight Imprintingはテンプレートとして機能する重み係数との内積をが最大となるクラスを推定結果とするため、Nearest Neightborと同等の機能を持っている。

コメント・リンク集

[#189]
2018.7.28 20:11:04
Latent RANSAC
Simon Korman, Roee Litman
CVPR 2018
Takahiro Itazuri

概要

データサイズに依存せず、RANSACを定数時間で行えるようにした論文。RANSACのボトルネックはサンプリングした仮説を検証するステップにあるため、従来その検証を高速化する手法が提案されてきたが、提案手法は検証を行う前に潜在空間でフィルタリングを行うことで妥当な仮説のみを検証することで高速化を行った。

新規性・結果・なぜ通ったか?

従来のRANSACでは全ての仮説を検証していたが、提案手法ではそれを高速にフィルタリングする。このフィルタリングのプロセスは、まず潜在空間上にパラメータ化し、それに対してRandom Grid Hashingを用いて、現在の仮説がそれ以前に生成された仮設と衝突するか否かを検証することで行われる。この検証前のプロセスの改良に伴い、それに適した探索を終了する基準も提案した。

コメント・リンク集

[#190]
2018.7.28 14:49:01
LAMV: Learning to Align and Match Videos With Kernelized Temporal Layers
Lorenzo Baraldi, Matthijs Douze, Rita Cucchiara, Hervé Jégou
CVPR 2018
Takahiro Itazuri

概要

ニューラルネットワークにおけるTemporal Match Kernelを再考し、動画の比較や位置合わせができる学習可能なTemporal Layerを用いた手法(LAMV:Learnable to Align and Match Videos)を提案した論文。Video Alignment、Cody Detection、Event RetrievalのタスクでSoTAを実現した。

手法・新規性

同じネットワークを通して得られた特徴量を比較するという意味では、LAMVはSiamese Networkと類似したアプローチである。Temporal Match Kernelを微分可能なレイヤーとすることでニューラルネットワークの導入する。損失関数はベースとなる動画と重複部分を持つ動画と重複部分を持たない動画に対してTriplet Lossを取る。

コメント・リンク集

[#191]
2018.7.28 19:34:20
Kernelized Subspace Pooling for Deep Local Descriptors
Xing Wei, Yue Zhang, Yihong Gong, Nanning Zheng
CVPR 2018
Takahiro Itazuri

概要

CNNの特徴量表現の識別性能を向上させるため、幾何学的変形に不変なプーリング手法であるSubspace Poolingを提案した論文。さらに精度を向上させるため、Marginal Triplet Lossにカーネル法を適用し、Bilinear Poolingより良い精度を少ないメモリ容量で実現した。

手法・新規性

Subspace Poolingは特徴量マップを列成分に並べた行列に対してSVDによって次元圧縮を行う。この方法は、行列の行成分の順列(位置に関する入れ替え)に対して不変である。Patch Matchingのような2点距離を測るようなタスクに対しては、Subspace Poolingで得られた特徴量をガウシアンカーネルを用いたカーネル法を適用することができ、これによりさらに精度を向上させた。

コメント・リンク集

[#192]
2018.7.28 16:38:21
A Two-Step Disentanglement Method
Naama Hadad, Lior Wolf, Moni Shahar
CVPR 2018
Takahiro Itazuri

概要

Disentanglementタスクを敵対的ネットワークの構造を利用して行った論文。Disentanglementとは要因を分解するようなタスクであり、手書き文字であれば何の文字が書かれているかという情報と書かれている文字のスタイルを分離するようなタスクである。提案手法は最初に正解ラベルを与えられるようなタスクを学習させた後、それ以外の要素を抽出するようにもう一つのネットワークを学習させることでこれを実現した。実験では、分離した2つの要因を補間したり、掛け合わせたりする検証と2つの要因に相関が無くなっているかを確認するための検索タスクを行った。

手法・新規性

まず初めにネットワークSを正解ラベルの存在するクラス分類のタスクで学習させる。次にSとは異なるネットワークZを学習するのだが、SのエンコーダとZのエンコーダから得られた特徴量からReconstructionするように学習するブランチと、Zのエンコーダから得られた特徴量からできるだけクラス分類の精度が下がるように学習するブランチで学習する。特にクラス分類の精度を下げるように学習する方は、クラス分類に必要な情報をできるだけ忘れるようになっており、Disentanglementのタスクに効いている。

コメント・リンク集

[#193]
2018.7.28 17:13:40
Mining Point Cloud Local Structures by Kernel Correlation and Graph Pooling
Yiru Shen et al.
CVPR 2018
Yoshihiro Fukuhara

概要

PointNetでは考慮出来ていない, PointCloud の局所的な構造を抽出するために, 新しい2つの演算 (kernel correlation と graph-based pooling) を提案. classification と segmentation のタスクで行った評価実験では PointNet++ と同等以上の結果をより少ないパラメータ数で達成した.

fukuhara-Mining_Point_Cloud_Local_Structures_by_Kernel_Correlation_and_Graph Pooling.png

新規性・結果・なぜ通ったか?

  • PointNetでは考慮出来ていない, PointCloud の局所的な構造を抽出するための新しい2つの演算を提案
  • 1つ目として, 局所的な幾何構造の Affinity を測るための kernel correlation を提案
  • 誤差逆伝播時に kernel point の位置を調整出来るようにすることで, 最も効果的なテンプレートの形状を学習
  • 2つ目として, 局所的な高次元特徴をみるために, graph-based pooling を提案
  • classification と segmentation のタスクで評価実験
  • classification では MVCNN のような画像と volume の両方を入力とする手法と同等の高い精度を達成 (ModelNetを評価に使用)
  • segmentation では PointNet(追加情報として法線も入力)と同等の結果を達成(ShapeNetを評価に使用)
[#194]
2018.7.28 15:59:55
Revisiting Video Saliency: A Large-scale Benchmark and a New Model
Wenguan Wang, Jianbing Shen, Fang Duo, Ming-Ming Cheng and Ali Borji
CVPR 2018
Kodai Nakashima

概要

この研究では以下に示す3つのことを行なった.

  1. 人の視線推定のため,DHF1Kと呼ばれる新しいデータセットを提案.
  2. 動的シーンにおける人の視線推定のため,新たにCNN-LSTMアーキテクチャを提案.
  3. ビデオサリエンシーモデルを分析.

DHF1Kデータセットは,1000個の動画から構成されており,シーン,モーション,アクティビティ等が既存データセットよりも幅広くカバーされている.

Revisiting_Video_Saliency_A_Large-scale_Benchmark_and_a_New_Model.png

新規性・結果・なぜ通ったか?

DHF1K, Hollywood2, UCF sportsデータセットを用いて実験を行なった結果,提案モデルがSOTAモデルよりも優れていることがわかった.評価指標としては,Normalized Scanpath Saliency, Similarity Metric, Linear Correlation Coefficient, AUC-Judd, shuffled AUCを用いた.

コメント・リンク集

[#195]
2018.7.27 17:08:50
Weakly Supervised Phrase Localization with Multi-Scale Anchored Transformer Network
Fang Zhao et al.
CVPR 2018
Yoshihiro Fukuhara

概要

弱教師(画像レベルのアノテーション)によって Textual phrase localization を行う研究. 提案手法では anchor constraint の元で fine-grained な Bounding Box を連続的に探すことが可能. Flickr30K Entities と ReferItGane datasets を用いた評価実験では, 既存の弱教師に基づく手法に大きな差をつけてSOTAを達成した.

fukuhara-Weakly_Supervised_Phrase_Localization_with_Multi-Scale_Anchored_Transformer_Network.png

新規性・結果・なぜ通ったか?

  • 画像レベルのアノテーションから Textual phrase localization を行うネットワーク, Multi-scale Anchored Transformer Network(MATN)を提案
  • 提案手法は region proposal から生成された anchor constraint の元で Affine 変換のパラメータを推定
  • 上記により, fine-grained な Bouding Box を連続的に探すことができる (Bouding Box の候補から選ぶのではなく)
  • ネットワークは, 画像から連想される他のフレーズとの contrastive reconstruction loss と 同じようなフレーズを持つ画像とのtriplet loss によって学習
  • Flickr30K Entities と ReferItGane datasets を用いた評価実験では, GroundeR 等の既存の手法と比較してSOTAを達成. 特に IoU で評価して高い精度を要求される場合は, 提案手法が有効であることを確認.
[#196]
2018.7.28 14:15:55
People, Penguins and Petri Dishes: Adapting Object Counting Models To New Visual Domains And Object Types Without Forgetting
Mark Marsden et al.
CVPR 2018
Yoshihiro Fukuhara

概要

Multi-domain なパッチベースの object counting の新しいモデルを提案. 提案手法は multi-domain に対応するための domain specific modules を内包しており, 全体のパラメータの内 5% を追加で学習するだけで新しい domain に対応することが出来る. 評価実験では, 単一のモデルで異なる domain に対する数え上げのタスクでSOTAを達成した.

fukuhara-People_Penguins_and_Petri_Dishes_Adapting_Object_Counting_Models_To_New_Visual_Domains_And_Object_Types_Without_Forgetting.png

新規性・結果・なぜ通ったか?

  • Multi-domain なパッチベースの object counting の新しいモデルを提案
  • 提案されたネットワークは画像特徴量抽出のための CNN と数え上げのための全結合層のネットワーク(5層)から構成
  • CNN は学習済みの画像分類のネットワークを使用(実験では MobileNet が最も高精度を達成)
  • 各全結合層の後には multi-domain に対応するための domain specific modules が配置されており, 新しい domain の学習はこのモジュールのパラメータ(全体の5%程度)を用いて行う
  • Cell Counting のデータセット Dublin Cell Counting (DCC) dataset を公開
  • 単一のモデルで異なる domain に対する数え上げのタスクでSOTAを達成 (Shanghaitech and Penguins Dataset)
[#197]
2018.7.23 1:04:55
SBNet: Sparse Blocks Network for Fast Inference
Mengye Ren, Andrei Pokrovsky, Bin Yang, Raquel Urtasun
CVPR 2018
1957
Kazuki Inoue

概要

オブジェクト画像に対するCNNの計算コストを削減するために、画像の前景に対する離散的なマスクを生成し、convolutionを行うSparse Blocks Networks (SBNet)を提案。従来のCNNでは画像全体に一様にconvolutionの操作を行うため計算コストが高い。また、既存手法では構造的な離散化を行なっていないために、計算コストは小さくなっても実行時間が短くならないという問題点があった。提案手法では多くのオブジェクト画像は周りを背景で囲まれており、一部の領域にオブジェクトが存在するという構造情報に基づいて、前景の可能性が高い領域に対する離散的なマスクを形成する。これを入力テンソルに適用することで小さい計算コストで精度を落とすことなくCNNの学習を行う。

Item3Image

新規性・結果・なぜ通ったか?

  • 様々なスケールのsparsityを使ったマスクにおいて、同様のサイズのカーネルをもつCNNと比較したところ、提案ネットーワークの方が10倍程度速く実行可能。
  • KITTI Bird’s Eye View (BEV) 2017 Benchmarkにおいて、SoTAと同等の精度を3分の1程度の実行時間17.9msで達成。
  • 既存研究とは異なり、提案手法がマスクのsparse度合いに比例してテスト時のスピードが向上していることを示しており、提案手法が真に有効なマスクの離散化を行っていることを主張している。

コメント・リンク集

  • 論文中には所狭しと結果の画像と既存研究との比較を行った表が並べられており、徹底した評価を行っている。
  • 論文
  • Project page
  • GitHub
[#198]
2018.7.28 07:23:43
MX-LSTM: mixing tracklets and vislets to jointly forecast trajectories and head poses
Irtiza Hasan, Francesco Setti, Theodore Tsesmelis, Alessio Del Bue, Fabio Galasso, Marco Cri stani
CVPR 2018
3292
Kazuki Inoue

概要

人間の軌道予測を行う際に、頭部の向き情報を加えたLSTMベースのネットワークMiXing LSTMを提案。事前実験により人間の歩行軌道と頭部の向きが関係することを明らかにした上で、手法を提案。xy平面状の軌道(tracklets)と頭部の向き(vislets)の両方のstreamを考慮する。また、既存手法であるSocial LSTMでは周りの歩行者の軌道を隠れ変数として考慮していたが、提案手法では推定された頭部の向きを中心とした視野角内に存在する歩行者のみを考慮することで精度の向上を図っている。最適化にはd-variate Gaussian parametersを用いた。

Item3Image

新規性・結果・なぜ通ったか?

  • Mean Average Displacement error, Final Average Displacement errorを評価尺度とした。
  • UCY sequences (Zara01、Zara02、UCY)、in the TownCentre datasetの全てにおいてSoTAを達成。
  • 頭部の方向推定についてもSoTAと同等の精度を獲得。
  • 既存のモデルでは速さが小さいほどエラーが大きかったが、提案手法では比較的、速さに依存せずエラーを抑えることができている。

コメント・リンク集

[#199]
2018.7.28 06:22:35
Inferring Light Fields from Shadows
Manel Baradad, Vickie Ye, Adam B. Yedidia, Fredo Durand
CVPR 2018
3977
Kazuki Inoue

概要

直接観測していない四次元light fieldを観測可能な物体によるディフューズ面に投影された二次元平面上の影から推定する手法を提案。既存研究としてtime-of-flightカメラを用いて二次反射光による観測可能な反射と見えていないシーンを含んだ全てのシーンとの関係性と、ありえそうなシーンの構造を事前情報として用いて観測できないシーンのオブジェクト数を数えるnon-line-of-sight (NLoS) imagingをあげているが、この研究ではよりチャレンジングな目的を達成する。提案手法ではNLoSで使用されている二次反射光に加えて、現実のシーンではスペクトルが低周波成分に集中するという情報を用いることで平面上の影から観測不可能な四次元光を推定する。

Item3Image

新規性・結果・なぜ通ったか?

  • CG空間のモデルと現実空間で撮影された影の画像に対して四次元light fieldの推定を行った。
  • GTとの復元された画像とのPSNRで比較。既存研究が存在しないためか、比較は行っていないが、良好な結果が得られた。
  • 観測できる物体として人間と観葉植物で実験しており、観葉植物のような複雑な形状を持っている物体に対しても良好な結果が得られた。

コメント・リンク集

  • かなりチャレンジングな目的を達成した論文!しかし、データが揃ったり、効果的な半教師/教師なし学習が考案されれば、この手の問題は制度だけを求めるならばDNNで解決できる?
  • 論文
[#200]
2018.7.28 05:04:33
Mix and match networks: encoder-decoder alignment for zero-pair image translation
Yaxing Wang, Joost van de Weijer, Luis Herranz
CVPR 2018
3617
Kazuki Inoue

概要

異なるドメイン間の画像変換において、ある一つのドメインとその他のドメイン間の画像変換をトレーニングすることで、テスト時にはトレーニングを行っていないドメイン間の画像変換を行うmix and match networksを提案。提案ネットワークはautoencoderによって構築される。以下ではdepth(D) to semantic segmentation(S)を行うために、RGB(R) to D, R to Sをトレーニングするロス関数を説明する。

  • Rドメイン:R-S、D-R、R-R間で生成された画像に対するL2ノルム、GAN loss
  • D(S)ドメイン:R-D(S)間の変換画像、D(S)ドメインにおけるautoencoderの出力画像、とのそれぞれの入力画像におけるBerhu loss
  • 潜在変数空間:R-S(D)、S(D)-R間のそれぞれの潜在変数のL2ノルム

Item3Image

新規性・結果・なぜ通ったか?

  • SceneNetRGBDで実験。提案手法でRGBとdepth間、RGBとsemantic segmentation間を学習したモデルにおけるdepth-to-segmentationの精度をmIoU、global scoreで比較。
  • ablation studyにより、pooling indicesや各ロス関数の重要性を確認。特にpooling indicesによってmIoUの精度が4%向上。
  • Cycle GAN2xpix2pixよりも高い精度を達成。
  • カラートランスファー、スタイルトランスファーでも質の高い画像を生成できることを確認。

コメント・リンク集

[#201]
2018.7.28 03:56:24
Generative Modeling using the Sliced Wasserstein Distance
Ishan Deshpande, Ziyu Zhang, Alexander Schwing
CVPR 2018
3722
Kazuki Inoue

概要

GANの学習を安定して行うことができるwasserstein distance(WD)から導出されるsliced WDを導入することで、安定したGANの学習方法を提案。一次のデータに対する二次のWDを式(5)に示す。このままでは最適化が難しく、計算コストも大きいが、式(7)、(8)のようにソーティングを行うことで、WDは式(10)のように簡単な数式に置き換えることができる。この式(10)のことをsliced WDと呼ぶ。しかし実際には画像データは一次元ではなく、高次元であるため、random projectionによって画像データを任意の一次元ベクトルに射影することでsliced WDによる学習を行う。

Item3Image

新規性・結果・なぜ通ったか?

  • sliced wasserstein distanceをgeneratorのロス関数として導入。
  • 4つのネットワークが異なるgeneratorに対して、GAN loss、WD、sliced WDを用いてMNISTの学習を行ったところ、sliced WDが安定して質の高い画像を生成することができた。
  • GAN、WGAN、generator+sliced WDのGANにおいてトレーニング時のイテレーションごとのKL-divergenceとsliced WDの値を確認したところ、KL-divergenceは値が増加する一方。sliced WDは値が安定していることを確認。
  • MNIST、Toronto face dataset、CIFAR-10 dataset、CelebA、LSUN bedroomを用いた画像の生成を行った。

コメント・リンク集

[#202]
2018.7.28 02:48:06
Multi-Scale Weighted Nuclear Norm Image Restoration
Noam Yair and Tomer Michaeli
CVPR 2018
3269
Kazuki Inoue

概要

自然画像が持つ類似パッチを利用した、自然画像のデノイジングを行うWNNMを一般の画像の任意のdegradation(ブラー、ピクセルの欠損など)に対するdistortionへ拡張した手法を提案。提案手法では以下のステップを踏んで画像のdistortionを行う

  • 自然画像内の類似パッチを用いたWNNMによってデノイジングを行う。
  • 自然画像には小さなパッチの模様は様々なスケールで画像に内に存在するという現象を用いて、画像の超解像とブラーのカーネルサイズを推定する。
  • 最後に、expected patch log-likelihood (EPLL)を用いて全てのパッチに対する正則化を行う。最後に行う正則化はデータの種類に依存しない操作のため、任意のなdegradationに対応することが可能となる。

Item3Image

新規性・結果・なぜ通ったか?

  • ガウシアンブラー、uniform blur、ピクセルの欠損(25%, 50%, 75%)の全てに対してSoTAを達成。
  • イテレーションを増やすごとに精度は高くなるが、デブラーリングに関しては1.6分かけた1回のイテレーションによってSoTAを達成することができる。.
  • PSNRを評価尺度とし、Set5、BSD100 datasetで検証

コメント・リンク集

[#203]
2018.7.27 23:52:51
Image Super-Resolution via Dual-State Recurrent Networks
Wei Han, Shiyu Chang, Ding Liu, Mo Yu, Michael Witbrock, Thomas S. Huang
CVPR 2018
3225
Kazuki Inoue

概要

画像の超解像を行うために、高解像度(HR)と低解像度(LR)の2つのstateを持ったRNNベースのモデルであるDual-State Recurrent Network (DSRN)を提案。画像の超解像はCNNで行われることが多いが、パラメタ数が多く、これを削減するためにRNNに着目。RNNを用いた画像の超解像を行うDRRNと異なる点として、提案ネットワークではbottom stateでLRを、top stateでHRをキャプチャし、 delayed feedback mechanismを用いることでLRとHRの双方向のマッピングを行う。

Item3Image

新規性・結果・なぜ通ったか?

  • パラメタ数、精度的にDRRNに劣っているが、DRRNはトレーニングに画像が291種類必要なのに対して、提案手法では91枚のみでほぼ同等の精度となるため、提案手法の有効性を主張。
  • Set5、Set14、B100、Urban100、DIV2K dataset of the NTIRE SR 2017 challengeで検証。PSNR、SSIM、IFCを評価尺度とした。スケールは2、3、4倍を比較。入力は128x128。

コメント・リンク集

[#204]
2018.7.27 23:41:04
Weakly Supervised Action Localization by Sparse Temporal Pooling Network
Phuc Nguyen, Ting Liu, Gautam Prasad, Bohyung Han
CVPR 2018
2013
Kazuki Inoue

概要

トリミングがされておらず、かつvideo-levelのactionラベル(動画内に存在するactionのラベル)を用いた弱教師学習によって、時系列上のaction localizationを行うSparse Temporal Pooling Network (STPN)を提案。提案手法では一定間隔で取り出された動画のセグメントに対してactionのclassificationロスと、各セグメントごとの、クラスに関わらず、actionのsparsityをL1ロスを用いて考慮することで、actionが存在し得るセグメントをプールしていくことでネットワークのトレーニングを行う。上記をRGBの入力とoptical-flowの入力を用いたtwo-streamで行う。

Item3Image

新規性・結果・なぜ通ったか?

  • THUMOS14 、ActivityNet1.3 datasetにおいて、弱教師学習の手法においてSoTA。また、いくつかの教師あり学習と同等の精度を達成。
  • 評価尺度はlocalizationのIoUの閾値におけるmAP

コメント・リンク集

  • video-levelのアノテーションはトレーニング時のみ必要であり、テスト時にはあり得そうなactionのラベルから推定してくれることも実用性が高い。
  • 論文
  • Supplementary material
[#205]
2018.7.27 18:45:01
Classifier Learning with Prior Probabilities for Facial Action Unit Recognition
Yong Zhang, Weiming Dong, Bao-Gang Hu, Qiang Ji
CVPR 2018
2896
Kazuki Inoue

概要

facial action units (AUs)のアノテーションを用いず、顔画像から得られるAUsの確率分布を用いてAUsの識別を行う手法を提案。AUsは表情や個人に依存するため、専門家がアノテーションしなければならずデータセットの構築が難しい。提案手法では、解剖学てきな知見から得られるAUsの確率分布と表情に関する研究から得られるAUsの確率分布を使用し、それぞれのAUsの識別器を同時に学習する手法を提案。

Item3Image

新規性・結果・なぜ通ったか?

  • CK+ database、MMI database、BP4D database、Emotion- Net databaseで実験。
  • F値を評価尺度としてAUのアノテーションを使用していないSoTAの手法であるHTLよりも高い精度を達成。
  • 顔のランドーマークで使用する特徴量や、最適化の際のロス関数の違いによる精度の比較を行なっており、いずれの設定でもSoTA。

コメント・リンク集

[#206]
2018.7.27 00:13:05
Deep Mutual Learning
Ying Zhang, Tao Xiang, Timothy M. Hospedales, Huchuan Lu
CVPR 2018
304
Kazuki Inoue

概要

複数のネットワークを同時並行で学習し、お互いの情報を共有することで最終的な精度を向上させるDeep Mutual Learning(DML)を提案。論文中では特に識別タスクを扱っている。それぞれのネットワークを通常の識別に関する教師あり学習のロスと、他のネットワークによる推定ラベルの確率分布を事前情報としたKL divergenceをロスとして用いることで学習を行なっていく。比較手法としてネットワークの蒸留をあげており、上流ではteacherネットワークはstudentネットワークよりも小さくなければいけないが、DMLでは小さなネットワークだけで学習を行うことでき、ネットワークのサイズにとらわれない枠組みとなっている。

Item3Image

新規性・結果・なぜ通ったか?

  • 蒸留を行なった場合よりも高い精度を達成。
  • 単体で学習を行うよりもDMLによって学習した場合の方が高い精度を達成。パラメタ数の多いWRN-28-10でも実験しており、DMLを行なったほうが0.5%程度精度が高くなっている。
  • 同時に学習するネットワークの数が多いほど、最終的な精度も向上。
  • ImageNetで事前学習を使用した方がさらに高い結果。人物認証ではMobileNet+DML+事前学習で精度が50.15%から70.51%まで向上。
  • CIFAR-100を持ちいたカテゴリ識別、Market1501における人物認識で検証

コメント・リンク集

  • 論文ではネットワークの蒸留などの転移学習と比較しているが、どちらかというとメタ学習に近い?
  • 1 introductionにて、「提案手法が既存の転移学習に比べて良くなる理由ははっきりとはわかっていない。しかしあり得そうなのは、ネットワークごとに初期条件が異なるため、すぐにラベルの識別を行うことは可能になるがacc@top-2のカテゴリはネットワークごとに異なる問題があるが、DMLではこれを防ぐことができるため、既存の手法に優った」と述べている。
  • 論文
[#207]
2018.7.26 23:18:20
Weakly Supervised Learning of Single-Cell Feature Embeddings
Juan C. Caicedo, Claire McQuin, Allen Goodman, Shantanu Singh
CVPR 2018
4238
Kazuki Inoue

概要

顕微鏡で撮影された細胞に対して画像的な見た目と生物学的な関係性を推定するために、CNNに対して半教師学習を行う。論文中に行われる実験では変異肺がん細胞の画像から遺伝子を推定するために、化学処理された変異肺がん細胞の画像を用いた化学処理のラベル推定をCNNで学習する。しかし化学処理は対象となる細胞が異なる場合には反応しないこともあるなど、ラベルとしてはかなりノイジーである。そこでRNN-based regularizationとmixup regularizationという2つの正則化を行う。RNN-based regularizationでは同じ化学処理や同じ細胞からは似たような特徴量を得るように学習し、mixup regularizationでは2つの画像をアルファブレンディングした時に、そのソース画像の識別とブレンド率の推定を行う。

Item3Image

新規性・結果・なぜ通ったか?

  • 著者らが用意した細胞の画像において、トレーニング中には陽に学習していない遺伝子のID推定において既存手法よりも高い精度を達成。
  • BBBC021データセットにおける、化学処理の識別において既存手法よりも高い精度を達成。
  • ImageNetでプリトレインしたモデルと、ハンドクラフト特徴量による手法と比較。

コメント・リンク集

  • データを用意できれば勝ちな研究分野な気がする。手法として完全に新しいのはRNN-based regularizationのようであるが、精度が出ていればCVPR的にはOK?
  • 論文
  • Supplementary material
[#209]
2018.7.25 17:26:37
Deep Adversarial Subspace Clustering
Pan Zhou, Yunqing Hou, Jiashi Feng
CVPR 2018
2635
Kazuki Inoue

概要

サブスペースクラスタリングを敵対的学習によって行うdeep adversarial subspace clustering (DASC) modelを提案。多くの既存手法ではハンドクラフトな特徴量を使用していたが、提案手法では初めて敵対的学習を教師無しの手法を提案。ネットワークは特徴量を抽出するencoder、画像のリコンストラクションを行うdecoder、sampling layerから得られたfakeデータと実際のデータ(real)を識別するdiscriminatorからなる。discriminatorはデータの識別を行う際に、realを超平面状に射影するような行列を作成しつつ、realは射影するエネルギーが小さいが、fakeは射影するエネルギーが大きいという過程のもとデータを識別。より良い射影行列を作成することでサブスペースクラスタリングを行う。

Item3Image

新規性・結果・なぜ通ったか?

  • (MNIST, {ORL, YaleB, Umist}, COIL-20/100) を用いた手書き(文字認識、人物、物体)のクラスタリングにおいてSoTA。
  • accuracy, normalized mutual information、purityを評価尺度とした。

コメント・リンク集

  • サブスペースクラスタリングとは、クラスタが違った部分空間に存在すると仮定し,部分空間とクラスタを同時に見つけるクラスタリング手法。
  • クラスタ毎に超平面への射影可能、という過程がかなり強い効果を発揮している。クラスタ数をさらに増やすと超平面ではクラスタ境界が曖昧になって精度は落ちる?
  • 論文
[#210]
2018.7.25 14:47:11
MoNet: Moments Embedding Network
Mengran Gou, Fei Xiong, Octavia Camps, Mario Sznaier
CVPR 2018
Takahiro Itazuri

概要

Bilinear Poolingは2次の統計量を用いているため非常に良い精度を出す一方で、出力の特徴量の次元数が膨大になるといった問題点がある。本論文はBilinear Poolingの次元数をコンパクトにしたネットワークMoNetを提案した。MoNetはSoTAと同等の精度を保ちながら、特徴量の次元を4%にまで落とすことに成功した。

MoNet

手法・新規性

Bilinear Poolingの次元数を減らすためCompact Poolingが提案されたが、通常のBilinear Poolingをさらに拡張したiBCNNやG2DeNetに対しては、Gaussian EmbeddingとBlinear Poolingが絡んでいること点と行列の正規化が必要な点から適用することができない。そこでMoment Matrixを用いてGaussian EmbeddingとBilinear Poolingを別にし、sub-matrix square root layerを追加してBilinear Poolingの前に正規化を行うことでCompact Poolingを適用可能にした。

コメント・リンク集

[#211]
2018.7.27 22:13:12
Viewpoint-aware Video Summarization
Atsushi Kanehira, Luc Van Gool, Yoshitaka Ushiku, Tatsuya Harada
CVPR 2018
Takahiro Itazuri

概要

そもそも要約動画として1つの最適解が存在するわけではないことを主張し、それぞれの視点に合わせて要約動画を行った研究。本研究では、動画間の類似度に着目し、フィッシャー判別から着想を得て、inner-summary variance、inner-group variance、between-group varianceに関して最適化を行うことで要約映像を生成した。また評価のためのデータセットを構築し、質的評価・量的評価を行った。

手法・新規性

要約動画として満たすべき条件として(1)要約動画内で分散があること、(2)同一グループ内の動画を代表することができること、(3)他のグループの動画と識別できることを挙げている。これらに対応する要素がフィッシャー判別から着想を得たinner-summary variance、inner-group variance、between-group varainceである。これらをC3Dで抽出した特徴量に対して計算し、最適化することで解を得る。

コメント・リンク集

[#212]
2018.7.27 19:04:45
Recovering Realistic Texture in Image Super-Resolution by Deep Spatial Feature Transform
Xintao Wang, Ke Yu, Chao Dong, Chen Change Loy
CVPR 2018
Takahiro Itazuri

概要

高解像度化タスクはill-posed problemであるため取りうる解が複数あり、GANを用いてもリアルなテクスチャを生成できていないが、特定のカテゴリに特化して学習させたネットワークを用いればリアルなテクスチャが生成できるという事実から、セマンティックセグメンテーションを利用した高解像度化に着目した。しかし、すべてのカテゴリごとに学習したネットワークを用意することは非現実的であるため、Spatial Feature Transform(SFT)層を導入することで、単一のネットワークでカテゴリ情報を考慮した高解像度化を行った。

SFT-GAN

手法・新規性

SFT層は特徴量をアフィン変換をする層である。そのアフィン変換はスケールとシフトのパラメータで定義され、これらは各カテゴリごとの確率マップから与えられる。SFT層は従来のネットワークに導入することが可能であり、さらにセマンティックセグメンテーションに限らず、あらゆる事前知識(デプス情報など)に対しても適用可能である。

コメント・リンク集

[#213]
2018.7.27 18:51:06
NISP: Pruning Networks Using Neuron Importance Score Propagation
Ruichi Yu, Ang Li, Chun-Fu Chen, Jui-Hsin Lai, Vlad I. Morariu, Xintong Han, Mingfei Gao, Ching-Yung Lin, Larry S. Davis
CVPR 2018
Takahiro Itazuri

概要

CNNのニューロンの冗長性を軽減するため、分類タスクにおいて分類する直前の層(FRL: Final Response Layer)の復元誤差を最小化するようなPruning(特定のニューロンを削除)するアルゴリズムNeural Importance Score Propagation(NISP)を提案した。如何に精度を落とさず、ネットワークに必要なFLOP数を減らせるかの実験を行い、AlexNetにおいては67.85%のFLOP数を削減したネットワークが1.43%しか精度を落とさないようにすることに成功した。

NISP

手法・新規性

従来手法のほとんどは層ごとに独立して考えるか、次の層までを考慮にいれてPruningをする問題を解いていたが、重要なのは最後の層に与える影響であり、提案手法はそれを直接的に考慮している。提案手法はネットワークのPruning問題を、各ニューロンを削除すべきかいなかの0-1整数計画問題として定式化し、FRLの復元誤差を最小化する最適化問題を解く。実際には、目的関数を解析的に解くことはできないため、最適上限を求める問題に帰着させることで、閉経式で解くことが可能となった。

コメント・リンク集

[#214]
2018.7.27 16:20:51
Matching Adversarial Networks
Geller Mattyus, Raquel Urtasun
CVPR 2018
Takahiro Itazuri

概要

GANで教師あり学習をするタスクにおいて、DiscriminatorにSiamese Networkを適用することで直接教師データを損失関数に導入することが可能なMatching Adversarial Network(MatAN)を提案した。MatANは様々なGANで行う教師あり学習のタスクに適用することが可能であり、実験においてはsemantic segmentation、road network centerline extraction、instance segmentationのタスクに適用し、良い精度を出した。

MatAN

手法・新規性

DiscriminatorをSiamese Networkにする。2枚の画像ペアのうち、1枚はground truthであり、もう1枚はnegative sampleはGeneratorによって生成された画像もしくはground truthに摂動を加えた画像である。学習の方法自体は、通常のGANと同様に、Discriminatorはrealかfakeかを識別できるように学習し、GeneratorはDiscriminatorの識別率を下げるように学習する。

コメント・リンク集

[#215]
2018.7.27 15:52:05
Gaze Prediction in Dynamic 360° Immersive Videos
Yanyu Xu, Yanbing Dong, Junru Wu, Zhengzhong Sun, Zhiru Shi, Jingyi Yu, Shenghua Gao
CVPR 2018
Takahiro Itazuri

概要

動的に映像内容が変化する360°動画における視線推定を行った論文。まず動的に映像内容が変化する360°動画の大規模データセットを構築し、そこから視線推定には過去の視線のパスと映像内容が重要であると分析し、その上でCNNとLSTMを組み合わせて顕著性と過去の視線のパスの両方を考慮した視線推定手法を提案した。

手法・新規性

論文で対象としている動画と従来研究が使用している動画の違いとして、1) 通常の映像では受動的に動画を視聴しがちであるが、360°動画では能動的に視聴しようとする点。2) 従来の360°動画は静的な映像内容のものを扱っていた点。3) 提案手法ではHMD内に搭載可能な7invensu a-Glassを用いており、頭部の動きに加えて注視点の情報を取得している点を挙げている。データセットには音声情報もついており、360°動画における音声情報を考慮した研究も今後行っていくとのこと。

コメント・リンク集

[#216]
2018.7.27 16:51:52
Deep Back-Projection Networks for Super-Resolution
Muhammad Haris, Gregory Shakhnarovich, Norimichi Ukita
CVPR 2018
Takahiro Itazuri

概要

高解像のタスクに対して、アップサンプリングとダウンサンプリングを交互に繰り返す構造を持つDeep Back-Projection Networks(DBPN)を提案した。従来のネットワークはアップサンプリングを行う方向(feed-forward connection)しか考えておらず、それをダウンサンプリングする方向(feedback connection)を考えていなかったため、大きなスケール変化に対応できていなかった。本論文は1991年のCVGIPで発表された論文に発想を得て、アップサンプリングとダウンサンプリングを交互に繰り返す構造を取り、SoTAを達成した。

DBPN

手法・新規性

DBPNはup-projection unitとdown-projection unitからなる。up-projection unitの手順は、1) 一つ前の状態の低解像度画像(LR)をスケールアップし高解像度画像(HR)を生成し、2) 次にHRをスケールダウンさせたLRを得る、3) スケールアップとスケールダウンを経て得られたLRと入力のLRの差分を計算した後、4) その差分を元に再度スケールアップをすることでHRを得る、5) 最後にこのHRと最初にスケールアップで得られたHRを足し合わせたものを最終的なHRの出力とする。down-projection unitはこの反対の操作を行う。

コメント・リンク集

[#217]
2018.7.27 18:11:21
Generative Adversarial Image Synthesis with Decision Tree Latent Controller
T.Kaneko, K.Hiramatsu and K.Kashino
CVPR2018
Kota Yoshida

概要

属性を階層的に選びながら画像生成できるDTLC-GANを提案.階層的な構造を課すために,我々はDTLCと呼ばれる新しいアーキテクチャを生成器入力に組み込む.DTLCとは,教師データなしまたは,最上位層の教師データだけで改装の表現を自動で発見できるアルゴリズムである.DTLC-GANをMNIST,CIFAR-10,Tiny ImageNet,3D Faces,CelebAなどのさまざまなデータセットで画像生成や画像検索のタスクの有効性を確認した.

Image

新規性・結果・なぜ通ったか?

  • アーキテクチャを階層的に使用することにより、上位層の階層に応じて下位層のコードを選択的に使用する潜在空間が得られる.
  • HCMIと呼ばれる正則化により,単一のDTLC-GANモデルのみを使用して、階層的に絡み合わない表現を学習することが可能になる.
  • DTANと呼ばれる新しいアーキテクチャをGANに組み込み、階層的な構造を作成する.

コメント・リンク集

  • 画像検索などの他のタスクにも応用できそう
  • Paper
[#218]
2018.7.27 15:40:38
SoS-RSC: A Sum-of-Squares Polynomial Approach to Robustifying Subspace Clustering Algorithms
Mario Sznaier and Octavia Camps
CVPR2018
Ryota Suzuki

概要

アウトライヤのあるデータについての部分空間クラスタリングでは,正則化最適化による従来法によればデータサイズに対して計算複雑性が多項式スケールで伸びる. また,手動チューニングが必要.

本稿では,データから直に計算できる二乗和の多項式の評価に基づく外れ値除去アルゴリズムを提案する. 計算量がデータサイズに依存しない特異値分解は2回だけ求めればよく,効率的に計算できる. インライヤ・アウトライヤ分類の誤り率を出力する枠組みも提供.

Figure1

新規性・結果・なぜ通ったか?

外れ値除去について,理論的な枠組み,効率的な計算を提供.

種々のデータセットにおいてSoTA性能を確認.その時の計算時間は従来法より10~50倍速い.

コメント・リンク集

定式化については数学的に込み入っているので,手法の理解にはちゃんと読む必要がありそう.

[#219]
2018.7.27 12:34:31
BPGrad: Towards Global Optimality in Deep Learning via Branch and Pruning
Z. Zhang, Y. Wu, G. Wang
CVPR2018
Ryota Suzuki

概要

深層学習において大域最適解に導くソルバー(BPGrad)の提案.Branch & Pruning(分枝限定法)を導入している.

リプシッツ連続性の概念で説明している.DLの関数がリプシッツ連続になっている,あるいはリプシッツ連続になるように 近似して滑らかにすると,小さくて急峻な崖に陥るのを防げると説明している. リプシッツ連続を考えると,大域最適解の上限・下限がうかがい知れ,かつ 滑らかにできてよいらしい.

Branch(枝分け):次に移動すべき勾配方向を提案,Pruning(枝刈り): 理論的に大域的最適解が無いと分かっている領域には行かない.

Figure1

新規性・結果・なぜ通ったか?

理論的に大域最適解にアプローチする手法として初出,と主張.(本当?)

認識,検出,セグメンテーションのタスクにおいて,従来のソルバーより性能が良いことを確認.

コメント・リンク集

リプシッツ連続:関数の勾配の大きさが常に一定以下になっていること.すなわち,|Δf|/|Δx|<=k

[#220]
2018.7.27 10:53:50
Beyond the Pixel-Wise Loss for Topology-Aware Delineation
A. Mosinska, P. Marquez-Neila, M. Kozinski and P. Fua
CVPR2018
Ryota Suzuki

概要

画像中の(曲)線の構造理解(delineation)において,常習的に用いられているピクセルワイズのロス(バイナリクロスエントロピー)では行われていない, 穴あきや隣接線の数などの,トポロジカルな構造を考慮したロス(Topology-aware loss)を提案する. Imagenetで学習済みのVGG19を特徴記述子に使い,それと推定されたdelineationの差を見る. このペナルティ項をバイナリクロスエントロピーに追加してロス関数を設計する.

また,計算の複雑さを維持したまま,同モデルにおいて反復的に適用するリファインメントのパイプラインも提案.

Figure1

新規性・結果・なぜ通ったか?

いくつかのケースではバイナリクロスエントロピーの2倍の性能が出せた.顕微鏡画像から空撮画像までの幅広いレンジにおいてSoTA性能が出る.

確かにトポロジカルな構造を見るべきだろうと思うが,その特徴はImagenetで学習済みなのでそれを使うというのが注目すべきと感じる.

コメント・リンク集

[#221]
2018.7.26 18:26:16
Universal Denoising Networks : A Novel CNN Architecture for Image Denoising
Stamatios Lefkimmiatis
CVPR2018

概要

画像のノイズ除去のためのネットワークを提案。ネットワークはlocalな情報を見るものとnon-localな情報を見るものの2つを提案した。 ネットワークの評価関数としてはPSNRを用いた。

Item3Image

新規性・結果・なぜ通ったか?

従来手法と異なり、ノイズのレベルに依らない手法である。CNNベースの従来手法よりも浅いネットワークにもかかわらず、PSNRの平均は最も高いという結果が得られた。

コメント・リンク集

[#222]
2018.7.27 02:19:29
Exploiting Transitivity for Learning Person Re-identification Models on a Budget
Baoyuan Wu, Weidong Chen, Peng Sun, Wei Liu, Bernard Ghanem, Siwei Lyu
CVPR2018

概要

Person Re-identificationのラベル付けを最小化する手法を提案した。教師有りの手法は最も頑健であるが、カメラの数が増えるにつれてアノテーションの負担が増える。 そこで、少ないアノテーションからアノテーションのないペアの関係を推定することで問題を解決する。 例えば、カメラ1と2、カメラ1と3の間で同一人物と判定されたペアは2と3でも同一人物と推測される。 頂点を人物画像、エッジを同一人物であるかのスコアとしたグラフを考えることでアノテーションの補完を行う。 解くべき問題はNP困難であるため、計算量削減のための手法を2つ提案した。

Item3Image

新規性・結果・なぜ通ったか?

2つの計算量削減手法はいずれも1/10にすることに成功した。WARD,RAID,Market1501の3つのデータセットにて数値評価し、ベースラインよりも少ないラベルでも全てラベルが存在する場合と同等の精度を出せることを確認した。

コメント・リンク集

[#223]
2018.7.27 01:47:51
Tagging like Humans: Diverse and Distinct Image Annotation
Baoyuan Wu, Weidong Chen, Peng Sun, Wei Liu, Bernard Ghanem, Siwei Lyu
CVPR2018

概要

画像に対するアノテーションを自動で生成するdiverse and distinct image annotation(D2IA)を提案した。クラウドソーシングなどで人間の手によってアノテーションをする場合、人によって基準が異なる。 例えば、同じものを対象にしてもある人は教会と具体的にアノテーションするのに対して別の人には建物とより抽象的にアノテーションする。 他にも、ある人は建物の色に着目をするが別の人は写っている人の持ち物に着目する。 このように、人間のアノテーションの特徴を反映したモデルの構築を目指す。 アノテーションの生成はGANベースのモデルにより学習する。 Generatorは画像からアノテーションを出力し、Discriminatorは画像とアノテーションのペアから適切なアノテーションかを判定する。

Item3Image

新規性・結果・なぜ通ったか?

Precision, Recall, F1で評価し、RecallとF1は従来手法と比べ最も良く、Precisionも最も良いものと比べ差が1%以内だった。ユーザースタディにおいても提案手法の方がいいと答えた人の方が多かった。

コメント・リンク集

[#224]
2018.7.27 00:57:27
Learning to Evaluate Image Captioning
Yin Cui, Guandao Yang, Andreas Veit, Xun Huang, Serge Belongie

概要

人間の判断に基づいた新たな画像キャプショニングの評価指標を提案した。画像、正解となるキャプション、生成したキャプションの3つを入力とし、生成キャプションが人間の作ったものであるかを判定することで学習を行う。 これにより評価時にはキャプションに対するスコアを出力する。 また、data augmentationの方法として他の画像のキャプションを使う、単語の一部を並び替える、単語の一部を置き換えるの3つを提案した。

Item3Image

新規性・結果・なぜ通ったか?

従来提案されてきた評価指標と比べ人間の評価と相関が高く、Pearson's correlationが0.9を超えた。(従来のものの最大は0.75程度)

コメント・リンク集

[#225]
2018.7.27 00:11:54
Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models
Jiuxiang Gu, Jianfei Cai, Shafiq Joty, Li Niu, and Gang Wang
CVPR2018

概要

画像(orテキスト)からそれに対応するテキスト(or画像)を検索する手法を提案した。学習の過程はLook, Imagine, Matchの三つのステップに分けられる。 Lookでは、queryとして与えられた画像(orテキスト)から特徴量抽出を行う。 Imagineでは、得られた特徴量からテキスト(or画像)を合成する。 Matchでは、合成したテキスト(or画像)との類似度によってテキスト(or画像)の検索を行う。

Item3Image

新規性・結果・なぜ通ったか?

従来手法では画像とテキストの特徴を共通の空間にマッピングしていたのに対し、それぞれを別に扱うことで画像の詳細を考慮することを可能にした。上位1位、10位のどちらの検索においてもベースラインよりも高い精度での検索を実現した。

コメント・リンク集

[#226]
2018.7.17 18:18:09
Long-Term On-Board Prediction of People in Traffic Scenes under Uncertainty
Apratim Bhattacharyya, Mario Fritz, Bernt Schiele
CVPR2018

概要

車の車載カメラから、人間(歩行者や自転車)の動きを予測する手法を提案した。人間の動きを予測するBayesian Bounding Box Prediction Streamと、車自体の動きを予測するOdometry Prediction Streamの2つにより構築されたモデルにより長期的な予測を実現する。 人間のBounding Box(BB)は、過去のBB、過去及び予測される車の動きから推定する。 車の動きは、過去の車の動き及び車載カメラの画像特徴から予測する。

Item3Image

新規性・結果・なぜ通ったか?

人間の動きの不確かさを含めて予測することが可能となった。Kalman Filterと比べ、提案法はBB、車の動きどちらも高い精度で予測することが可能である。

コメント・リンク集

[#227]
2018.7.21 01:34:43
Learning Latent Super-Events to Detect Multiple Activities in Videos
AJ Piergivovanni and Michael S. Ryoo
CVPR2018

概要

動画中に映る関連した一連のeventの集まりであるsuper-eventsという概念を導入し、Super-eventsに含まれる検出する方法を提案した。例えば、バスケの試合においてシュートを打つという行動とブロックするという行動は連続して起こる行動であり、関連しあっている。 このような一連の行動(シュートを打つ、ブロックする)をsuper-eventsと呼ぶ。 始めに、動画の各フレーム(or segment)からCNNにより特徴抽出を行う。 得られたCNN特徴から、context情報を考慮するためのTemporal Structure Filterというものを導入することでsuper-eventsを表す特徴を得る。 最後に、各フレームのCNN特徴とsuper-events特徴を用いてフレームごとのイベントを検出する。

Item3Image

新規性・結果・なぜ通ったか?

MultiTHUMOS、Charades、AVAの3つの動画データセットにより実験を行った。Super-eventsを抽出することで、ベースラインでは検出されないイベントが検出することができるようになった。 I3Dにsuper-eventsを導入したものが最もmAPが高いという結果が得られた。

コメント・リンク集

[#228]
2018.7.22 14:52:23
Joint Pose and Expression Modeling for Facial Expression Recognition
Feifei Zhang, Tiznzhu Zhang, Qirong Mao, Changsheng Xu
CVPR2018

概要

顔向きの違いを含めて学習するGANベースの表情認識手法を提案した。顔画像から、個性、表情、顔向きをそれぞれ表す特徴量を抽出する。 Generatorによってこれらの特徴量から表情、顔向きを変化させた画像を生成する。 Discriminatorは、個性とアトリビュートを判定する2つを用意する。 個性を判定するものは、顔画像から抽出した個性特徴によって判定を行う。 アトリビュートを判定するものは、顔画像及び表情・顔向き特徴によって判定を行う。 表情の識別器は、学習データに加えGeneratorによって生成した画像を用いて学習する。

Item3Image

新規性・結果・なぜ通ったか?

Generatorによって表情、顔向きを変化させた画像を生成することによって、少ない学習データでも表情識別器の学習が可能となった。Multi-PIE、BU-3DFE、SFEWの3つのデータセット全てにおいて平均の識別率は従来手法と比べ最もよい数値を記録した。

コメント・リンク集

[#230]
2018.7.23 01:24:55
ICE-BA: Incremental, Consistent and Efficient Bundle Adjustment for Visual-Inertial SLAM
Haomin Liu, Mingyu Chen, Guofeng Zhang, Hujun Bao, Yingze Bao
CVPR2018

概要

Visual-Inertial SLAM(VI-SLAM)の最適化計算に関する研究。画像情報と慣性情報を用いたポーズ推定は、VI-SLAMの計算時間を大きく左右する。 SLAMはその応用先ゆえにリアルタイムで動くことが求められるため、高速化にはポーズ推定の高速化が求められる。 そこで、従来手法と比べより効率よく最適化する手法を提案した。

Item3Image

新規性・結果・なぜ通ったか?

従来法では短期間の情報しか最適化に用いることができなかったのに対し、計算効率を10倍に向上することでより長期的な情報を使用して精度を向上することに成功した。

コメント・リンク集

[#231]
2018.7.21 02:15:18
Deep Cost-Sensitive and Order-Preserving Feature Learning for Cross-Population Age Estimation
Kai Li, Junliang Xing, Chi Su, Weiming Hu, Yundong Zhang, Steve Maybank
CVPR2018

概要

他の人種や性別(source)による学習結果を用いることで、学習データが少ないグループ(target)に対しても適用可能な年齢推定手法Deep Cross-Pupulation(DCP) age estimationを提案した。始めに、データが多いグループ(source)を用いてranking problemとして学習することでグループに依らない共通の特徴(low-level aging features)を取得する。 次に、得られたパラメータからsource, targetそれぞれのネットワークを更新していく。 ここでは、source, targetそれぞれの顔画像を入力として2枚の画像が年齢が同じか異なるかを学習していく。 これにより、グループごとの年齢特徴(high-level aging features)を得る。

Item3Image

新規性・結果・なぜ通ったか?

従来手法はグループごとに学習していたため、データが少ない人種などには適用が難しかったが、提案手法によりデータが少ない人種への適用が可能になった。Morph Ⅱ,WebFaceで実験をしてMAEがベースラインと比べ最も小さく(3.1~4.6程度)なった。 targetのデータ数が10%程度の場合でもMAEが5.3となった。

コメント・リンク集

[#232]
2018.7.24 18:18:00
Controllable Video Generation with Sparse Trajectories
Zekun Hao, Xun Huang, and Serge Belongie
CVPR2018

概要

動画の初期フレームと、モーションの軌跡を入力することで動画を生成する手法を提案した。入力画像とフローベクトルから、Flow、Hallucinated output、Maskの3つを予測するネットワークにより実現する。 予測フレームの情報が、入力画像に含まれている場合はFlowによる変形によりピクセル値を取得する。 一方で、初期フレームに映っていない情報や、色の変化についてはFlowによる変形では実現できないため、Hallucinated outputにより取得する。 上記2つの画像のうち、どちらの情報を用いるかをマスクによって指定することで出力を取得する。

Item3Image

新規性・結果・なぜ通ったか?

KITTI、Robotic Pushing、UCF-101の3つのデータセットにより実験を行った。各データセット中の動画から得られるFlowを入力として実際の動画中のフレームと予測フレームを比較したところ、PSNR、SSIMいずれの手法も提案手法が最も良いことを確認した。 ユーザースタディの結果、Flow、Hallucinated outputのいずれかがない場合よりも両方ある場合の方が圧倒的に高い評価を得られた。

コメント・リンク集

[#233]
2018.7.20 13:56:02
Bilateral Ordinal Relevance Multi-instance Regression for Facial Action Unit Intensity Estimation
Yong Zhang, Rui Zhao, Weiming Dong, Bao-Gang Hu, Qiang Ji
CVPR2018

概要

Action Unit(AU)の強度を推定するための弱教師学習手法を提案。表情認識の分野でAUは広く研究されているが、アノテーションの難しさから強度のラベルが付いた大規模データベースは存在しない。 そこで、比較的アノテーションが容易であるピークと谷のアノテーションのみから学習する弱教師つき学習手法を提案する。 アノテーションのついていないフレームについては、ピークと谷とのrelevalenceを考える。 その際、時系列的に近いフレームはrelevalence及びAUの強度は近い値になるようにすることで平滑化する。

Item3Image

新規性・結果・なぜ通ったか?

FERA 2015, DISFA, PAINの3つのデータベースにより実験を行い、PCC, ICC, MAEの3つの指標を評価した。FERAは、1つのAUを除いて全ての指標がベースラインよりも良いという結果が得られた。 DISFAについてはPCC, ICCは多くのAUで最も良い数値となったがMAEは12のAUのうち4つのみが最も良い数値となった。 PAINについては、弱教師つきの従来手法よりはPCC, ICCが良いという結果が得られた。

コメント・リンク集

[#234]
2018.7.24 19:56:22
4D Human Body Correspondences from Panoramic Depth Maps
Zhong Li, Minye Wu, Wangyiteng Zhou and Jingyi Yu
CVPR2018

概要

人間の3次元モデルの時間変化を、頂点の対応付けを行うことによってデータ量を圧縮する手法を提案した。多視点のdepthマップから作成した、Panoramic Depth Mapsを入力とすることで、3次元モデルの頂点の対応付けを行うネットワークを構築する。 得られた対応付けに基づき、頂点の時間変化を考える。 この時間変化に対するAuto Encoderを考え、中間層の出力を3次元モデルの時間変化として取り扱う。

Item3Image

新規性・結果・なぜ通ったか?

従来手法と比較して、対応付けの誤差が小さく高い圧縮率を実現することに成功した。PCAベースの圧縮手法と比べ、圧縮の際の誤差を小さくすることに成功した。

コメント・リンク集

[#235]
2018.7.22 02:33:40
Dynamic Scene Deblurring Using Spatially Variant Recurrent Neural Networks
Jiawei Zhang, Jinshan Pan, Jimmy Ren, Yibing Song, Linchao Ban, Rynson W.H. Lau and Ming-Hsuan Yang
CVPR 2018
Kodai Nakashima

概要

この研究で行われたことは以下に示す3つである.

  1. ぶれ除去問題は,ディープニューラルネットワークを適応することによりかなり進展した.しかし既存のモデルは大規模で計算コストが高い.そこでこの研究では,新しい空間的に可変なニューラルネットワークを提案する.
  2. ぶれ除去の過程が無限インパルス応答モデルとして記述できることを示す.さらにぶれ除去の過程と提案ネットワークの関係を分析する.
  3. 提案ネットワークを定量的,定性的に評価する.

Dynamic_Scene_Deblurring_Using_Spatially_Variant_Recurrent_Neural_Networks.png

新規性・結果・なぜ通ったか?

GOPRO datasetを用い提案ネットワークを定量的(SSIM, PSNR)に評価した.また,定性的評価には参考文献のreal blurry imageを用いた. その結果,提案手法がSoTAアルゴリズムと比べ,精度,スピードとモデルサイズにおいて優れていることがわかった.

コメント・リンク集

[#236]
2018.7.27 00:35:45
Spline Error Weighting for Robust Visual-Inertial Fusion
Hannes Ovrén and Per-Erik Forssén
CVPR2018
Ryota Suzuki

概要

スプライン曲線あてはめにおいて,異なるタイプの残差のバランスがとれるような確率ベースの重みづけについて提案.スプライン曲線あてはめの近似誤差の推定を統合するところが新しい.

また,スプライン曲線あてはめの質の尺度を提案.スプライン曲線の中間点のスページングの自動化などに貢献できる.

Figure1

新規性・結果・なぜ通ったか?

ディープ系ではないが,先に行った推定結果を処理に使うというあたり,イマドキ感を感じる.

コメント・リンク集

[#237]
2018.7.26 16:15:41
Scalable and Effective Deep CCA via Soft Decorrelation
X. Chang, T. Xiang and T.M. Hospedales
CVPR2018
Ryota Suzuki

概要

複数視点系の話題で,非線形の設定においては,Canonical Correlation Analysis (CCA) という手法が一般的になってきた.この既存のDeepなCCAにおいては,典型的には, 一般潜在空間における異なるアピアランスの相関が最大化される前に, 最初にそれぞれのアピアランスにおける特徴次元の間の相関除去を行っている. このCCAでは,学習イタレーション毎に,逆行列計算に依存する計算コストの高い相関除去の計算が求められる. しかも,この相関除去のステップは勾配効果最適化の枠組みからは離れており,その結果準最適解に落ち着いてしまう.

本稿では,Soft CCAを提案する.Softといっているのは,CCAの計算途中に直交性が求められるところの条件を,SGDで最適化されるソフトなコスト関数に置き換えるというところ. ミニバッチベースの確率的相関除去ロス(Stochastic Decorrelation Loss; SDL)を導入. これは,その他目的関数と結合的に最適化される.

このSDLはマルチビュー問題以外にも適用可能である.

Figure1

新規性・結果・なぜ通ったか?

流行の手法の確かな発展.

コメント・リンク集

計算効率化方向に向かっているネタ.

[#238]
2018.7.26 15:48:51
SYQ: Learning Symmetric Quantization For Efficient Deep Neural Networks
J. Faraone, N. Fraser, M. Blott, P.H.W. Leong
CVPR2018
Ryota Suzuki

概要

ネットワークの計算省力化に,ネットワークパラメータのデータビット数を下げるやり方がある.重み・活性化パラメータの分布をコードブックで近似表現することで行われるが, 1-8bitまで量子化すると,フォワード・バックワード関数の大きな勾配ミスマッチが起こるために著しい精度低下が起きていた.

本研究では,この損失を,特定の重みサブグループにおけるシンメトリックなコードブックの学習によって問題を解決する. サブグループは,重み行列の中での局所性に基づいて考慮される.

1-2 bitの重み,2-8 bitの活性化でもうまくいくことを示す.

Figure1

新規性・結果・なぜ通ったか?

ひどく量子化してデータ削減してももうまく行っちゃうというすばらしさ.

コメント・リンク集

[#239]
2018.7.26 15:05:54
Image to Image Translation for Domain Adaptation
Zak Murez, Soheil Kolouri, David Kriegman, Ravi Ramamoorthi, Kyungnam Kim
CVPR2018
Naofumi Akimoto

概要

domain adaptationの一般的なフレームワークの提案.エンコーダーネットワークによって抽出される特徴に制約をかけるために,最近提案されたペアなしのimage-to-image変換に対する新しい利用方法を提案する. このように制約をかけて得たい特徴は以下のような性質を持つ ・抽出された特徴は2つのドメインでの画像に再び戻せる ・2つのドメイン画像から抽出された特徴の分布は区別できない(Dを騙せる) 実験では,domain adaptationの問題として数字の分類や車載動画のセマンティックセグメンテーションのタスクを取り上げ,state of the artを超えた.

Item3Image

新規性・結果・なぜ通ったか?

一つのフレームワークの中で,image-to-imge変換とソース側の分類問題,そしてdomain adaptationを行なっている.

コメント・リンク集

最近の研究は我々の一般的なフレームワークの内の特殊なケースとして見なせる,と強気発言.

[#240]
2018.7.26 13:53:05
Towards Human-Machine Cooperation: Self-Supervised Sample Mining for Object Detection
Keze Wang, Xiaopeng Yan, Dongyu Zhang, Lei Zhang, Liang Lin
CVPR 2018
Kazushige Okayasu

概要

・学習画像群の中から物体検出の学習に有益な画像を探索する手法Self-Supervised Sample Miningを提案

Towards_Human-Machine_Cooperation_Self-Supervised_Sample_Mining_for_Object_Detection

新規性・結果・なぜ通ったか?

・ラベルのないデータを追加して精度向上させるだけでなく、アノテーションの数を大幅に減らしてstate-of-the-artの精度を実現

コメント・リンク集

[#241]
2018.7.25 17:55:34
Pointwise Convolutional Neural Networks
Binh-Son Hua, Minh-Khoi Tran and Sai-Kit Yeung
CVPR 2018
Kodai Nakashima

概要

3次元点群のおけるセマンティックセグメンテーションや物体認識のための、新しい畳み込み操作を提案した論文。これはpointwise convolutionと呼ばれ、点群の各点々に適応可能である。この操作を用いることにより実装が簡単になり、他のネットワークと同程度の精度を実現できる。 Fig.1に示すように、注目点を中心としてカーネルを設置し、分割されたセル(Fig.1では3X3X3)ごとに平均を計算し、畳み込むという計算を行う。

pointwise_CNN_img1.pngpointwise_CNN_img2.pngpointwise_CNN_img3.png

新規性・結果・なぜ通ったか?

セマンティックセグメンテーションの結果をTabl2に示す。これより、PointNetと比べて同程度の精度を達成していることが分かる。ここで、評価用データセットにはS3DISを用いた。物体認識の結果をTable4に示す。これより、SoTAな手法と比べ同程度の精度を達成していることが分かる。ここで、評価用データセットにはModelNet40 datasetを用いた。

コメント・リンク集

  1. 論文URL
[#242]
2018.7.24 06:07:32
Transductive Unbiased Embedding for Zero-Shot Learning
Jie Song, Chengchao Shen, Yezhou Yang, Yang Liu, Mingli Song
CVPR 2018
1369
Kazuki Inoue

概要

zero-shot learning(ZSL)で問題となっているソースデータとターゲットデータに対する識別精度のバイアスを緩和するための手法をtransductive ZSLの設定で新しいロス関数を提案。transductive ZSLとはトレーニング中にラベルをもつ画像から成るソースデータと、ラベルを持たない画像から成るターゲットデータを扱う設定である。提案手法では既存研究で用いられている、ソースデータに対するclassificationロス(+正則化項)に加えて、ターゲットデータに対するロス関数として、ターゲットデータがどのターゲットカテゴリに所属するのか、という確率を足しあげlogを取ったものを加える(正確には減算をする)。 実験ではターゲットデータに対する識別精度を算出するZSLの設定と、ソースデータとターゲットデータの両方に対す識別精度を算出するGZSLの設定を検証する。

Item3Image

新規性・結果・なぜ通ったか?

  • 評価尺度としてソースデータ、ターゲットデータへのtop1-accuracyのMean Class Accuracy (MCA)、harmonic meanを使用。
  • inductive/transductive ZSL(inductive ZSLとはトレーニング中にはターゲットデータを一切使用しない手法)の両方の既存研究においてZSL、GZSLの両方の設定で検証した結果、ほとんどの設定において上記の尺度でSoTAを達成しており、バイアスを解消できていると主張。

コメント・リンク集

  • transductive ZSLはトレーニング中にターゲットデータを扱わないinductive ZSLに比べて、ターゲットカテゴリのインスタンスをトレーニング中にしれているという点で有利であり、かつ提案手法ではトレーニング中にターゲットカテゴリのインスタンスをターゲットカテゴリのいずれかに識別するようにロス関数を設定しているため、これは純粋なZSLとは呼べないのではないか?ZSLと呼べる手法の境界はどこにある?
  • 論文
[#243]
2018.7.25 02:58:39
Zero-Shot Visual Recognition using Semantics-Preserving Adversarial Embedding Networks
Long Chen, Hanwang Zhang Jun Xiao, Wei Liu, Shih-Fu Chang
CVPR 2018
2517
Kazuki Inoue

概要

テスト時にトレーニングでは扱わなかったクラスのインスタンスを扱うzero shot learning(ZSL)において問題視されていたsemantic lossを解決するモデルSemantics-Preserving Adversarial Embedding Network (SP-AEN)を提案。semantic lossとはトレーニングで使用されたデータであるseen classesとテストで初めて扱うデータであるunseen classesにおける分布の違いから、トレーニングされたモデルがテスト時にうまく機能しない問題である。これに対して提案手法ではZSLでそれぞれ独立に提案されていた画像のリコンストラクションを行うencoder E, decoder Dとラベルの識別を行うclassifier C、EとCから得られる特徴量を識別するDを組み合わせたモデルを提案。EとCを用いることでリコンストラクションとラベル識別を独立に行い、かつDをGANベースに学習することで、Cはインスタンスごとの学習に重きを置くEの効力を得ることができるモデルとなっている。

Item3Image

新規性・結果・なぜ通ったか?

  • 多くの設定でSoTAであり、特にseenクラスとunseenクラスに対する識別精度の平均値的な意味をもつharmonic meanは全てのデータセットでSoTAとなった。
  • リコンストラクションの画像が既存手法に比べて鮮明。
  • テストの際にはseen classとunseen classのアトリビュートのコサイン類似度を用いて識別精度を検証している。CUB, AWA, SUN and aPY, SP-AENで検証。

コメント・リンク集

  • 各インスタンスに注目するencoderと、同じラベルを持ったインスタンスには似たような特徴量を与えるclassifierのいいところ取りをdiscriminatorによって実現。
  • リコンストラクションの結果が、鳥だけやけに綺麗なのはなぜ?
  • 論文
[#244]
2018.7.25 01:20:06
Generalized Zero-Shot Learning via Synthesized Examples
Vinay Kumar Verma, Gundeep Arora, Ashish Mishra, Piyush Rai
CVPR 2018
4099
Kazuki Inoue

概要

Generalized Zero-Shot Learning(GZSL)のバイアスを小さくするためのCVAEとクラスラベルのclassifierを組み合わせたモデルを提案。GZSLとは、テストの際にトレーニングで使用した(seen)クラスとトレーニングでは使用していない(unseen)クラスの両方を扱う問題を指す。既存手法ではトレーニングされたモデルを用いた識別などにおいて、seenクラスに対するバイアスが高いことが問題であった。提案手法ではclassifierのロスをdecoderに流し、かつdecoderによって合成された画像をラベルなし画像として扱い半教師学習を行う。テスト時にはseenクラスとunseenクラスの画像を合成し、合成された画像を用いてSVMを学習しその識別精度を比較する。

Item3Image

新規性・結果・なぜ通ったか?

  • unseenなクラスに対する識別と、seen、unseenなクラスに対する識別の平均値でSoTA。一方でseenクラスに対してはSoTAの10%以下。それぞれの精度差は±10%であるため、バイアスがないことも確認している。
  • 画像のクオリティを定量的に考察するためにt-SNEによる分布を確認しており、合成された画像と実画像の分布がよく重なっているこをを確認している
  • AwA、SUN、CUB、dataset、ILSVRC 2012/2010 datasetを使用。seen/unseenのクラスラベルの比率はおよそ3:1

コメント・リンク集

  • seenクラスに対して高い識別精度をもつ既存手法ではunseenクラスに対する識別精度が低くバイアスが高いことに注意。
  • SVMではなく、deep learningを使えば識別精度も相対的に高くなる?
  • seen/unseenクラスの両方を扱う問題をなぜ”Generalized" Zero-Shot Learningと呼んでいる?
  • 論文
[#245]
2018.7.24 14:24:26
Feature Super-Resolution: Make Machine See More Clearly
Weimin Tan, Bo Yan, Bahetiyaer Bare
CVPR 2018
3408
Kazuki Inoue

概要

低解像度画像と高解像度画像で同じ特徴量を得るために新しいロス関数focal lossを導入したFeature Super-Resolution Generative Adversarial Network (FSR-GAN)を提案。提案ネットワークは図の通りfeature extractorと低解像度画像の特徴量を高解像度画像の特徴量に似せるgenerator、特徴量のドメインを識別するdiscriminatorからなる。focal lossとはインスタンスごとのL2距離をr乗するというもの。adversarial lossとしてWGANで導入されたEarth-Mover distanceを使用。

Item3Image

新規性・結果・なぜ通ったか?

  • 特徴量による画像検索において、画像サイズが小さくなっても既存手法よりも高いmAPを維持。
  • low bit-rate画像検索において、低いビットレートの時に既存手法よりも高いmAPを獲得。
  • WGAN+L2ノルムではgenerator無しよりも結果が悪いことを確認している
  • Oxford5K, Paris, Holidays, and Flick100k datasetsで実験、rは2と設定されている。比較している手法は画像の超解像化手法。feature extractorとしてVGG16を使用。

コメント・リンク集

  • シンプルなロス関数の提案だが、複数の検証による精度向上を確認している。
  • WGANとの比較が無いのが気になった。
  • 論文
  • 参考 Wasserstein gan (WGAN)
[#246]
2018.7.23 23:19:00
Low-shot learning with large-scale diffusion
Matthijs Douze, Arthur Szlam, Bharath Hariharan, Herve ́ Je ́gou
CVPR 2018
1590
Kazuki Inoue

概要

大規模データセットを用いた古典的な手法による半教師学習の有効性を調査。古典的な手法としてkNNグラフを用いた拡散アルゴリズムを使用し、半教師学習としてlow shot learningを扱った。low shot learningとはデータ中にクラスなどのアノテーションが施された画像がごく一部であり大半の画像にはアノテーションがないデータセットを扱う問題を指す。大規模データセットであるImageNetなどでlow shot learningを行い、low shot learningのSoTAと古典的な手法による精度の比較を行った。

Item3Image

新規性・結果・なぜ通ったか?

  • 以下の場合に古典的な手法の方が高い精度となった。
    • ラベルがついた画像とラベル無しの画像が同じデータセットであり、各クラスのラベル有り画像が1、2枚の時
    • ラベルがついた画像とラベル無しの画像が異なるデータセットであり、各クラスのラベル有り画像が10、20枚の時
  • データセットしてImageNet、YFC100M datasetを使用。評価尺度は画像識別におけるtop5-accuracy。

コメント・リンク集

大規模データセットに対する新しい解析方法であり、データセットの使用方法の知見を深めた論文。2003年の手法が2017年の手法に優っているケースはCVでは特に珍しいのではないか?

[#247]
2018.7.23 19:35:54
Learning Deep Descriptors with Scale-Aware Triplet Networks
Michel Keller, Zetao Chen, Fabiola Maffra, Patrik Schmuck, Margarita Chli
CVPR 2018
3673
Kazuki Inoue

概要

triplet lossをアップデートしたmixed-context lossとサンプリング手法であるscale-aware samplingを提案。triplet lossではサンプルに対するpositiveとnegativeの両方の特徴量距離を同時に学習するため、片方ずつ学習するsiamese lossよりも高い精度を出しやすいことがわかっている。しかしtriple lossで扱う特徴量距離はサンプルごとにローカルに決定されるため、場合によっては右図右から2番目の結果のように、特定クラスに対する結果が良く無い場合がある。提案するmixed-context lossでは、この測定される特徴量距離にバイアス項を加えたtriplet lossとsiamese lossの中間表現をとる。またscale-aware samplingは各バッチごとにpositiveとhard negativeをサンプリング手法であり、ロス関数のスケールを調整することが可能。

Item3Image

新規性・結果・なぜ通ったか?

  • UBC benchmarkを用いた結果、siamese lossとtriplet lossと比較した結果、もっとも良い精度を達成
  • バイアス項はこの論文ではハイパーパラメタ扱いであるが、future workとして自動で決定したいとのこと。

コメント・リンク集

  • バイアス項の値を変化させtriplet lossとsiamese lossの比率の変化による精度の変化を見て見たい。扱う問題にもよるだろうが、triplet lossの比率を多少大きくした方が精度は高い?
  • 論文
  • Supplementary material
[#248]
2018.7.23 17:34:53
Shift: A Zero FLOP, Zero Parameter Alternative to Spatial Convolutions
Bichen Wu, Alvin Wan, Xiangyu Yue, Peter Jin, Sicheng Zhao, Noah Golmant, Amir Gholaminejad, Joseph Gonzalez, Kurt Keutzer
CVPR2018
3990
Kazuki Inoue

概要

convolutionと同じ働きを持ち、パラメタやfloating point operation(FLOPS)が必要ないshift operationを提案。convolutionをshift operation に置き換えることでモデルサイズを小さくすることができる。Shift-operationはconvのようにカーネルをもち、どれか1ピクセルだけ値を1を格納し、それ以外は0を格納しており、1を格納している位置はチャンネルごとに異なる。またカーネルを動かす方向もチャンネルごとに異なる。これに対して1x1convを組み合わせることで、convolutionと同じ機能をもつ。Shift-operationと1x1convを組み合わせたものをshift moduleと呼び、実験では従来のCNNに対してshift moduleを組み込んだネットワークを用いてimage classification、face verification、style transferを行った。

Item3Image

新規性・結果・なぜ通ったか?

  • ResNetにshift-based moduleを組み込んだところ、CIFAR-10/100に対する識別精度が向上した一方で、パラメタ数を60%削減可能であった。
  • FaceNetにshift-based moduleを組み込んだところ、同等の精度を保ちつつ、パラメタ数を2.7%程度まで削減可能であった。
  • style transferでもベースラインの手法とかなり近い画像を生成することが可能となり、パラメタ数を16%程度まで削減可能となった。

コメント・リンク集

  • CNNの保ったままパラメタ数を大幅に削減可能!とはいえ、CNNの人気を考えると今後このネットワークが流行っていくだろうか?
  • 論文
[#249]
2018.7.22 23:13:13
A Neural Multi-sequence Alignment TeCHnique (NeuMATCH)
Pelin Dogan, Boyang Li, Leonid Sigal, Markus Gross
CVPR 2018
914
Kazuki Inoue

概要

異なるデータ間同士のアラインメントを4つのLSTMモジュールで行うNeuMATCHを提案。one-to-oneやone-to-manyのアラインメントや、既存手法とは異なり、マッチングの順番が必ずしも時系列通りではないnon-monotonic alignmentを扱うことができる。提案手法では様々なデータを扱うことができるが、特に動画とそのストーリーのアラインメントを行う。提案ネットワークは動画のクリップごとの特徴量を持つLSTM (Video Stack)、ストーリーの各センテンスの特徴量を持つLSTM (Text Stack)、過去にどのようなアラインメントを行ったのかを記憶するLSTM (Action Stack)、過去にマッチングした動画クリップとセンテンスを記憶するLSTM (Matched Stack)の4つのモジュールからなる。提案手法の強みとして、Action StackとMatched Stackによって過去の情報を再利用すること(3番目の動画クリップには必ずセリフを対応させる、など)を主張している。また、動画とテキストのアラインメントに対するデータセットの構築も行った。

Item3Image

新規性・結果・なぜ通ったか?

  • one-to-oneとone-to-manyの精度をHM-1、HM-2、本論文で構築したYouTube Movie Summaries (YMS) datasetデータセットで実験を行った結果、全ての設定においてSoTAを達成。
  • Youtubeから集めた映画のクリップと対応する映画の要約テキストからなるYMS datasetを構築した。
  • ablation studyにより、LSTMの4つのモジュールの有効性を確認した。特にaction stackが重要であった。

コメント・リンク集

  • 論文中でも主張しているが、アラインメントで特に難しいテキストにおいてSoTAを達成していることにインパクトがある。
  • 精度はまだそれほど高くなく、one-to-oneでもYMSで12.0%、データセットの構築も行ってくれているため、まだまだ発展しそうな分野。
  • 論文
  • Supplementary material
  • GitHub
[#250]
2018.7.22 21:59:01
NestedNet: Learning Nested Sparse Structures in Deep Neural Networks
Eunwoo Kim, Chanho Ahn, Songhwai Oh
CVPR 2018
3430
Kazuki Inoue

概要

入力データの形式や種類に柔軟かつ、ネットワークのサイズを学習し直すことなく柔軟に変更することが可能なnested sparse network (NestedNet)を提案。従来の手法ではネットワークの重みやチャンネル数を削除することで新たなデータ形式やサイズの縮小を行っていたが、新たに学習をし直す必要があった。NestedNetはネスト構造をもつnetwork-in-networkの構造をもち、レベルが低いネットワークはレベルが高いネットワークの一部となる。マルチタスクラーニングを行うことで、低レベルのネットワークはタスクごとに共通な特徴量を学習し、高レベルのネットワークはタスクに特化した特徴量を持つ。そのため、データやサイズの制限によって使用するレベルの上限を変更することで以前学習した内容を保ったままファインチューニングが可能。

Item3Image

新規性・結果・なぜ通ったか?

ネットワークの有効性を確認するために、adaptive deep compression、knowledge distillation、hierarchical classificationを行った。

  • adaptive deep compression:かくレベルごとに重みとチャンネルを削減した結果、CIFAR-10のclassificationにおいて既存手法よりもネットワークのサイズを小さくしつつ精度を保つことを確認した。
  • knowledge distillation:NestedNetの内部のネットワークをスクラッチで学習し直すのではなく、knowledge distillationを行った場合の精度をNestedNetとベースラインと比較、CIFAR-10のclassificationにおいて同等の精度を達成。また実行時間も短くなったことを確認。
  • Hierarchical classification:CIFAR-100におけるhierarchical classificationを行なった結果、NestedNetはベースラインのネットワークやSoTAであるSplitNetよりも高い精度を達成。

コメント・リンク集

  • かなり実用的なネットワーク!ネットワークのサイズ変更に伴って学習をし直さなくていいことは商用的に、かなり価値があると思われる。
  • 論文
  • Supplementary material
[#251]
2018.7.22 19:08:17
Learning Compositional Visual Concepts with Mutual Consistency
Yunye Gong, Srikrishna Karanam, Ziyan Wu, Kuan-Chuan Peng, Jan Ernst, Peter C. Doerschuk
CVPR 2018
1959
Kazuki Inoue

概要

“handbag vs. shoe”と“photo vs. edge”など複数のconceptを学習する際に、いずれかのサブドメイン(photo handbagなど)のトレーニングデータが無い場合にも、他のサブドメインの学習によって画像を生成することが可能なConceptGANを提案。論文では2つのコンセプトで、一つのサブドメインのトレーニングデータない場合を主に説明してる。CycleGANをベースにサブドメイン間のconsistencyを保つために以下のlossを設定

  • Adversarial loss:トレーニングデータが存在するサブドメインにおいて実画像vs生成画像のdiscriminatorを導入
  • pairwise cycle consistency loss:2つのサブドメイン間でcycle pathによる入力画像と生成画像のL1ロス
  • (Counter-)Clockwise cycle-consistency:(反)時計回りのパスによって生成された画像と入力画像のL1ロス
  • commutative loss:右図において対角上のサブドメインの画像を生成する際に時計回りのパスと反時計回りのパスで生成された画像で似た画像を生成するためにL1ロス

Item3Image

新規性・結果・なぜ通ったか?

  • “smile”と”eyeglass”(両方ありのトレーニングデータがない)、”eyeglass”と”bangs”(両方ありのトレーニングデータがない)、"handbag vs. shoe”と“photo vs. edge”(edge shoeのトレーニングデータがない)のそれぞれにおけるコンセプトにおける生成画像を確認。CycleGANがうまく画像を生成できていない一方で、提案手法ではCycleGANよりも綺麗な画像を生成できている。
  • ”eyeglass”と”bangs”、"handbag vs. shoe”と“photo vs. edge”のそれぞのコンセプトで生成した画像に対するattribute classificationを行った結果、CycleGANによる生成画像よりも高い精度を達成。
  • face verificationにおいて、提案手法で生成された画像を用いてトレーニングデータをオーギュメンテーションした結果、テスト結果はより高くなった。

コメント・リンク集

[#252]
2018.7.22 17:29:53
Learning Deep Sketch Abstraction
Umar Riaz Muhammad et al.
CVPR 2018
Yoshihiro Fukuhara

概要

初のストロークレベルのスケッチ抽象化モデルを提案した. 強化学習の Agent がストロークセグメントを観測し, それを残すか消すか決定する. また, 提案手法を用いた新しい写真からのスケッチ合成手法を提案し, fine-grained SBIR (FG-SBIR) のタスクに置いて upper bound(実際に写真とスケッチの対応データから学習したもの)に類する精度を, 写真だけから学習したモデルで達成した.

fukuhara-Learning_Deep_Sketch_Abstraction.png

新規性・結果・なぜ通ったか?

  • 初のストロークレベルのスケッチ抽象化モデルを提案. また, 提案手法を用いた新しい写真からのスケッチ合成手法を提案
  • 簡潔さ(ストローク数)と認識可能性はトレードオフの関係という仮定に基づいて, 強化学習によってどのストロークが消去可能かを学習
  • Agent は各ステップでストロークセグメントを観測し, それを残すか消すか決定
  • Agent は Bi-directional GRU(B-GRU)と Multi Layer Perceptron (MLP)で構成され, B-GRU が状態の時間的遷移から特徴を抽出し, MLPが行動を決定
  • Agent の学習は Policy Gradient 法を用いる
  • Raward は各ステップでストロークを消すと小さいマイナス, 最終的なスケッチのクラス識別の結果がGTと同じなら大きなプラスを得る(これ以外にも各ステップでの識別結果のランクに基づいたrewardも用いている)
  • 提案手法は Sketch abstraction や Photo to sketch synthesis 等のタスクで高い認識精度を達成
  • 特に, fine-grained SBIR (FG-SBIR) に置いては upper bound(実際に写真とスケッチの対応データから学習したもの)に類する精度を, 写真だけから学習したモデルで達成
2018.7.22 15:49:55
Appearance-and-Relation Networks for Video Classification
Limin Wang, Wei Li, Wen Li, Luc Van Gool
CVPR2018, arXive:1711.09125
172
Hiroshi Fukui

概要

動画認識における特徴空間の学習で,RGBからAppearanceとRelationを効率的に学習するAppearance-and-Relation Network(ARTNet)を提案.ARTNetは,SMART Blockという複数のブロックから構築されており,このブロックはAppearanceとRelationをそれぞれ学習ブランチから構成されている. Appearance branchは2D Conv.をベースに構築し,Relation branchは3D Conv.をベースに構築している. 3D Conv.と2D Conv.の組み合わせによりAppearanceとRelationを効率的に特徴を抽出できるため,より良い特徴を得ることができる. 最終的に,それぞれのブランチから出力された特徴を結合することで,最終的な特徴を抽出していく.

172_overview.png

新規性・結果・なぜ通ったか?

2D Conv.と3D Conv.を効率的に使ったモデルの提案で,Kinetics,UCF101,HMDB51 Datasetで評価し,従来のC3Dより高精度な特徴抽出が可能であることを示している.

コメント・リンク集

モデルとしては,two-stream CNNと3D CNNの良いところ取りしたような印象の手法.汎化性も高く,様々な時系列対応のタスクに応用できそう.

[#253]
2018.7.22 19:06:50
Diversity Regularized Spatiotemporal Attention for Video-based Person Re-identification
Shuang Li, Slawomir Bak, Peter Carr, Xiaogang Wang
CVPR2018, arXive:1803.09882
63
Hiroshi Fukui

概要

時系列を考慮したAttention機構を導入したRe-identificationを提案.手法としては,各時刻の人物画像をMultiple Spatial Attention Modelsに入力して人物画像からAttentionを得る. Multiple Spatial Attention Modelsでは,ResNetにより特徴マップを抽出してグリッド状に分割し,分割した獲得した各グリッドの特徴からAttentionを施して新たな特徴(Spatiotemporal Gated Feature)を抽出する. このAttentionにより,各時系列で異なる領域にAttentionが強く反応するAttentionを得ることができる. また,オクルージョンに対しても頑健になる. PRID2011,iLIDS-VID,MARS Datasetで評価し,高い性能を達成している.

63_overview.png

新規性・結果・なぜ通ったか?

これまでのAttention機構とは異なり,Attentionが強く反応する領域をばらけさせるためにMultiple Spatial Attention Modelsを導入.かつ,誤差関数にHellinger距離を追加して正則化している. これらの工夫点から3つのRe-identificationのデータセットで高い性能を示している点が評価されたと思われる.

コメント・リンク集

[#254]
2018.7.22 19:02:09
Learning Steerable Filters for Rotation Equivariant CNNs
Maurice Weiler, Fred A. Hamprecht, Martin Storath
CVPR2018, arXive:1711.07289
112
Hiroshi Fukui

概要

様々な回転や変化に頑健なSteerable Filter CNNs(SFCNNs)を提案.SFCNNsの主の構造は,1枚のカーネルを様々な方向に幾何変化したカーネルを用意し,それぞれのカーネルに対する特徴マップを出力&統合する(Rotation equivariant layer). ここで,SFCNNsのカーネルはCircular harmonics(球面調和関数)をベースに作成しており,カーネルとの線形結合により畳み込むカーネルを決定する. そして,畳み込み層の学習ではこの結合重みを学習により更新する.

112_overview.png

新規性・結果・なぜ通ったか?

回転や変動に頑健なCNNを提案しており,rotated MNIST Dataset(回転込みのMNIST)とISBI 2012 2D EM semantic challenge(脳の細胞壁の境界をセグメンテーションするタスク)において高い性能を達成している.

コメント・リンク集

カーネルの組み合わせでCNNを最適化するアイディアは面白いと思う.2つのタスクにおいて高い性能を示しているが,データセットのタスクとしては少し簡単なのでは?という気がする(この分野ではメジャーなデータセット?)

[#255]
2018.7.22 19:15:10
Local Descriptors Optimized for Average Precision
Kun He, Yan Lu, Stan Sclaroff
CVPR2018, arXive:1804.05312
86
Hiroshi Fukui

概要

Deep Neural Networkによる特徴量記述で,ランキングベースでリスト状にパッチの平均精度を直接学習するアプローチを提案.従来の特徴記述ではTriplet+ランキングベースで正負の3つのパッチで学習する方法が多いが,本手法では最近某探索で検索した複数のパッチから,ランキングベースでクエリとの距離を算出していく. ランキングベースの最近某探索で学習する際に,Average Precisionを基準に学習する. UBC Phototour, HPatches, RomePatches Datasetで高い性能を達成.

86_overview.png

新規性・結果・なぜ通ったか?

Triplet Lossではパッチの特徴空間の距離に依存しないが,1つのペアで誤認識が発生すると他のペアの学習に影響を与えやすい(らしい.特に類似性の高いパッチのペア).しかし,リストベースだと一部のパッチのランキングが入れ替わった場合でも,学習の悪影響を抑制できる. リストベースにする際にランキングを評価する際に最近某探索をベースにAPを最適化させることで,効率的に大量のパッチを学習できる.

コメント・リンク集

特徴記述の知識が乏しすぎて論文を十分に理解できませんでした…勉強します…

[#256]
2018.7.22 19:11:18
Analysis of Hand Segmentation in the Wild
Aisha Urooj, Ali Borji
CVPR2018

概要

一人称視点における(カメラ着用者以外の手も含む)手領域のセグメンテーションに関して包括的な調査、評価した論文。評価のために、一般シーンでの手領域が含まれている一人称視点データセット(EgoYouTubeHands)と、手と顔という似た外見を持つオクルージョン環境下での評価するためのデータセット(HandOverFace)、EgoHandsから詳細な行動を追加したEgoHands+を作成し、新たに提供している。

Analysis_of_Hand_Segmentation_in_the_Wild.png

新規性・結果・なぜ通ったか?

EgoYouTubeHands(約1300frames)とHandOverFace(300images)のデータセットの作成。EgoHandsのサブセット(800frames)にpickingやholdingなどより詳細なhand-levelの行動を注釈付け。これらに加え、EgoHandsGTEAを使ってRefineNetをfine-tuneし比較実験、そしてEgoHandsにおいて先行研究から精度を26%改善している。またEgoHands+を使って手領域のセグメンテーションマップがactivity recognitionの性能改善に役立つことを確認。

コメント・リンク集

HandOverFaceによる手と顔領域の関係の問題設定が良く、結果より肌の色や形状以上のことをCNNが詳細に認識していることがわかる。また大きな手と比較して小さな手はセグメンテーションが困難なことが検証されている。人間にとってもっとも身近なオブジェクトである手に着目して、かつ起こりうる状況を網羅的に実験を行い、手同士のオクルージョン、小さな手、照明条件など新たな問題を提示しており、興味深い論文だった。

[#257]
2018.7.22 18:26:50
Quantization of Fully Convolutional Networks for Accurate Biomedical Image Segmentation
Xiaowei Xu, Qing Lu, Yu Hu, Lin Yang, Sharon Hu, Danny Chen, Yiyu Shi
CVPR2018

概要

既存手法が主に目的としているメモリや計算量の削減のための量子化手法ではなく、FCNの高精度化のためover-fittingを減らすことを目的とした量子化手法を提案。著者らは、元の学習データセットから代表的なアノテーションサンプルを抽出するsuggestive annotationに焦点を当てており、これをベースとして、提案するframeworkは、suggestive annotationでの量子化(QSA)と、高精度化のためのネットワークの学習の量子化(QNT)と2つの量子化手法から構成される。

Quantization_of_Fully_Convolutional_Networks_for_Accurate_Biomedical_Image_Segmentation.png

新規性・結果・なぜ通ったか?

医用画像(suggestive annotation)においてFCNはパラメータが余剰であり、これにより過学習に陥り精度の低下を招くことに着目して、量子化を行っている点が賢く、従来手法とは異なる点である。MICCAI Gland datasetで両方の量子化手法が性能向上を示すことを確認し、提案手法がsotaの性能を1%超えているうえ、メモリ使用量を6.4倍削減している。

コメント・リンク集

suggenstive anntation自体の計算コストが高そうな上、データ数が少なく変動が小さい医用画像だからこその手法にも思える(一般物体への適用できなさそう)。

[#258]
2018.7.22 16:23:44
NAG: Network for Adversary Generation
K.R.Mopuri, U.Ojha, U.Garg and R. V.Babu
CVPR2018
Kota Yoshida

概要

Adversary perturbationsは機械学習で脅威となりうる.最近の研究では,画像にとらわれずほとんどの自然画像で分類を騙すことができる.本研究では,Adversary perturbationsの分布をモデル化する生成的アプローチを提案.アーキテクチャはGANと類似.我々の訓練されたジェネレータネットワークは、与えられた分類に対するAdversary perturbationsの分布を捉えようと試み、そのようなAdversary perturbationsの幅広い多様性を容易に生成する.

Image

新規性・結果・なぜ通ったか?

  • Adversary perturbationsの未知の分布をモデル化するための簡単に訓練可能なフレームワークを提示.
  • 生成されたAdversary perturbationsは,SoTAで分類を騙すことができた.
  • 学習されたモデルが摂動の分布を捉え、多様性、高い騙す能力、および優れたクロスモデルの一般性を示すAdversary perturbationsを生成することを実証.

コメント・リンク集

  • アーキテクチャによってAdversary perturbationsが異なることが明白
  • Paper
[#259]
2018.7.25 17:04:38
End-to-End Deep Kronecker-Product Matching for Person Re-identification
Y.Shen T. Xiao H. Li, S. Yi and X. Wang
CVPR2018
Kota Yoshida

概要

人物再同定のタスクは人物画像間の類似性を測定する.画像中の人物の姿勢や視野角の違いによってこのタスクはチャレンジングになる.本手法ではend-to-endで学習可能なDNNを用いた異なる人物の特徴マップを一致させるKronecker Product Matching(KPM)モジュールを提案する.データセットとしてMarket-1501, CUHK03, DukeMTMCを用いて実験したところSoTAを示し,本手法の有効性と一般性を示すことができた.

Image

新規性・結果・なぜ通ったか?

  • 入力する2つの画像が同じ人物に属するかどうかを判定するために、それらの間の類似度スコアをKPMによって算出.
  • ネットワークの構造としてはKPM,soft feature wrapping, self residual-attentionを用いた単一スケールのsiamese-CNN.
  • 図のようなsiamese-CNNを用いて類似点を出力

コメント・リンク集

[#260]
2018.7.20 16:51:49
Large-scale Distance Metric Learning with Uncertainty
Q. Qian et al.,
CVPR 2018
Kensho Hara

概要

Triplet Lossを用いて距離尺度を学習する話で,扱うデータがLarge-scaleの場合でもうまくいく手法を提案. Tripletの制約はO(n^3)なのでLarge-scaleの場合は扱うのが大変になる. 加えて,データは曖昧なものがあって,サンプルによって姿勢や照明が違ったりノイズが乗っていたりするのも問題になる. 提案手法では,少数のキレイなLatent Examples(下図各列の一番左)と距離尺度を同時に学習する手法を提案. Latent Examplesに基づく少数のactive setをベースにtriplet制約を作ることでLarge-scaleであってもうまく扱えるようにしている. 加えて,曖昧さの減っているLatent Examplesを元に距離尺度を学習することで本質を捉えた距離尺度の学習も実現. 評価実験で高速な学習が可能なことを示したほか,認識精度の向上に寄与することも確認.

新規性・結果・なぜ通ったか?

  • Large-scaleデータでも高速に動作する距離尺度学習の実現
  • Latent Examplesを距離尺度を同時に学習することで,より本質的な距離尺度の学習にも貢献

コメント・リンク集

[#261]
2018.7.25 16:12:12
Person Re-identification with Cascaded Pairwise Convolutions
Yicheng Wang, Zhenzhong Chen, Feng Wu, Gang Wang
CVPR 2018
Kazushige Okayasu

概要

・人物再同定のためのネットワークBraidNetの提案・BraidNetはカメラ間の不整合や色の違いに頑健なWconvをカスケード構造に設計 ・学習画像の不均衡問題や勾配消失問題に対応した新しい学習方法Sample Rate Learning (SRL)とChannel Scaling (CS) layerの提案

Person_Re-identification_with_Cascaded_Pairwise_Convolutions

新規性・結果・なぜ通ったか?

・人物再同定の多くのデータセット(CUHK03-Detected, CUHK03-Labeled, CUHK01, Market-1501 and DukeMTMC-reID datasets)でstate-of-the-art

コメント・リンク集

[#262]
2018.7.25 13:57:58
Baseline Desensitizing In Translation Averaging
B. Zhuang et al.,
CVPR 2018
Kensho Hara

概要

Global Structure-from-Motion (SfM)の手法で用いるTranslation Averagingにおいて, カメラのベースラインの長さにsensitiveでない手法 (BATA) を提案. 正規化を行う変数を目的関数に導入し,シンプルかつ効率的な最適化を実現. 加えて,外れ値への対応のためのIterative Reweighted Least Squares (IRLS) も提案.

新規性・結果・なぜ通ったか?

  • BATAの提案
  • IRLSの提案

コメント・リンク集

  • 論文
  • 前提知識足りなくてあまりわかってないです...
[#263]
2018.7.25 10:30:45
Structure Preserving Video Prediction
Jingwei Xu, Bingbing Ni, Zefan Li, Shuo Cheng and Xiaokang Yang
CVPR2018
175

概要

細かな動作や境界でも高精度に検出できるvideo prediction手法の提案.このアルゴリズムは,高頻度なビデオコンテンツ(細かい物体や関節運動など)と低頻度なビデオコンテンツ(位置や移動方向など)を別々のストリームで扱う2ストリーム生成アーキテクチャ(図中左側)に加えて,時間で変化する動作パターンやシーン内の小さい物体を取得するtemporal-adaptive畳み込みカーネルを用いたRNN(LSTM)構造(図中右側)を持つ.2ストリームアーキテクチャでは,1段階目ではベースのEncoder-decoderモデルのみ学習し,2段階目および推論時はLSTMブロック部分も学習および推論に用いる.

20180724_SPVP.jpg

新規性・結果・なぜ通ったか?

既存のアルゴリズムでは満足な結果を得られなかった,物体境界のような構造情報を持つ場合や,関節運動のような細かな動作でのvideo predictionの精度を向上した.データセットにはUCF-101(のうち,Clean-Jerkと呼ばれるデータ),Human3.6M(人間の細かい動きのデータ),CityScape(市街地動画のセマンティックセグメンテーションのデータ)を用いて評価し,他の手法よりも良い性能を得た.特に,物体境界や細かい動作に頑健な検出が可能である.

コメント・リンク集

一見するとシンプルな作りだが,LSTM部分に多くの工夫が含まれている.結果を見ても,提案手法は細かい部分までpredictできていることがわかる.

[#264]
2018.7.24 22:29:10
FeaStNet: Feature-Steered Graph Convolutions for 3D Shape Analysis
Nitika Verma, Edmond Boyer, Jakob Verbeek
CVPR 2018

概要

固定サイズのグリッドでは扱えない3次元の情報(ここではメッシュデータ)において本論文では新規のGraph Convolutionを含むFeaStNetを提案。3次元情報同士の繋がりを動的かつネットワークにて内的に計算する部分に新規性がある。FAUST 3D Shape Correspondence Benchmarkにて他手法の精度を超える性能を実現した。

180720FeaStNet

新規性・結果・なぜ通ったか?

固定のフィルタを準備する2D画像の畳み込みに対して、3D空間の畳み込みはコネクションが曖昧であり畳み込みが困難だが、本論文では近傍との繋がり自体を動的に計算できるGraph Convolution Networkを提案した。FAUST 3D Shape Correspondence BenchmarkでもSoTAを実現していることも採択された理由である。

コメント・リンク集

3次元のメッシュや点群処理、だれがデファクトスタンダードを勝ち取るか?

[#265]
2018.7.20 15:04:10
Deep Parametric Continuous Convolutional Neural Networks
Shenlong Wang, Simon Suo, Wei-Chiu Ma, Andrei Pokrovsky, Raquel Urtasun
CVPR 2018

概要

任意の位置に配置されている3D点群を処理するためのParametric Continuous Convolutionを提案。近傍の点群をまとめて畳み込むためにNon-Gridなカーネル関数を定義して連続的な空間からでも処理できるように改良した。屋内外の3D点群セグメンテーションにおいて高精度な処理を実現した。右図はセマンティックラベリングのためのアーキテクチャである。KD-Treeにより点群の探索と対応付けを計算して、各近傍の畳み込み処理の際に参照。全結合層や畳み込み層の特徴を統合、Softmaxを通り抜けてCross-Entropy誤差を計算。

180720ParametricContinuousCNN

新規性・結果・なぜ通ったか?

3D点群のような連続的な空間内での畳み込みを実施するアーキテクチャを考案し、屋内外環境におけるセグメンテーションタスクにてState-of-the-artを達成した。

コメント・リンク集

2017年のPointNet以来、点群処理の競合が激しくなってしまった。思いついたらその場でやらないと単純なアイディアは埋め尽くされてしまう。

[#266]
2018.7.20 14:41:51
Deformation Aware Image Compression
Tamar Rott Shaham, Tomer Michaeli
CVPR 2018

概要

変形をできる限り小さくなるように画像圧縮を行う手法を提案する。予め形状変換(Deform)を施してから圧縮(Compress)することで画像容量を抑えつつも形状変化が少なく済む。右図は元画像をそのままJPEG2000形式で圧縮した方式と、形状変換してから圧縮した方式を比較した図である。本論文中では、JPEG、WebP、BPGやDeepNetによる方式において圧縮を行い評価した。

180720DeformationAwareImageCompression

新規性・結果・なぜ通ったか?

そのまま画像圧縮するのではなく、人間の見た目にできる限り自然になるよう形状変化させておいてから画像圧縮する。画像圧縮した後も変形が少なくなるようになっていると主張。

コメント・リンク集

JPEGスゴい、この時代においてまで引用され続けている。

[#267]
2018.7.20 14:11:42
xUnit: Learning a Spatial Activation Function for Efficient Image Restoration
Idan Kligvasser, Tamar Rott Shaham, Tomer Michaeli
CVPR 2018

概要

活性化関数であるxUnitを提案し、画像復元タスクを行う論文であり、実際にReLUを置き換えて実験したところPSNRが向上した。提案のxUnitは学習可能であり、より複雑な特徴量を獲得できることで畳み込み層の数を比較的少なくしても同じような精度に到達することが可能である。画像復元タスクでは、ノイズ除去、雨除去、超解像を含んでいる。右図ではReLUとxUnitの構造の比較である。xUnitではReLUを含み、その他BN層Conv層など含まれていて学習可能な非線形活性化関数となっている。

180720xUnit

新規性・結果・なぜ通ったか?

学習可能な非線形活性化関数であるxUnitを提案して画像復元問題(ノイズ除去、雨除去、超解像)に取り組み、より少ない層で比較的高い精度の画像復元に成功した。ベースラインと比較して、3分の1程度のレイヤ数で同程度の精度を実現している。

コメント・リンク集

シンプルだが効果最大限というのがよい?画像復元に慣れた人ならそこまで時間かかっていなさそう(アイディアさえあればうまくいけば2ヶ月くらいで実験して論文書けそう?)。

[#268]
2018.7.20 13:57:18
Efficient and Deep Person Re-Identification Using Multi-Level Similarity
Yiluan Guo, Ngai-Man Cheung
CVPR 2018

概要

複数階層の構造で類似度を計算するEnd-to-EndのFully-Convolutional Siamese Networkを提案して人物再同定(Person Re-identification; ReID)。Siamese Networkは複数画像を入力として、出力を行うネットワークである。また、空間的なアテンションを計算するためにSpatial Transformer Netoworks (STNs)を使用し、Ranking Lossによりネットワークを最適化する。State-of-the-artとは言わないが、コンパクトなネットワークで良好な精度を実現した。右図は2枚の画像入力から類似度計算や複数誤差(ranking-loss/classification-loss)を計算するための構造である。

180720MultiLevelSimilarityReID

新規性・結果・なぜ通ったか?

ReIDを効果的に行うためのFully Convolutional Siamese Networkを提案した。特徴量を階層的に抽出し、最適化するためにRankingLossやClassificationLossを計算した。CMCによる評価において、CUHK03では86.45@TOP1, 97.50@TOP5, 99.10@TOP10という数値を出した。

コメント・リンク集

TOP10で99%!

[#269]
2018.7.20 13:38:35
Memory Based Online Learning of Deep Representations From Video Streams
Federico Pernici, Federico Bartoli, Matteo Bruni, Alberto Del Bimbo
CVPR 2018

概要

動画から顔認証のための教師なし学習を提案する。メモリベースの学習を顔特徴抽出と同時に行い、時系列の相関性を計算して行く方法で個人認証に関する強力なモデルを構築。手法としてはReverse Nearest Neighbour(サンプルからクラスタを求める逆を行う; 具体的にはせんとロイドからの距離の比が小さくなるようなカテゴリに割り当てる)や冗長な特徴表現に関しては忘却する構造を用いた。

180720MemoryBasedOnlineLearning

新規性・結果・なぜ通ったか?

オンラインかつ教師なしの動画に対する顔認証を行なった。Reverse Nearest Neighbour(ReNN)や冗長特徴の忘却を実装して高精度な顔認証に寄与した。

リンク集

[#270]
2018.7.20 10:26:50
Weakly-supervised Deep Convolutional Neural Network Learning for Facial Action Unit Intensity Estimation
Yong Zhang, Weiming Dong, Bao-Gang Hu, Qiang Ji
CVPR 2018

概要

本論文ではSemi-supervised CNNを提案し、Action Unit(AU; 顔表情の基礎単位をモデル化したもの)推定とその度合いを推定する。ここでは少量のアノテーションを元手に、多量の弱教師を用いて学習することでAU推定+尤度推定を成功させる。弱教師としては、自然に存在するAUに関する拘束条件(相対的なアピアランスの類似性、時間的な尤度の滑らかさ、顔類似度、連続的なアピアランスの相違度)を用いる。FERA2015は2%、DISFAは1%のアノテーションのみを用いた学習でより良い推論に成功した。

180720ActionUnitIntensityEstimation

新規性・結果・なぜ通ったか?

少量教師学習{Semi-,Weak-} Supervisionにより顔表情の基礎単位であるAUを学習し、その尤度の推定も同時に実行した。AUに関する弱教師としてアピアランス類似度、時間的滑らかさなどを実装して、その有効性が認められCVPR採択に至った。

コメント・リンク集

研究分野に関する深い洞察力がないと弱教師というのはできない。調査のみならず経験値が必要。

[#271]
2018.7.20 10:05:48
Deep Regression Forests for Age Estimation
Wei Shen, Yilu Guo, Yan Wang, Kai Zhao, Bo Wang, Alan L. Yuille
CVPR 2018

概要

顔からの年齢推定は非線形回帰問題であり、この問題をDeep Regression Forests(DRFs)を提案することで解決する。また、DRFsとCNNを中間層で結合して特徴生成や識別を同時学習することで非整備の(inhomogeneous)データにも対応する。同時学習について、まずはDRFsの葉ノードを(CNNの誤差逆伝播法と合わせて)最適化、次にVariational Bounding(参考文献33, 57)によりリーフノードを最適化。複数のスタンダードなデータセットにて良好な精度を実現した。(豆知識:顔年齢の変化について、少年時代は顔の形状、大人になると肌の見えが変化する)

180719DeepRegressionForests

新規性・結果・なぜ通ったか?

深層回帰木(DRFs)とCNNを組み合わせ、さらに同時学習による最適化手法を考案した。MORPH, FGNET, Cross-Age Celebrity Dataset (CACD)にてState-of-the-art。

コメント・リンク集

現在までにもCNN+他のモデルを統合する手法は提案されていたが回帰木では稀な例?DRF単体はMNISTなど単純な例には適用されてその有効性が示されていたが、より広い応用ができそうな研究例となった。

[#272]
2018.7.19 09:48:16
Harmonious Attention Network for Person Re-Identification
Wei Li, Xiatian Zhu, Shaogang Gong
CVPR 2018

概要

本論文では人物再同定(Person Re-identification; ReID)においてアテンション機能を用いてbbox中からより良く人物特徴を評価できるような構造とした。従来のReIDはよくも悪くもbbox中から特徴量を抽出しているため、余分な領域が発生して背景特徴が混在したり、人物検出に失敗すると必要な情報が欠落する欠点があった。提案ではHarmonious Attention CNN(HA-CNN)を提案してゆるくピクセルごとに評価(soft pixel attention)と強めに領域を評価(hard regional attention)

180719HarmoniousAttentionNetwork

新規性・結果・なぜ通ったか?

ReIDのためのアテンション機能を実装したネットワークHA-CNNを提案。CUHK03, Market-1501, DukeMTMC-ReID datasetにてState-of-the-art。

コメント・リンク集

ReIDは特に研究が早く、前のSOTAがひとつの国際会議で何件も越される状況になっている。

[#273]
2018.7.19 00:49:28
Deep Group-Shuffling Random Walk for Person Re-Identification
Yantao Shen, Hongsheng Li, Tong Xiao, Shuai Yi, Dapeng Chen, Xiaogang Wang
CVPR 2018

概要

従来の人物再同定(Person Re-identification; ReID)においてはProbe画像を入力として、Gallery画像内を探索してランクづけを行うことで探索を行う(P2G)。本論文では、Gallery同士の関連性(G2G)も含めて評価することでよりProbe自体の探索を強化させるためのGroup-Shuffling Random Walk Networkを提案。提案のネットワークはEnd-to-Endかつ単純な行列演算でG2Gの関連性からP2Gをより正確に推定するためのリファインメントを行う。特徴のグルーピングとグループのシャッフルを行うことでより良い人物特徴を学習可能とした。

180718GroupShufflingRandomWalk

新規性・結果・なぜ通ったか?

入力と検索画像群を比較するのみならず、検索画像群同士の関連性も記述しておくことで、ReIDのためのよりよい画像検索を実施することに成功した。特徴のグルーピング/ランダムシャッフルにより、より良い特徴評価を行えるように学習した。Market-1501,CUHK03,DukeMTMCデータセットにおいてState-of-the-art。

コメント・リンク集

SenseTimeが誇る44の研究のうちの一つ。CUHK-SenseTimeは(ひとつ前の会議の)自らの精度を打ち破ればState-of-the-artと言える。世界一である強みを活かしてこれからもどんどんReIDの論文を書いて欲しいと思う。

[#274]
2018.7.18 20:47:20
Multiple Granularity Group Interaction Prediction
Taiping Yao, Minsi Wang, Bingbing Ni, Huawei Wei, Xiaokang Yang
CVPR 2018

概要

入力された短期(数秒レベル)の動画像から、グループ行動・インタラクションとして未来の姿勢の状態を推定する枠組みを提案する。モデルとしてはBi-directional LSTMを適用し、グローバル/ローカルな行動を評価できるようにする。ここでは、Bi-directional LSTMに与える情報として関節点と姿勢全体を入力として、内的に動線と行動(action)を予測するように学習される。誤差は行動推定や動線予測との推定の差分により計算する。

180718GroupInteractionPrediction

新規性・結果・なぜ通ったか?

従来の行動予測は単一人物に着目されがちであったが、本論文では姿勢としてグループ行動を予測するところに新規性がある。平均誤差(displacement)ではSocial-LSTM、単純なBidirectional-LSTMなどと比較しても提案手法(マルチタスクにより学習するBi-directional LSTM)が総合的にもっとも小さい値となっている(行動ごとにおいても大体において誤差が小さい)。

コメント・リンク集

グループ行動予測とは。。これは思いつきそうで思いつかなかった(やればよかった)。

[#275]
2018.7.18 15:46:27
Wing Loss for Robust Facial Landmark Localisation With Convolutional Neural Networks
Zhen-Hua Feng, Josef Kittler, Muhammad Awais, Patrik Huber, Xiao-Jun Wu
CVPR 2018

概要

顔に関するランドマーク検出を効果的に行うための誤差(に対する重み付け)関数WingLossを提案。L2,L1とSmoothL1と比較して、より小領域や中領域に対してアテンションをつけるべきというところから発想されており、(-w,w)。の区間でL1誤差からLog関数に切り替えるべきと主張。もうひとつの主張はData Imbalance(顔中心を境に左右どちらかが欠ける問題?)に対して、データ拡張(bboxを並進させるといった解決策)を用意。さらに確実性を高めるため、two-stepによるランドマーク検出を行った。データとしてはAFLWや300Wデータセットを適用した。

180718WingLoss

新規性・結果・なぜ通ったか?

誤差関数が重要と言われる深層学習の中で、顔ランドマーク検出の問題についてはあまり効果的な策がなかったが、本論文で提案するWingLossは打開策になると主張(従来のL2誤差ではアウトライアに対して弱い)。

コメント・リンク集

良いと言われていた誤差関数、問題ごとに意外とよくないものもあるかも?一個一個調べて欲しい。

[#276]
2018.7.18 15:11:43
Unifying Identification and Context Learning for Person Recognition
Qingqiu Huang, Yu Xiong, Dahua Lin
CVPR 2018

概要

人物自体(e.g. 個人同定、頭部推定)の推定のみでなく、人物に関連するコンテキスト(e.g. イベントと人物、人物間)についても学習できるようなモデルを提案する。本論文ではRegion Attention Networkを提案し、インスタンスごとに関連する視覚特徴を対応づける学習を行う個人の認識だけでなく、個人間やイベントとの関連付けを行う。右図は本論文で行おうとしていることが書かれており、従来型の顔認識(Face)のみでは個人認証に失敗する可能性が高いが、提案のVisualContext/SocialContextを用いることにより、個人認証を成功させる確率が高くなると主張。データセットとしてはPIPA(参考文献27)、本論文にて提案のCast In Movies(CIM)を用いた。

180718IdentificationContextLearning

新規性・結果・なぜ通ったか?

データセットとしてはPIPA(参考文献27)、本論文にて提案のCast In Movies(CIM)に対して処理を実行し、いずれのデータセットについてもState-of-the-artな精度を達成した。

コメント・リンク集

センスタイム44本のうちの一本である。

[#277]
2018.7.18 14:44:31
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
Soheil Kolouri, Gustavo K. Rohde, Heiko Hoffmann
CVPR 2018
Kazushige Okayasu

概要

・GMMのパラメータを推定する手法の提案・ラドン変換でスライシングし低次元化 ・p-Wasserstein距離の最小化を用いてGMMのパラメータ推定

Sliced Wasserstein Distance for Learning Gaussian Mixture Models

新規性・結果・なぜ通ったか?

・Kullback-Leibler divergenceベースの手法より初期値に対してロバスト・GMMは画像認識では多く使われているため,応用先が多い

コメント・リンク集

[#278]
2018.7.20 22:18:26
Image Blind Denoising With Generative Adversarial Network Based Noise Modeling
Jingwen Chen, Jiawei Chen, Hongyang Chao, Ming Yang
CVPR 2018
Kazushige Okayasu

概要

・GAN-CNNベースのノイズ除去手法のGAN-CNN Based Blind Denoiser (GCBD)を提案・GANを用いてノイズ画像生成し,ノイズが無い画像とセットでCNNでノイズ除去

Image_Blind_Denoising_With_Generative_Adversarial_Network_Based_Noise_Modeling

新規性・結果・なぜ通ったか?

・未知ノイズの除去に対して初めてGANというアプローチを用いた.・ノイズ除去のGANのアプローチではノイズ無し画像とノイズ有りのペアが必要だが本手法ではノイズ有りの画像を生成するので,ペア画像を準備する必要ない

コメント・リンク集

[#279]
2018.7.20 20:02:47
Resource Aware Person Re-identification across Multiple Resolutions
Y. Wang et al.,
CVPR 2018
Kensho Hara

概要

Person Re-IDでは単純な色とかだけで簡単に認証できる人もいれば,かなり高次の情報を使わないと難しい人もいる. 従来手法だとそのようなものを全部含めてCNNで高次特徴表現して使っているが, それは無駄もあるので対象に合わせたレベルの表現を単一のモデルで行う手法を提案. やっていることは単純で,ResNetの各ステージごとにGlobal Average Pooling & FCでベクトルを計算し, ステージごとにLossを計算できるようにする. これにより,途中のステージで十分近いサンプルが見つかるようなクエリは打ち切ることを可能にしている.

新規性・結果・なぜ通ったか?

  • 利用可能な計算資源を考慮したPerson Re-IDを実現
  • 普通のRe-IDの設定でも,複数のデータセットでSOTAを達成

コメント・リンク集

  • 論文
  • 手法は単純だし,実際イントロでStraightforwardな変更を追加,物体検出やセグメンテーションでは前からあるアイディア, とかネガティブ表現してる
  • 計算資源考慮はUbicompとかだと前からよくあったけど,CV分野でも少しずつ増えてきている印象
[#280]
2018.7.24 09:51:43
Non-Linear Temporal Subspace Representations for Activity Recognition
A. Cherian et al.,
CVPR 2018
Kensho Hara

概要

人物行動認識などの多変数時系列データを扱うための新たなPooling手法を提案. 従来はRank Poolingで時系列情報を保持したPoolingがされていたが, ユークリッド空間が仮定されていたり,線形のランク制約が使われていたりと問題があった. そこで,この研究ではKernelized Rank Poolingを提案し, 無限次元のKernel Hilbert Spaceにマッピングした上でのPoolingを実現している. RGB動画や人物スケルトンデータを用いた行動認識タスクに置いてSOTAを達成.

新規性・結果・なぜ通ったか?

  • Rank Poolingをカーネル化して時系列データのPoolingにおいて非線形な扱いを実現
  • 複数のデータセットでSOTAを達成

コメント・リンク集

  • 論文
  • データセットのチョイスがちょっと謎で,UCF-101くらい結果出して欲しかった感がある.やったけどだめだったのか?と疑ってしまう.
  • HMDB-51でTwo-stream I3Dに勝ったとしているが,KineticsでのPretrainingをなしにした場合の結果で比較した時の話.
[#281]
2018.7.23 14:11:55
A Bi-directional Message Passing Model for Salient Object Detection
Lu Zhang, Ju Dai, Huchuan Lu, You He and Gang Wang
CVPR2018
204

概要

Salient object detection(SOD)のために,マルチレベルの特徴を統合するbi-directional message passing modelを提案.Multi-scale Context-aware Feature Extraction Module (MCFEM)を用いて豊富なコンテキストの情報を得て,双方向構造によりマルチレベル特徴の間でメッセージをやり取りするように設計される.その間にはゲート機能があり,メッセージの通過率を制御する.最終的にマルチレベル特徴を統合してsaliencyを予測し,それらを融合して出力を得る.

20180723_MCFEM.jpg

新規性・結果・なぜ通ったか?

SODの研究で未解決課題だったマルチレベルの特徴を統合する手法を提案した.ECSSDやPASCAL-Sなどの5つのデータセットを用いてF値とMAEを比較した結果,全てのデータセットにおいて提案手法が最も良い性能となった.

コメント・リンク集

複数スケールの特徴マップの統合は例に漏れずこの分野でも用いられている.(内容とはあまり関係ないが,この分野の論文は結果比較表を結果順に色をつける傾向がある?)

[#282]
2018.7.23 16:25:50
Defocus Blur Detection via Multi-Stream Bottom-Top-Bottom Fully Convolutional Network
Wenda Zhao, Fan Zhao, Dong Wang and Huchuan Lu
CVPR2018
386

概要

Defocus blur detection (DBD)をEnd-to-endで行うBTBNetを提案.FCNを用いて,入力画像からピクセル単位のDBDマップを直接推論する.Defocusやblurの程度がスケールに影響されやすいことから,異なるスケールの入力画像に対応したマルチストリームBTBNetを用いることで性能を向上させた.また,ボトム・トップにエンコードされたマップをトップ・ボトムにエンコードされたローレベル特徴をマージする.評価用のデータセットの作成も行い,既存のデータセットとあわせて性能評価を行った.

DBD:画像内の焦点が合った領域と焦点が合っていない領域の分割.

20180723_BTBNet.jpg

新規性・結果・なぜ通ったか?

DBDをEnd-to-endで行う最初の試みである.データセットはShiによるデータセットのみであるため,自らでデータセットの収集を行った.提案データセットは低コントラストの焦点ボケや複雑背景を含むので,非常に挑戦的である.他の手法とF値とMAEを比較して性能が良いことを示した.

コメント・リンク集

データセットは近日公開とのこと.

[#283]
2018.7.23 16:21:36
Salient Object Detection Driven by Fixation Prediction
Wenguan Wang, Jianbing Shen, Xingping Dong and Ali Borji
CVPR2018
201

概要

Fixation prediction(FP)を用いてSalient object detection(SOD)を行い,画像内の顕著な物体を識別しセグメンテーションするAttentive Saliency Network (ASNet)を提案.FPによって得られるFixation mapは,画像シーンの高レベルでの理解を行い,SODで細かい物体レベルでのセグメンテーションを行う.ASNetはconvLSTMを階層構造にしたもので,トップダウンに最適化される.

※FP:人間がひと目見て焦点を当てる場所を予測する.SOD:画像内の顕著な物体領域を強調(検出)する.

20180720_ASNet.jpg

新規性・結果・なぜ通ったか?

Visual saliencyの主要なタスクのFPとSODについて,あまり探求されていない両者の関係について焦点をおいて新しいネットワークを開発した.学習用と評価用で別のデータセットを複数用いている.SOTAを含む他の手法と比較して同等またはそれ以上の性能(F値,MAE)を示した.正確なSODのために,Fixation mapが補助になっていることも示した.

コメント・リンク集

FPとSODについてあまり良く知らなかったが,本手法は人間が物体を見る時に近い,という点で理に適っており良いアイデアだと感じた.

[#284]
2018.7.23 16:13:57
Flow Guided Recurrent Neural Encoder for Video Salient Object Detection
Guanbin Li, Yuan Xie, Tianhao Wei, Keze Wang and Liang Lin
CVPR2018
403

概要

動画のsalient object detection(SOD)をend-to-endで学習するflow guided recurrent neural encoder(FGRNE)を提案.Optical flowとsequential feature evolution encodingの情報をLSTMで用いることで,フレームごとの特徴量の時間的コヒーレンスを強化する.これは,FCNベースのstatic saliency detectorを動画のSODに拡張する普遍的なフレームワークであると言える.

20180723_FGRNE.jpg

新規性・結果・なぜ通ったか?

SOTAのsaliency detectorを画像から動画に拡張した.DAVISとFBMSデータセットを用いて比較した結果,様々な手法と比較して最も良い性能を達成した.

コメント・リンク集

Saliency mapを比較すると,他の手法はうまく検出できないか細部が欠けているが,提案手法はGTに近い.

[#285]
2018.7.23 16:09:36
Fast Video Object Segmentation by Reference-Guided Mask Propagation
Seoung Wug Oh, Joon-Young Lee, Kalyan Sunkavalli and Seon Joo Kim
CVPR2018
967

概要

半教師ありの高速なVideo object segmentation(VOS)手法の提案.VOSでよく使われる物体マスクの伝搬と物体検出の2つを用いたdeep siamese encoder-decoder networkを設計した.少ないデータでも良い精度が出るように,学習時は合成データで事前学習を行い実データで微調整する2段階学習を行い,オンライン学習や後処理は不要である.合成データは,1枚の画像内で物体マスクを用いて物体位置を変更した画像の生成と,背景と物体マスクのペアを用いて背景に物体を合成した画像の2種類を用いている.

20180720_FVOS1.jpg

新規性・結果・なぜ通ったか?

速度を上げながらもSOTAと同等の性能を達成した.DAVIS-2016/2017,SegTrack v2を用いて評価し,性能はSOTA同等だが速度はSOTAが0.3~13secに対して,本手法は0.13secで処理可能である.

コメント・リンク集

タスク的に,合成画像を用いて移動を再現して学習するのは賢いと思った.Adobe Researchのインターン結果とのこと.

[#286]
2018.7.23 16:04:03
DoubleFusion: Real-time Capture of Human Performances with Inner Body Shapes from a Single Depth Sensor
Tao Yu, Zerong Zheng, Kaiwen Guo, Jianhui Zhao, Qionghai Dai, Hao Li, Gerard Pons-Moll, Yebin Liu
CVPR 2018
1321
Kazuki Inoue

概要

パラメトリックな身体形状表現とノードグラフによって表された外側のレイヤーを用いることで、単眼のデプスカメラのみから詳細なジオメトリの復元、非剛体のモーション、人間の内部のshapeの復元をリアルタイムで行う手法を提案。外側のレイヤーで使用されるノードグラフは、体付近の変形を表現するための事前に定義されたものと、体から離れたスカートなどを表すfree-form dynamically changing graphからなる。身体形状表現にはSMPLを使用する。身体形状と、外部のノードグラフの最適化を同時に行うことで、身体形状と外側のジオメトリの2つのトラッキングを可能にした。

Item3Image

新規性・結果・なぜ通ったか?

  • 既存手法であるBodyFusionに比べてトラッキングの精度が高い。
  • 既存手法では欠損やノイズが出るような形状でも、正確にリコンストラクションが可能。
  • BodyFusionのでも動画と見比べてみると、よりダイナミックな動きにも対応できているように見える。

コメント・リンク集

[#287]
2018.7.22 08:09:15
CNN in MRF: Video Object Segmentation via Inference in A CNN-Based Higher-Order Spatio-Temporal MRF
Linchao Bao, Baoyuan Wu, Wei Liu
CVPR 2018
1249
Kazuki Inoue

概要

ターゲットオブジェクトの初期フレームのマスクが与えられた状態で、動画内のターゲットオブジェクトに対するセグメンテーションをMarkov Random Field (MRF)とCNNを組み合わせて行う手法を提案。CNNを用いた従来の手法では各フレームごとに対してのみしか処理できなかったことに対し、提案手法ではCNNによってエンコードされる空間特徴量をMRFに利用する。また、時間的な情報をもつオプティカルフローを用いることでさらなる精度を向上を達成。

Item3Image

新規性・結果・なぜ通ったか?

  • データセットごとにファインチューニングを行っていないにも関わらず、多くの設定でSoTA、あるいはSoTAと同等な精度を達成。
  • appearance-based one-shot segmentation CNNで初期化した場合には、DAVIS 2017 Challengeの優勝モデルよりも高い精度をもつ。
  • DAVIS 2017, DAVIS 2016, Youtube-Objects, SegTrack v2で実験。

コメント・リンク集

[#288]
2018.7.22 07:12:21
Shape from Shading through Shape Evolution
Dawei Yang and Jia Deng
CVPR 2018
127
Kazuki Inoue

概要

実画像のshape-from-shadingをDNNに学習させる際のデータとして、CGのシンプルなプリミティブを用いて作成されたshapeデータを用いる手法を提案。既存手法では全て人手で作成されたデータを用いていた。提案手法ではシンプルなプリミティブを組み合わせて複雑な形状データセットを適宜作成して、DNNの学習を行うことでデータ不足を解決。またバリデーションは実画像で行うため、実画像がもつ形状とかけ離れた形状を持つトレーニングデータは捨てられて行くため、合成画像に対する過学習を防ぐ。ネットワークはstacked hourglass networkを使用。

Item3Image

新規性・結果・なぜ通ったか?

  • シンプルなプリミティブを組み合わせてデータを増やすことで、トレーニングの際には実画像は一切使っていないにも関わらず、実画像に対するshape-from-shadingにおいてSoTAを達成。
  • ablation studyにより、提案手法の各モジュールの重要性を確認。
  • MIT-Berkeleyで評価を行った。

コメント・リンク集

  • プリミティブから複雑なshapeを構築するのはgraphicsでは相当古典的であり、温故知新を体感することができ非常に面白い!
  • プリミティブからデータを構築するごとにネットワークがファインチューニングされていくため、入力に対する最適な結果を見つけるためにはいくつかの重みで検証する必要がある?
  • 論文
[#289]
2018.7.22 06:36:05
Lean Multiclass Crowdsourcing
Grant Van Horn, Steve Branson, Scott Loarie, Serge Belongie, Pietro Perona
CVPR 2018
1324
Kazuki Inoue

概要

実画像に対するマルチクラスアノテーションをクラウドソーシングで行う際に有効な方法を提案。1枚の画像に対して複数のワーカーがアノテーションを行うが、既存手法ではアノテーションに対する各ワーカーの重みは均等に決められていた。これに対し、提案手法ではユーザのスキルやそれまでのアノテーションの実績を考慮して重みを決定する。ワーカーのスキルによるアノテーションのラベルを条件付き分布として扱う。スキルとアノテーションラベルが独立なモデルに加えて、スキルとラベルが独立でないモデルを構築することで、よりワーカーのスキルを反映したクラウドソーシングを行うことが可能。また、スキルとラベルを線形SVMで学習することで、より効率的にデータセットの構築を可能にした。

Item3Image

新規性・結果・なぜ通ったか?

  • 既存手法に比べて、各画像に対するアノテーションを5.4個減らすことができ、より確信度の高いアノテーションを実現したと主張。
  • クラウドソーシングの結果を線形SVMで学習したところ、既存のクラウドソーシングよりもエラー率を90%減らすことが可能であったと主張。
  • 生物学上同じように分類されるクラスのような複雑なアノテーションに対しても低いエラー率を達成することができたことから、ワーカーの有する専門知識を活用できたことを確認。

コメント・リンク集

  • SVMの結果が良いことからトレーニングデータが高品質なことが伺えるため、良いクラウドソーシング手法だと言うことが確認できる。機械学習の結果が良い、ということもクラウドソーシング結果の一つの指標になるかもしれない?
  • クラウドソーシングの実験に対するGTのアノテーションは誰が行ったのだろうか。
  • 論文
[#290]
2018.7.22 05:55:16
Analytic Expressions for Probabilistic Moments of PL-DNN with Gaussian Input
Adel Bibi, Modar Alfadly, Bernard Ghanem
CVPR 2018
487
Kazuki Inoue

概要

(Affine, ReLU, Affine)から構成されるpiecewise linear (PL) network(e.g. LeNet)のガウシアンノイズに対する平均値と分散を解析することで、DNNの性質を調査した論文。理想的には出力される値の確率分布を観測したいがそれは難しいため、平均値と分散に対する解析をおこなう。実験の内容は以下の通り。また以下の実験を通してadversarial attackの生成法についても提案している。

  • 実験1:ランダムに重みが決定された総数のことなるfully connected net、fully convolutional netに対して分散が異なる3種類のガウシアンノイズから生成される7.5x104サンプルの入力を計200回行った
  • 実験2:LeNet+MNISTに対してガウシアンノイズから生成される7.5x104サンプルの入力を計200回行った
  • 実験3:AlexNet+ImageNetに対して、画像にVGG16’s universal noiseと、それに加えてガウシアンノイズを乗せた時のfooling rateの関係性を調査。
  • 実験4:PL-Netの2つのAffineブロックにおけるlinearlizationパラメタの変化に対する、平均と分散の調査。

Item3Image

新規性・結果・なぜ通ったか?

  • 実験1、2、4より、様々な設定においてもPL-Netにおける出力と、モンテカルロ法によって計算される平均値と分散に強い正の相関関係が確認でき、PL-Netによる出力は狭い領域にあることを確認することができた。
  • 実験3より、どちらの設定でもfooling rateがほとんど同じであったため、PL-Netの出力の平均値と分散からfooling rateを推測可能と主張。
  • 実験1〜4の知見を元に、adversarial attackの生成方法を提案。

コメント・リンク集

[#291]
2018.7.22 03:29:31
Fast and Accurate Online Video Object Segmentation via Tracking Parts
Jingchun Cheng, Yi-Hsuan Tsai, Wei-Chih Hung, Shengjin Wang, Ming-Hsuan Yang
CVPR 2018
423
Kazuki Inoue

概要

動画内のターゲットオブジェクトに対するセグメンテーションをオンラインかつ正確に行うために、ターゲットの各パーツに対するトラッキングとセグメンテーションを行う手法を提案。既存手法ではターゲット全体に対するセグメンテーションを学習する必要があったため、動画ごとにネットワークのファインチューニングが必要など、オンラインでセグメンテーションを行うことができたなかった。提案手法は以下の3つの要素から成る。

  • part-based tracking:オクルージョンや形状の変化に対応するため、初期フレームから代表パーツが選択されROIとしてトラッキングを行う。
  • region-of-interest segmentation:各ROI内の各パーツに対してCNNベースのROI SegNetをトレーニングを行う。
  • similarity-based aggregation:より精度を高めるために、初期フレームのマスクとトラッキングされたパーツの類似度を測る。

Item3Image

新規性・結果・なぜ通ったか?

  • セグメンテーション結果を既存手法と比較した結果、精度を保ちつつ13倍程度速くなっている。(0.6FPS)
  • トラッキングの精度においても、IoU-recall curvesを比較尺度として提案手法がもっとも良い結果となっている。
  • Ours-part:提案手法に加えてSSDを用いてターゲットのバウンディングボックスを決定。
  • Ours-ref:Ours-partに加えて、dense CRFによって物体境界の精度を向上。

コメント・リンク集

[#292]
2018.7.22 00:56:58
Augmented Skeleton Space Transfer for Depth-based Hand Pose Estimation
Seungryul Baek, Kwang In Kim, Tae-Kyun Kim
CVPR 2018
128
Kazuki Inoue

概要

デプスがアノテーションされた人間の手のポーズのデータオーギュメンテーションを行うために手の骨構造とCycle GANを用いた手法を提案。オーギュメンテーションを行う際に、デプスを変更してしまうと実際にはありえない手の形状になってしまう。そのため、提案手法では手の骨構造を変更することで、データオーギュメンテーションを行う。提案手法はデプスから骨構造を推定するhand pose estimator (HPE)、骨構造からデプスマップを生成するhand pose generator (HPG)、実画像と合成画像を識別するhand pose discriminator(HPD)からなる。まず既存のデータセットを用いてHPEを学習し、次にHPE、HPG、HPDでデプスマップ、骨構造に対してcycle consistencyが保たれるようにGANによる学習を行う。実験では骨構造の推定精度を既存研究と比較する。

Item3Image

新規性・結果・なぜ通ったか?

  • hand pose estimationのベンチマークであるICVL、MSRA、NYU、Big Hand 2.2M datasetsで実験。全てデータセットにおいてSoTAを達成。
  • 骨構造を入力とすることでデプスマップを生成することができるため、既存データセットに対するデータ数の増加を行うことが可能。
  • トレーニングデータとは大きくかけ離れたデータに対する精度はまだ高くないことを主張している。

コメント・リンク集

  • Cycle GANをうまく使った論文。ハンドポーズからデプスは恐らく学習が難しいが、デプスからハンドポーズをを推定するHPEの学習が可能なため、Cycle GANの学習もうまくいっていると考えられる。
  • 論文
[#293]
2018.7.21 23:09:27
Features for Multi-Target Multi-Camera Tracking and Re-Identification
Ergys Ristani and Carlo Tomasi
CVPR 2018
3817
Kazuki Inoue

概要

Person Re-Identification (Re-ID)に対して有効なtriplet lossによってトレーニングしたCNNによってRe-IDとMulti-Target Multi-Camera Tracking (MTMCT)を行う手法を提案。Re-IDとはカメラに写っている人物をクエリの中にある人物と対応させること、MTMCTとは複数のカメラで撮影された映像を用いて同時刻の複数人の位置を把握することである。CNNをトレーニングする際のtripletの重みをアンカーとの類似度におけるsoftmax/minとする。各バッチにはアンカー画像と、アンカー画像にもっとも類似度が高いhard-negatives、ランダムにサンプルされた画像によって構築する。また、よいトラッキングとよいre-IDのスコアの相関関係を算出することで、両タスクの関係性を調査。

Item3Image

新規性・結果・なぜ通ったか?

  • MTMCTにおいて多くの設定でSoTA。(いくつかの設定でMTMC_ReIDに劣っている)
  • Re-IDのmAP、rank-1 accuracyにおいてSoTAを達成。
  • MTMCTのスコアとRe-IDのスコアに相関関係があることを示し、片方の精度をあげることでもう一方の精度も挙げることを主張。

コメント・リンク集

[#294]
2018.7.21 20:11:47
Multi-Task Adversarial Network for Disentangled Feature Learning
Yang Liu, Zhaowen Wang, Hailin Jin, Ian Wassell
CVPR 2018
1589
Kazuki Inoue

概要

ターゲットとなるファクターを認識するmulti-task learningを行う上で、ターゲットとなるファクター(content)を識別可能かつ、それ以外のファクター(style)を識別不可能な特徴量を学習するmulti-task adversarial network (MTAN)を提案。従来のmulti-task learningではファクターごとに共通の特徴量表現を学習していた。提案手法ではencoderから得られた特徴量に対してターゲットとなるファクターの識別が可能なように識別器を学習させる一方で、それ以外のファクターについてはdiscriminatorとadversarial gameを行うことで、識別が不可能なように学習を行う。またターゲットとなるファクターをよく学習するように、ターゲット以外のファクターをアトリビュートとした画像生成を行っている。

Item3Image

新規性・結果・なぜ通ったか?

  • fontとfaceのデータセットで実験。font recognition, 及びface recognitionにおいて既存手法よりも高い精度を達成。
  • スタイルの識別に関するロス関数としてクロスエントロピーではなくWGANを参考にEarth Mover’s Distanceを導入したことで、最適化の安定化を実現。
  • ablation studyを行った結果、提案したモデルがもっとも高い精度を達成したことを確認。

コメント・リンク集

  • スタイルとコンテンツを同時に学習したことをマルチタスクと読んでいる。ただしアプリケーションとしてはコンテンツの認識と、画像生成。
  • adversarial gameによる拡張版triplet-lossのような学習方法。
  • 論文
  • Supplementary material
[#295]
2018.7.21 18:48:46
Group Consistent Similarity Learning via Deep CRF for Person Re-Identification
Dapeng Chen, Dan Xu, Hongsheng Li, Nicu Sebe, Xiaogang Wang
CVPR 2018
1057
Kazuki Inoue

概要

person re-identification(RE-ID)を行うために、グラフモデルであるCRFによって構築されたデータセット内の画像全ての類似度を用いる提案。RE-IDとは異なる映像から同一人物を検出することである。既存手法では2組~4組の画像の類似度を学習する手法をとっていたが、データセット全ての関係性を学習する。DNNによって得られた画像特徴量を用いて画像ペア類似度を学習し、このペア類似度とCRFによってグループ類似度を計算する。

Item3Image

新規性・結果・なぜ通ったか?

  • データセットとしてMarket-1501、DukeMTMC-reID、CUHK03を使用。評価指標はrecognitionに対するmAP、top1-accuracy、top5-accuracy。
  • 全ての状況においてSoTAを達成。mAPは8.5%、top1-accuracyは4.5%ほど向上している。
  • ablation studyにより、提案手法の有効性を確認。
  • t-SNEによる可視化により、提案手法を用いた方が特徴量空間で人物をよく分離できていることを確認。

コメント・リンク集

  • Market-1501やDukeMTMC-reIDでトレーニングしたモデルをCUHK03でテストした際にもSoTAとなっており、データセットに強く依存しそうなグループ類似度を学習にも関わらずドメインの影響をあまりいけていないのがすごい!それともそれを上回るほどグループ類似度が強力?
  • 論文
[#296]
2018.7.19 18:22:11
Structured Set Matching Networks for One-Shot Part Labeling
Jonghyun Choi, Jayant Krishnamurthy, Aniruddha Kembhavi, Ali Farhadi
CVPR 2018
2732
Kazuki Inoue

概要

実画像と線画のオブジェクトに対するパーツ位置推定をCNNによるone-shot学習で行うStructured Set Matching Network (SSMN)を提案。ソース画像とターゲット画像はどちらもパーツのラベルとカテゴリクラスを持つが、ソース画像はラベルとともにパーツ名を持つが、ターゲット画像はパーツ名を持たない。またソース画像は各カテゴリに対して1枚のみ。SSMNではラベルのマッチングを画像の変形で行うことができると仮定し、ラベル位置の局所特徴量と、全ラベルの相対位置の一貫性を考慮することでパーツラベリングを行う。データセットの構築も行っている。また線画を入力とする際には、distance transformationが有効であったと主張。

Item3Image

新規性・結果・なぜ通ったか?

  • 実画像間、線画間、実画像をソースとした線画へのパーツラベリングの3つの実験を行い、全てにおいてSoTA。
  • distance transformationやラベルの相対位置の考慮の有効性を主張
  • 3種類のデータセットを構築
    • Diagram Part Labeling (DiPART):4921枚、200カテゴリ、10種類のパーツ名とその位置のアノテーションを持つ線画データセット
    • Pascal Part Matching (PPM):92780枚、8カテゴリ、10種類のパーツ名とその位置のアノテーションを持つ実画像データセット
    • Cross-DiPART-PPM:22669枚、5カテゴリ、4つのパーツ名とその位置を持つ実画像と線画のデータセットを構築

コメント・リンク集

  • one-shotで行った理由としてデータ不足をあげているが、正確なアノテーション画像が一枚であれば、ラベリングの任意性を避ける意味では、むしろone-shotの方が都合がいい?
  • 論文
  • Supplementary Material
  • Project page
[#297]
2018.7.18 05:32:14
Decoupled Networks
Weiyang Liu, Zhen Liu, Zhiding Yu, Bo Dai, Rongmei Lin, Yisen Wang, James M. Rehg, Le Song
CVPR 2018
4133
Kazuki Inoue

概要

CNNのコンボリューションにおける内積計算について、より識別精度を高くするためのノルム関数、角度関数を提案。CNNは画像パッチとconvolutional layerとの内積を行い、右図のように、角度方向に異なるクラスを、動径方向に同一クラスを並べる。これに着想を得て、CNNの内積計算を行う際にL2ノルムやcosineの代わりとなるノルム関数、角度関数を提案。ノルムについては大きさが有界な3つの関数、非有界な3つの関数、角度関数については3つの関数を提案。ノルム関数が有界な場合にはadversarial attackに頑健になり、ノルム関数が非有界な場合には様々な種類のインスタンスに対応することが可能となる。モデルに不変であるため、様々なCNNに適用することが可能。

Item3Image

新規性・結果・なぜ通ったか?

  • CIFAR-10、CIFAR-100に対する物体認識において、提案手法+ResNet32がResNet1001よりも高い精度を達成。
  • 通常のCNNよりも速く収束することを確認。
  • White/Black -box adversarial attackのどちらに対しても通常のCNNよりも高い精度を達成。

コメント・リンク集

  • 識別精度を上げるという意味では、角度方向にクラスを並べると原点付近で曖昧さが残ってしまうので、異なるクラスが大きく離れるように学習したほうが精度が上がるように思えるがどうなのだろう?
  • 論文
  • Supplementary Material
[#298]
2018.7.18 01:56:15
Partial Transfer Learning with Selective Adversarial Networks
Zhangjie Cao, Mingsheng Long, Jianmin Wang, Michael I. Jordan
CVPR 2018
1363
Kazuki Inoue

概要

大規模なデータセット(ソースドメイン、SD)で学習したclassifierを、そのデータセットの一部のクラスをもつラベルなしデータセット(ターゲットドメイン、TD)へのdomain adaptationをGANで行うPartial Transfer Learningを提案。既存手法ではデータセットのもつラベル数に関わらずdomain adaptationをおこなっていたため、adaptation後のclassifierが前のclassifierよりも悪い精度をもつnegative transferが起きてしまっていた。提案手法では、右図のように、generatorから得られた特徴量をclassifierは学習するため、SDのインスタンスで識別率が悪いもののクラスはTDに所属していない可能性が高い。そのため、識別率を重みとすることでSDから学ぶべきインスタンスを学習することで、TDへのnegative transferを防ぐ。

Item3Image

新規性・結果・なぜ通ったか?

  • Office-31, Caltech-Office, ImageNet-Caltechで検証。ADDAなどの既存手法と比較
  • 画像識別において、全てのデータセットでSoTAを達成。
  • ターゲットのクラス数を変化させた際の精度を比較しており、RevGradではクラス数が減るとともに精度も落ちているが提案手法では比較的精度が保たれている。

コメント・リンク集

[#299]
2018.7.18 00:41:20
Learning Transferable Architectures for Scalable Image Recognition
Barret Zoph, Vijay Vasudevan, Jonathon Shlens, Quoc V. Le
CVPR 2018
3298
Kazuki Inoue

概要

各データセットに対して最も有効なCNNを構築する手法NASNetを提案。大規模なデータセットを扱う際にはそのまま学習するのではなく、小規模なデータセットで学習したアーキテクチャを用いてスクラッチで学習する。論文では小規模なデータセットとしてCIFAR-10、大規模なデータセットとしてImageNetを使用している。NASと呼ばれるアーキテクチャ探索手法を用いてCNNの各ブロックを構築しており、CNN全体を構築するよりも7倍速く構築することができると主張。

Item3Image

新規性・結果・なぜ通ったか?

  • 既存の手法とは異なり、小規模なデータセットを学習することで得られたアーキテクチャをそのまま大規模なデータセットに適用することができること。
  • 画像識別においてCIFAR-10ではエラー率2.4%を達成し、SoTA。ImageNetではパブリッシュされた論文におけるSoTAである82.7% top-1 and 96.2% top-5となり、人間が構築したモデルよりも高い精度を達成した。
  • NASNetから得られる特徴量を物体検出に用いた結果、COCOで43.1% mAPを達成し、Faster-RCNNよりも4.0%高い精度となった。

コメント・リンク集

[#300]
2018.7.17 22:57:47
Art of singular vectors and universal adversarial perturbations
Valentin Khrulkov and Ivan Oseledets
CVPR 2018
3771
Kazuki Inoue

概要

ソース画像に不変なadversarial pertubationをCNNの特徴量マップを近似して得られる特異値によって生成する。adversarial petubationとはDNNが画像識別などにおいて誤認識を起こさせるように画像に加えられるパターンのこと。CNNから得られる特徴量マップはヤコビ行列によく近似できることが知られているため、特徴量マップをヤコビ行列に近似し、(p, q)特異値によってpetubationを生成する。行列Aの(p, q)特異値は以下の最適化問題を解くことで得られる。

||Av||q → max, ||v||p = 1

Item3Image

新規性・結果・なぜ通ったか?

  • ILSVRC 2012 validation datasetの64x64の1000クラス画像50000枚を用いた結果を用いており、fooling rateはおよそ40%となり、比較的小さなデータセットから良好な結果が得られたと主張。
  • 特異値とfooling rateの関係性も調査しており、qが大きくなるほどfooling rateも高くなることを主張。
  • pertubationの生成と、画像識別のfooling rateの調査ではどちらもVGG16、VGG19、ResNet50を使用している。

コメント・リンク集

  • 今回の実験ではトレーニングでもテストでも同じデータセットを使用しているが、生成されるpertubationは使用するデータセットのドメインには依存しないのだろうか?この手法によって、どのデータセット、どのネットワークに対しても同等なfooing rateを保つpertubationは生成できる?
  • 論文
  • Supplementary material
[#301]
2018.7.17 18:21:01
HSA-RNN: Hierarchical Structure-Adaptive RNN for Video Summarization
Bin Zhao, Xuelong Li, Xiaoqiang Lu
CVPR 2018
2266
Kazuki Inoue

概要

映像要約を行う際に、ショットセグメンテーションを映像に対して事前に行うHierarchical Structure-Adaptive RNN(HSA-RNN)を提案。既存手法では一定間隔で切り取られたフレーム群をショットとしていたが、提案手法ではショットセグメンテーションを行うことで要約の精度向上を主張。ショット検出はsliding bidirectional LSTMを、映像要約ではショット特徴量とBidirectional LSTMを用いる。映像要約だけでなくショットセグメンテーションでもSoTAを獲得。

Item3Image

新規性・結果・なぜ通ったか?

  • ショットセグメンテーションの精度をBoundary-aware RNNなどの既存手法と比較し、提案手法の精度がもっとも高いことを主張。
  • ショットセグメンテーションの精度をHierarchical RNNなどの既存手法と比較し、SoTAを獲得。
  • SumMe, TVsum, CoSum and VTWの4つのデータセットで検証。

コメント・リンク集

  • 動画に対する意味的なセグメンテーションは行動認識や、物体検出でも効果が期待できそう。
  • 動画に対する意味的なセグメンテーションはaction recognitionや、object detectionでも効果が期待できそう。
  • 論文
[#302]
2018.7.17 16:35:14
Interpret Neural Networks by Identifying Critical Data Routing Paths
Y. Wang, H. Su, B. Zhang, X. Hu
Yue Qiu

概要

  • 新たな視点で学習済みネットワークを解釈(Interpret) する手法の提案.ネットワークの予測プロセスのcritical data routing paths(CDRPs)をidentify及び統計分析することをベースとする.
  • 学習済みネットワークのテスト画像ごとのCDRPsを得られるためのDGR(Distillation Guided Routing)を提案した.Layersの出力チャネルにscalar control gateを付け, gateによりそのチャネルがcritical nodeかどうかを決める.また,知識蒸留手法からcritical nodeをcontrol gatesの値を最適化する.学習済みのcontrol gatesにより全部のlayersのcritical nodeでDGRを得られる.
  • 大量な画像からDGRを生成し,クラスタリングによりクラスの分類もできる.著者達がadversarial examplesと元のクラスの高層のDGR clusteringの分布が異なることを発見し, adversarial examplesを検出できる手法を提案した.

InterpretNN-IdentifyCDRP

新規性・結果・なぜ通ったか?

  • 従来のネットワークinterpretに関する研究が各々のフィルタなどを対象とすることが多い.この文章で新たなネットワークinterpretの視点を提案した.
  • 提案のDGRをクラスでクラスタリングし,それを用いて新たな画像に対し認識を行う場合,元のネットワークより良い精度を得られることを発見した.また,DGRをクラスでクラスタリングによりadversarial examplesをリアルデータを区別できる

コメント・リンク集

  • 各々のフィルタの活性化マップによりフィルタが学習できているセマンティックコンセプトに関する研究が多い.この文章で識別する際のcriticalルートからinterpretを行う視点が新しい.今後同じような視点でのinterpretに関する研究が多くなるように思う.

  • 論文

[#303]
2018.7.20 15:49:44
Learning Semantic Concepts and Order for Image and Sentence Matching
Yan Huang, Qi Wu, Liang Wang
CVPR 2018
Yue Qiu

概要

  • 画像キャプション生成に用いられるSemantic-enhanced画像―テキストマッチングモデルを提案した.従来の手法より画像からセマンティックコンセプト・コンセプトの順序の学習により良い性能を図る.
  • 画像キャプション生成において,画像からいかに有用な情報を抽出することはまだ改善の余地がある.従来のキャプション手法では画像からグローバル特徴を抽出するフレームワークを用いる手法が多い.しかし,画像からリージョンベースなセマンティック情報の抽出が良い性能を得る上に重要だと著者達が指摘した.
  • 提案の手法のプロセスは:①multi-region, multi-label CNNを利用した画像からセマンティックコンセプト(オブジェクト・属性・行動)を抽出する②リージョンベース情報・グローバル情報からcontext gated sentence生成スキームを利用しsemanticのorderを求める③LSTMによりsentenceを生成する.

LearningSemanticConceptsOrder-ImageSentenceMatching

新規性・結果・なぜ通ったか?

  • 従来のlanguage-visionタスクに画像認識の側グローバル情報が広く用いられている.著者達がregionベースなsemantic concepts, concepts orderを画像抽出情報としてvisionを表す.
  • Flickr30k,MSCOCOデータセットにおいて,SoTAなimage annotation and retrieval精度を得られた.

コメント・リンク集

  • 自然言語の面の理解が画像の理解より未だに深いような気がして,Language-and-visionの分解でいかに画像から有用な情報を抽出することが重要と感じている.セマンティックコンセプトだけだはなくて,画像側のもっと深い理解がこの分野に需要されているように思う.

  • 論文

[#304]
2018.7.20 15:44:37
Where and Why Are They Looking? Jointly Inferring Human Attention and Intentions in Complex Tasks
Ping Wei, Yang Liu, Tianmin Shu, Nanning Zheng, Song-Chun Zhu
CVPR 2018
Yue Qiu

概要

  • RGB-Dビデオからタスク(人が何をしようとしているのか),attention(人がどこを見ているのか),intention(どうしてそこを見るのか)を推定する新たなタスク,データセット及び手法の提案.
  • 従来のビデオから行動推定タスクに,更にintention推定を提案した.著者達がintentionをlocate,direct,guide,checkの4種類に分け,一つのintentionをhumanpose-humanAttention-objectsから構成される.Intentionの予測はビデオフレームごとに一つのintention categoryを与える.
  • 新規な提案タスクに対応する新たなグラフHAOを提案した.HAOがタスク・intention・objectsをunifiedな階層的なフレームワークにより表示できる.タスクがintentions序列から構成される.Beam searchアルゴリズムを用いて,グラフHAOからattention,intention,taskをジョイントで予測できる.

WhatAndWhyAreTheyLooking-AttentionIntention

新規性・結果・なぜ通ったか?

  • 従来のビデオから行動認識と比べて,新たに人の意図の定義し,ビデオから意図の推定も提案した.
  • 新規なRGB-DデータセットTIF(14tasks, 70intention, 28objects, 809videos)を提案した.
  • 定性的結果により,提案手法はintention推定に対し良い精度を得られる.また,attention,task推定においてそれぞれTIFデータセットでSoTAな精度を得られた.

コメント・リンク集

  • 行動をグラフ構造によりで更に細かく分解することによって,ほかのタスクに用いることがもっとflexibleになる.

  • 論文

[#305]
2018.7.20 15:39:21
Non-blind Deblurring: Handling Kernel Uncertainty with CNNs
S. Vasu et al.,
CVPR 2018
Kensho Hara

概要

ブラーのカーネルが既知の状態でモーションブラーを除去するNon-blind Deblurring (NBD) における新手法を提案. 従来のブラー除去手法では,得られているブラーカーネルがノイジーな場合, 画像のPriorに対する重みを低くするとアーティファクトが多く出るし, 逆に高くすると細かい情報が欠損してしまうという性質がある. しかしこれらは相補的に情報を持っていて,これらを組み合わせることできれいに画像を復元できるというのがアイディア. 提案手法では,まず従来手法で重みを変化させていくつもの復元画像を生成し, これらの複数画像をCNNに入力して組み合わせることで最終的な復元画像を生成する. これにより従来よりも良い復元画像を得ることに成功した.

新規性・結果・なぜ通ったか?

  • ブラーカーネルがノイジーな場合でも高品質なモーションブラーの除去を実現
  • ノイジーなカーネルを人工的に生成することで大量の学習データを得ることに成功

コメント・リンク集

  • 論文
  • 最近の流れ的にEnd-to-Endでやっちゃおうとしていないのは少し意外
  • 理論的にカッチリわかってるところはボトムアップにしないとかはあって良いとは思うけども
[#306]
2018.7.20 14:52:30
Distributable Consistent Multi-Object Matching
N. Hu et al.,
CVPR 2018
Kensho Hara

概要

多物体のマッチングを行うための新たなフレームワークを提案. このようなマッチングにおいては循環制約というものが重要になるが, それを満たす対応を求めると物体数に対してscalableなアルゴリズムとするのが難しい. 提案手法のポイントは物体の集合全体で制約を満たすようにするんじゃなくて, 重なりのある部分集合に分けてそれぞれで制約を満たすように扱うというもの. 部分集合に対して制約が満たされているときにグローバルにも制約が満たされる条件を定義して, それに沿うように部分集合を選ぶようにしている? SOTAに匹敵する精度でありながら高速なマッチングを実現.

新規性・結果・なぜ通ったか?

  • 循環制約を満たす多物体のマッチングにおける新しいアプローチを提案
  • SOTAレベルのマッチング精度でありながら非常に高速な動作を実現

コメント・リンク集

  • 論文
  • 図は,一番下が提案手法で,黄色が正しい,青色が間違ったマッチング
[#307]
2018.7.20 13:37:54
Focal Visual-Text Attention for Visual Question Answering
Junwei Liang, Lu Jiang, Liangliang Cao, Alexander Hauptmann
CVPR 2018
Yue Qiu

概要

  • Visual-Text sequencesデータから質問に対して回答するVQAの手法FVTAを提案した.
  • 携帯の写真集のような,大量な画像―付加情報(GPS,title,caption,time)の情報から質問文に対して応答するタスクに対し,我々人間がまず質問文を答えるためのhintがある画像をlocateして回答する仕組みである.そこで,著者達が質問文に応じで,動的にどの画像・時間帯を注目すべきかを決める階層的な手法FVTAを提案した. FVTAはまず質問文に基づき相関情報が含めたvisual-text sequencesをlocateし,そしてこういったsequences,questionの抽出情報により答える.
  • FVTAのプロセスは:①pre-trained CNNモデルにより画像情報抽出,pre-trained word2Vecによりwordsをembedding②Bi-directional LSTMによりwords・質問文の序列情報をエンコーディング③質問文とコンテキスト(画像・テキスト)のhidden statesを用いてFVTA tensorを計算④FVTA attentionにより質問文とコンテキストをそれぞれsingle vectorsに変換し,最終的な答えを生成する.答えはマルチクラス分類問題として解く.

FVTA-VQA

新規性・結果・なぜ通ったか?

  • MemexQA,MovieQAの2つデータセットにおいて,SoTAなパフォーマンスを得られた.
  • FVTAが質問文に対して答えるだけではなく,visual-text-question attention kernelにより,答えの根拠となる画像―テキストもpointできる.

コメント・リンク集

  • 従来の画像・質問文から回答するVQAより実用性が高い.

  • 論文

  • コード

[#308]
2018.7.19 20:40:41
Texture Mapping for 3D Reconstruction with RGB-D Sensor
Yanping Fu, Qingan Yan, Long Yang, Jie Liao, Chunxia Xiao
CVPR 2018
Yue Qiu

概要

  • RGB-Dセンサーから収集した画像でリコンストラクションした非剛体の3Dモデルのテクスチャーマッピング手法を提案した.提案手法の入力がRGB-Dビデオ序列,出力はhigh qualityテクスチャー付きのリコンストラクションした3Dモデル.
  • 幾何errors,デプスセンサーの精度などの原因でRGB-Dセンサーにより得られる3Dモデルのテクスチャーの精度が良くないことがある.この問題を解決するために,著者達がglobal-to-localな最適化手法を提案した(①global最適化でテクスチャーの姿勢を修正,②local最適化でtexture boundariesをリファイン).
  • 提案手法の流れは:①preprocessing:RGB-Dセンサーにより得られたDフレームからmeshモデルを作成し,RGBフレームからtexture candidates抽出する.②従来手法より,meshのブロックに対し,最適なtextureを選択する.③Global optimization:ブロック間のカラー・幾何一致性に基づきtextureの姿勢を最適化.④Local optimization:隣接するブロック間のテクスチャー連結部のseamless性によりテクスチャーのboundariesを最適化.

TextureMapping-3DReconstruction

新規性・結果・なぜ通ったか?

  • Kinect V1センサーによりtoy,book,hat,keyboardなどの物体で検証した結果,従来の2種類の手法より良い定性的テクスチャーマッピング結果を得られた.また,処理時間が1桁速い.
  • 従来のテクスチャーマッピングのblurring artifacts,面のバウンドリーのseam inconsistencyを改善できた.

コメント・リンク集

  • 提案手法は複雑なPre-processingが必要で,ほかの分野の人が使いにくい気がする.

  • RGB-Dセンサーの3Dモデルのテクスチャーマッピングを高精度でできるEnd-to-Endな手法が期待している.

  • 論文

[#309]
2018.7.19 20:35:29
Interpretable Convolutional Neural Networks
Quanshi Zhang, Yingnian Wu, Song-Chun Zhu
CVPR 2018
Yue Qiu

概要

  • 伝統的なCNNに変更を加え,Interpretable性を高める手法の提案.提案したInterpretable CNNの高層Conv層のfiltersがセマンティックコンセプトとのIoUがより大きい.
  • 学習済みモデルの高層convのfilterがどのようなセマンティック情報を学習されていることを可視化・統計分析によりネットワークに対しある程度のInterpretable性を評価できる.提案手法の目的は高層convのfiltersをできるだけ同じセマンティックコンセプトにしか活性化されないように学習させる.
  • 具体的には,従来のConv-layerのfiltersの出力feature mapに新たなロスを導入した.提案ロスはinter categoryのentropyを抑え,一つのフィルタが2つ以上のcategoryに活性化されないように学習ができる.また,neural activationsの空間分散のentropyも抑え,一つのフィルタが1つのcategoryに活性化されることように学習させる.

interpretable-cnn

新規性・結果・なぜ通ったか?

  • Pascal VOC part datasetを用いた実験によりInterpretable CNNが従来のCNNと比べ,クラス分類問題において認識精度がほぼ落ちずに高層conv層のfilterのInterpretable性が高い(Alexnet,VGGなどに対して実験).
  • 提案の手法をあらゆるネットワークに適応しやすい.追加する監督信号を用いずに,普通のCNNのInterpretable性を高められる.

コメント・リンク集

  • Interpretable CNNをVision-and-Languageに応用してみたい

  • Interpretable CNN構造が高層convのfilterに対して同じセマンティックコンセプトにしか活性化されないように学習するので,このレベルでは“Net2Vec”と逆になっている.

  • 論文

  • コード

[#310]
2018.7.19 20:29:10
End-to-end Recovery of Human Shape and Pose
Angjoo Kanazawa, Michael J. Black, David W. Jacobs, Jitendra Malik
CVPR 2018
890
OKIMOTO Yusuke

概要

人物を含む画像から人物の3Dメッシュをend-to-endで推定するframeworkの提案.画像中の人物のキーポイントがアノテーションされたデータと,人物の3Dモデルのパラメータのデータを用い,推定した3Dモデルを画像に投影した際におけるキーポイントの誤差と,3Dモデルが画像から推定したものか,人物の3Dモデルのデータセットから持ってきたものかを識別するDiscriminatorのAdversarial lossの2つを損失関数として学習を行う.Adversaial Lossは,推定した3Dモデルが人物の3Dモデルと自然かどうかの弱教師として働く.

overview_image

新規性・結果・なぜ通ったか?

  • 人物のメッシュ推定における一般的な評価データセットは存在しないため,他手法との比較は主に人体の関節推定とpart segmentationで行う.この2つのタスクにおいては既存手法とcompetitiveな性能.
  • 人物の3Dモデルの自然さについての情報を与える,推定した3Dモデルか既存の3Dモデルか識別するdiscriminatorの導入.これにより,直接の教師データが大規模には存在していない,画像からの人物の3Dモデルというタスクに置いて,2Dの人物のキーポイントのデータと,人物の3Dモデルのデータという,それぞれ独立なデータセットを用い,end-to-end推定を行うネットワークを学習させることを可能にした

コメント・リンク集

  • 上手にDiscriminatorを設計することで,互いにはunpairな複数の大規模データセットを用いるというアイデイアは,他のタスクでも有用だと思われる.
  • メッシュ推定というタスクという意味でNeural 3D Renderer(H. Kato et al, CVPR2018)とも関係
  1. 論文
  2. code
  3. Neural 3D Mesh Renderer紹介ページ
[#311]
2018.7.19 17:37:21
Intrinsic Image Transformation via Scale Space Decomposition
L. Cheng et al.,
CVPR 2018
Kensho Hara

概要

Intrinsic Image Decompositionにおける新しい手法を提案. ラプラシアンピラミッドを導入したネットワーク構造により, マルチスケールに分解した処理を実現している. 評価実験により,SOTAよりも高い性能を達成したことを確認.

新規性・結果・なぜ通ったか?

  • ラプラシアンピラミッドを導入したネットワーク構造を提案
  • SOTAよりも高い性能を達成

コメント・リンク集

  • 論文
  • 具体的な実装が全然書いてなくて詳細が理解できない気がするんだけどこれでいいの?
  • Intrinsic Image Decompositionにおいてラプラシアンピラミッドの導入が重要という話があるように見えなくて,なぜこれがいいのかよくわからない
[#312]
2018.7.19 15:09:08
Learning Pixel-level Semantic Affinity with Image-level Supervision for Weakly Supervised Semantic Segmentation
Jiwoon Ahn et al.
CVPR 2018
Yoshihiro Fukuhara

概要

画像レベルのラベルから Semantic Segmentation の学習で使用する画素レベルのラベルを生成する研究. 隣接する領域の意味的な親和性を推定する, AffinityNet を提案. 入力画像の CAM のアクティベーションの情報を AffinityNet で推定された意味的親和性に基づいて伝搬することで, 完全なマスクを生成する. 提案手法によって作成されたラベルによって学習した Semantic Segmentation 手法は PASCAL VOC 2012 において弱教師の手法の中でSOTAを達成した.

fukuhara-Learning_Pixel-level_Semantic_Affinity_with_Image-level_Supervision_for_Weakly_Supervised_Semantic_Segmentation.png

新規性・結果・なぜ通ったか?

  • 画像クラスのラベルから Semantic Segmentation の学習で用いる画素レベルのラベルを生成する手法を提案
  • 隣接する領域の画素レベルでの意味的親和性を推定する AffinityNet を提案
  • CAMのアクティベーションの情報(弱教師)を AffinityNet によって推定された画素間の意味的親和性に基づいて伝搬し, 完全なマスクを生成する.
  • AffinityNet の学習にはCAMの中で信頼度の高い領域を使用
  • 提案手法によって生成した教師データによって学習した, ResNet38 は PASCAL VOC 2012 でSOTAを達成し, FCN(fully supervised)をも上回る結果を達成
[#313]
2018.7.9 0:32:55
Towards High Performance Video Object Detection
Xizhou Zhu, Jifeng Dai, Lu Yuan, Yichen Wei
CVPR 2018
2494
Kazuki Inoue

概要

既存手法のSparse Feature Propagation、 Dense Feature Aggregationをアップデートした動画に対する物体検出手法を提案。提案手法は以下の3つの要素からなる。1) recursively aggregate feature for key frames:隣合うキーフレームごとに特徴量を抽出する。隣合うキーフレームではフレーム内に大きな変化は少ないため効率的に特徴量を抽出することができる。2)partially update feature for non-key frames:キーフレーム出ないフレームに対して、キーフレームと異なる部分のみに対して特徴量を抽出する。3)temporally-adaptive key frame scheduling:ここまでの処理ではキーフレームに主に学習してしまっているため、過学習を防ぐためにトレーニング動画全体で特徴量抽出器を調整する。なおここでのキーフレームは10フレームごとのフレームを指す。

Item3Image

新規性・結果・なぜ通ったか?

  • ImageNet VIDに対して77.8% mAP score と 15.22FPSとなり、SoTAを獲得。
  • ablation studyにより、手法のハイパーパラメタに寄らず既存手法より良い結果となっていることを示している。
  • 学習にはResNet101を使用している。

コメント・リンク集

  • キーフレームを取得する間隔が精度、FPSにどの程度影響するのかが気になった。
  • 論文
[#314]
2018.7.17 01:10:37
Action Sets: Weakly Supervised Action Segmentation without Ordering Constraints
Alexander Richard, Hilde Kuehne, Juergen Gall
CVPR 2018
1284
Kazuki Inoue

概要

動画のaction labelingとactionごとのtemporal segmentationをactionラベルと確率モデルによる弱教師学習で行う手法を提案。既存研究では弱教師とはいえほとんどの手法ではactionの順序は与えられていたが、提案手法ではactionラベルのみを用いる。手法は大きく3つに分けられ、context modelによる起こりうるactionの順序の推定、length modelによるactionのtemporal segmentation、multi-task learningによる各actionラベルの推定からなる。context modelの構築方法として以下の3つを検証。1)Naive Grammer、2)Monte-Carlo Grammer:行動が様々な順番で並び替えられた動画を学習3):Text-Based Grammer:ネット上の本やレシピなどのテキストを利用して順番を学習する。length modelでは以下の2つを検証。1) Naive Approah:全ての行動クラスが一様に同じ時間的長さをもつ、2)Loss-based:行動クラスごとに時間的長さが異なるため、行動クラスごとの平均値を求める。

Item3Image

新規性・結果・なぜ通ったか?

  • Breakfast dataset(48クラス)、MPII Cooking 2(67クラス)、Hollywood Extended(16クラス)で実験
  • context model, length modelのそれぞれの方法の有効性を確認。context modelではmonte-carloとtext-basedの精度が高く、length modelではloss basedの方が精度が高い。
  • Breakfasta datasetでは23.3%、MPII Cooking 2では10.6%、Hollywood Extendedでは9.3%となり、行動の順序を教師として持つ手法と比べて10%程度精度が落ちなかった。

コメント・リンク集

  • 使用しているデータベースがBreakfastの精度が高いのは、朝食で行う行動の順序はある程度決まっているから?
  • 完全教師ありの手法ではBreakfast datasetで55%の精度。
  • 論文
  • GitHub
[#315]
2018.7.17 01:02:30
Knowledge Aided Consistency for Weakly Supervised Phrase Grounding
Kan Chen, Jiyang, Gao Ram Nevatia
CVPR 2018
589
Kazuki Inoue

概要

phrase groundingを弱教師学習で行う際に、検出された領域と入力された名詞句から推定されるオブジェクトとのvisual consistencyを使用するKnowledge Aided Consistency Network (KAC Net)を提案。phrase groundingとは入力名詞句に相当するオブジェクトを画像中から検出するタスクである。既存手法では検出されたオブジェクトから名詞を推定し直すlanguage consistencyを用いていたが、提案手法ではlanguage consistencyとvisual consistencyの両方を用いる。具体的には、いくつかのカテゴリにおける画像識別をプリトレインしておくことで、オブジェクトの検出精度を高めることができ、かつ言語と画像の対応精度も高くなる。

Item3Image

新規性・結果・なぜ通ったか?

  • 画像識別のプリトレーニングを用いてphrase groundingを弱教師学習で行う手法を提案。
  • 2つのgroundingデータセットFlickr30K EntitiesとReferit Gameで評価。それぞれで38.71%(9.78%の向上)、、15.83%(5.13%の向上)の精度が向上しSoTAを達成。
  • 特に人に対する精度が高い。一方で、名詞句(e.g. A man is taking a photo of another man and his two dogs on some grassy hills)を入力するよりも名詞単体(e.g. a man)を入力した方が精度が落ちた。

コメント・リンク集

  • MS COCO(90カテゴリ)とPASCAL VOC2007(20カテゴリ)で画像識別をプリトレーニング。MS COCOでプリトレーニングした方が若干精度が高い。
  • 識別ではなく検出をプリトレーニングすると制度は上がる?
  • 論文
  • Supplementary material
[#316]
2018.7.17 00:53:26
Learning Facial Action Units from Web Images with Scalable Weakly Supervised Clustering
Kaili Zhao, Wen-Sheng Chu, Aleix M. Martinez
CVPR 2018
237
Kazuki Inoue

概要

弱弱教師によるスペクトルクラスタリングによってembedding空間を再形成し、アノテーションを貼り直すことで顔のaction unitの手法を提案。提案手法ではネット上の画像とそのアノテーションを使用することで、画像の見た目とアノテーションのどちらも考慮した手法を提案。教師ありの手法ではどちらか一つの要素しか考慮できず、弱教師だとノイズや外れ値の影響を受けてしまうが、提案手法ではどちらも要素も考慮する。

Item3Image

新規性・結果・なぜ通ったか?

  • F1 score, S scoreで結果を比較、AlexNet、DRML、GFK、LapSVM、TSVMを用いて検証
  • そのままのアノテーションを使用するよりも高い精度を達成した。
  • 教師あり学習と同程度の精度を達成。

コメント・リンク集

[#317]
2018.7.17 00:17:13
Mesoscopic Facial Geometry Inference Using Deep Neural Networks
Loc Huynh, Weikai Chen, Shunsuke Saito, Jun Xing, Koki Nagano, Andrew Jones, Paul Debevec1 Hao Li
CVPR 2018
2496
Kazuki Inoue

概要

深層学習によってLight Stageから得られる1Kの顔のUVテクスチャを入力として4Kのディスプレイスメントマップを推定する手法を提案。事前実験により、テクスチャから全てのディスプレイスメントを推定するのではなく、中周波数帯、高周波数帯のディスプレイスメントをそれぞれ推定した方が精度が高いことを確認しているため、周波数帯ごとに二つのブランチで推定を行う。提案手法ではimage-to-image networkによって1Kのテクスチャを1Kのディスプレイスメントに変換し、super-resolution networkによって高周波数帯のディスプレイスメントを高開画像度化し、中周波数帯に対してはバイキュービック方で高解像度する。最終的には顔の3D meshにディスプレイスメントマップを統合することでリアルな3Dジオメトリモデルを得る。

Item3Image

新規性・結果・なぜ通ったか?

  • 中周波数帯のみ、1Kの中・高周波数帯、4Kの中・高周波数帯(提案手法)のディスプレイスメントマップを用いた結果を比較。
  • 既存手法と比較した結果、提案手法の方がGTに近い復元ができており、定量的にも提案手法の方がよりGTに近い。
  • 主観評価を行い、提案手法、GT、既存手法のどれが最もリアルかという質問に対して、20.7%、67.2%、12.1%という結果となった。
  • in-the-wildな顔画像に対してもある程度うまく復元できることを主張。

コメント・リンク集

  • 手法的に新しいことはないものの、pore-levelと書いてある通り、推定されたディスプレイスメントでは肌の細孔も表現されておりかなり綺麗な結果となっている。とはいえ、主観評価ではGTが圧倒的な評価を集めているため、人間の顔に対する知覚の鋭さに驚いた。
  • テスト時にはディスプレイスメントの生成に1秒、4K化に5秒程度かかる
  • 論文
  • Supplementary material
[#318]
2018.7.17 00:10:47
Revisiting Dilated Convolution: A Simple Approach for Weakly- and Semi- Supervised Semantic Segmentation
Yunchao Wei, Huaxin Xiao, Honghui Shi, Zequn Jie, Jiashi Feng, Thomas S. Huang
CVPR 2018
812
Kazuki Inoue

概要

複数のカーネルサイズのdilation conv層をclassification networkに付け足すことで、image-levelのオブジェクトラベルから、オブジェクトごとの密なlocalization mapを生成し、これを元にセマンティックセグメンテーションを行う手法を提案。image-levelのラベルのみが与えられていても、複数サイズのdilated convolutionを組み合わせることで様々なスケールでオブジェクトを探索することが可能。最終的なlocalization mapはとdilated conv層の平均と通常のconv層の推定結果を足し合わせた物を使用する。このlocalization mapとonline mannerのそれぞれから得られたセグメンテーションとを教師とすることでセグメンテーションネットワークを訓練する。localization mapの汎用性を示すために、weakly/semi-supervisedの両方を行っている。

Item3Image

新規性・結果・なぜ通ったか?

  • Pascal VOC 2012(20ラベル)におけるセマンティックセグメンテーションのmIoUにおいてweakly/semi-supervisedが60.8%(既存手法+2.1%)/67.6%(既存手法+1.4%)となりSoTAを達成。
  • semi-supervisedの設定において、使用するpixel-levelの教師画像が500枚と1400枚ではmIoUが0.9%ほどしか変わらなかったため、localization mapの効果を示している。

コメント・リンク集

  • dilated convolutionの強力な探索能力を示した論文。シンプルがゆえにCNNの汎用性の高さが伺える。
  • onlineによるセグメンテーションはどのように得られている?
  • 論文
[#319]
2018.7.16 23:48:11
Weakly-Supervised Semantic Segmentation Network with Deep Seeded Region Growing
Zilong Huang, Xinggang Wang, Jiasi Wang, Wenyu Liu, Jingdong Wang
CVPR 2018
2541
Kazuki Inoue

概要

画像に対するimage-levelのラベルのみを用いてセマンティックセグメンテーションを行う際に、ラベルを貼る領域をイテレイティブに増やす手法を提案。既存手法ではシードの初期値から一気にラベルを貼っていくが、提案手法では自信が高い領域にのみラベルを貼り、これを繰り返すことでセマンティックセグメンテーションを行う。ラベル(背景含む)の初期値としてclassificationから得られるヒートマップを用いてconfidenceが高いピクセルを使用する。DNNを用いてラベルごとのヒートマップを作成し、一つ前のイテレーションで推定したラベル領域と照らし合わせることでラベルの更新を行う。ロス関数は各ピクセルが各クラスに所属する確率と、物体境界の推定誤差からなる。

Item3Image

新規性・結果・なぜ通ったか?

  • PASCAL VOC 2012, COCOで検証しそれぞれでmIOUが61.4%(既存手法+2.8%)、 26.0%(既存手法+3.6%)となり、弱教師学習においてSoTA。
  • セグメンテーションを行う際の閾値の変化による結果への影響や、ablation studyを行なっている。VGG16とResNet101で実験。

コメント・リンク集

li ablation studyより、tableやsofaなどは提案手法によって結果が悪化しているのはなぜだろうか?

[#320]
2018.7.16 23:44:00
Self-Supervised Adversarial Hashing Networks for Cross-Modal Retrieval
Chao Li, Cheng Deng, Ning Li, Wei Liu, Xinbo Gao, Dacheng Tao
CVPR 2018
124
Kazuki Inoue

概要

画像とテキストのそれぞれから得られるハッシュを用いたクロスモダリティな検索において、中間的な情報である画像のラベルを自己教師として噛ませる手法を提案。DNNによって画像、ラベル、テキストのそれぞれから得られる特徴量をV、L、Tとすると、Lから得られるハッシュを自己教師とすることでVとTのそれぞれから得られるハッシュを同一のものにする。また特徴量分布を近づけるためにVとL、TとLそれぞれについてadversarial learningを行う。ハッシュ化するネットワークのロス関数としてハッシュ値の類似度、ラベルに対するclassificationのロスをとる。

Item3Image

新規性・結果・なぜ通ったか?

  • MIRFLICKR-25K、NUS-WIDE、MSCOCOを使用し、MAP、PR曲線、P@nの3つの指標で評価。既存手法としてshallow/deep structureと比較し、フェアな比較を行うために入力特徴量は全ての手法で統一。
  • ハッシュ値のビット数に関わらず、画像→テキスト、テキスト→画像の両方におけるMAP、PR曲線、Precision@top1000。
  • /adversarial learningを用いたクロスモーダル検索手法であるACMRに対しても優位に精度が高い。ただしACMRはハッシュを使用していないことに注意。

コメント・リンク集

  • ハッシュを自己教師とすることで、2つのモダリティをうまくつなげる方法。adversarial learningを使用しておりトレンドが反映されている。
  • 論文
[#321]
2018.7.16 23:40:21
The Perception-Distortion Tradeoff
Yochai Blau and Tomer Michaeli
CVPR 2018
2765
Kazuki Inoue

概要

画像復元手法に対する評価尺度であるdistortion quality(DQ、MSEなど)、peceptual quality(PQ、主観評価、KL-divergenceなど)は反比例関係(どちらの尺度も値が低いほうが良い結果であると設定)にあることを様々な実験により示した論文。DQは復元された画像とオリジナルの画像との類似度を表し、PQはオリジナルの画像とは関係なく復元された画像がいかに自然かを表す。

Item3Image

新規性・結果・なぜ通ったか?

  • DQとPQが反比例関係にあることは定性的には述べられてきたが、本論文ではこの関係を証明するために定量的な実験を行った。
  • 自然画像が二項分布などの単純な離散分布から生成されるとし、これに対してガウス分布から生成されるノイズをかけ、ノイズ画像に対してMSEが最小となるような分布を推定すると、自然画像の分布とは大きく異なる。つまりKL-divergenceは大きく異なるため、MSEとKL-divergenceが反比例にあることを示した。
  • WGANをL2ロスとWasserstein distanceを様々な比率の重みで学習させた際に、生成画像に対する両者のあたいは反比例関係にあった。
  • 16種類の超解像手法に対してPQとして超解像の評価に特化したMa et al.を、DQとして6種類の尺度を使用した結果は、やはり反比例関係となった。
  • 画像の復元手法は必ずdistortionとperceptionの両方で比較すべきである、と結論づけている。

コメント・リンク集

  • peceputual qualityとして実際の人間の評価を使用した例を見たかった。この場合も本当に反比例になるのだろうか?
  • 画像の見た目を再現できたところで、ドメインシフトが解消された訳ではなく、むしろ大きくなっていくというのは非常に興味深い。
  • 論文
  • Supplementary material
[#322]
2018.7.16 23:37:29
Probabilistic Joint Face-Skull Modelling for Facial Reconstruction
Dennis Madsen, Marcel Luthi, Andreas Schneider, Thomas Vetter
CVPR 2018
3236
Kazuki Inoue

概要

骨格のtissue-depth vector(ランドマークにおける皮膚と骨格のデプス)を用いてMCMCによって顔と骨格の統計的形状モデルの同時分布を推定する手法を提案。顔の統計的形状はPCAによって次元削減したものを使用し、求めるべき同時分布をベイズの定理によって骨格の統計的形状に対する事前分布と顔の事後分布に分ける。骨格の事前分布を30の骨格のCTスキャンを使用することで作成。tissu-depth vectorを用いてGTの骨格と推定された顔形状の交差、対応点の一致度を用いて顔に対する事後分布を推定する。

Item3Image

新規性・結果・なぜ通ったか?

  • MRI画像、3Dスキャンデータ、写真に対するverificationを行うことで精度を検証し、上位30%程度の精度だった。
  • 顔に対するPCAの次元数に対する考察を行い、50次元程度に圧縮した場合に最も精度が高くなった。

コメント・リンク集

[#323]
2018.7.16 23:34:25
A Prior-Less Method for Multi-Face Tracking in Unconstrained Videos
Chung-Ching Lin and Ying Hung
CVPR 2018
3502
Kazuki Inoue

概要

動画内の人数を指定することなく、動画内でメインで登場する人物のIDを保ったmulti-faceトラッキングを行う手法を提案。提案手法は三段階に別れている。まずショット内で顔、頭、胴体、全身の重心、幅、高さを算出しグラフ構造を用いることでショット内、間でIDを保ったトラッキングを行う。次に同一フレーム内のトラッキング軌道を繋げるためにVGG-face descriptorと既に存在する軌道の接続性を見て繋げる。最後にGaussian processによってVGGの特徴量を18次元まで削減した特徴量を使用することで、メインで登場していない人物に対する外れ値認定やトラッキングのリファインメントを行う。検証には人物の見た目の激しい動画やカメラモーションが激しい動画を使用する。

Item3Image

新規性・結果・なぜ通ったか?

  • 顔の見た目の変化や、任意のカメラ向き、ショット変化、早いカメラモーションなどが含まれているミュージックビデオ8本、激しいオクルージョンや多くの暗い画面や正面顔が含まれていないシーンが多く含む4本のBody-worn camera videoで検証。
  • WCPによってIDのクラスタリング結果を、CLEAR MOTによってトラッキングをそれぞれの評価指標とし、それぞれの既存手法と比較を行った。WCP、CLEAR MOT共にミュージックビデオでは7/8、Body-worn videoでは4/4においてSoTA。

コメント・リンク集

  • スリラーでマイケルジャクソンをトラッキングし続けることはできる・・?
  • 論文
[#324]
2018.7.16 23:30:48
Generate To Adapt: Aligning Domains using Generative Adversarial Networks
Swami Sankaranarayanan, Yogesh Balaji, Carlos D. Castillo, Rama Chellappa
CVPR 2018
2082
Kazuki Inoue

概要

Unsupervised domain adaptationにおいて、ソースドメイン(SD)とターゲットドメイン(TD)の識別に加えてAuxiliary Classifier GAN(AC-GAN)による画像生成を用いた手法を提案。F networkでドメインに普遍な特徴量を取得した後、GANによってドメインに固有な表現を獲得。Generatorによって生成された画像に対して、Discriminatorではドメインの識別とSDに対してはクラスの識別も行っている。

Item3Image

新規性・結果・なぜ通ったか?

  • ドメインシフトの困難さに応じて3つの設定でclassificationを行うことで検証。DIGITS(10クラス、3ドメイン)、OFFICE(31クラス、3ドメイン)、合成画像から実画像(CAD syntheticsデータセット、PASCAL VOCデータセットを使用、20クラス)
  • DIGITSデータセットでは3/4、OFFICEデータセットでは7/7の設定で、SoTA。合成画像と実画像の設定においてもSoTA。
  • ablation studyにより、GANによる生成、AC-GANによる識別のそれぞれが有効であることを確認。

コメント・リンク集

  • Supplementaryを見るとターゲットドメインで生成された画像はまだまだという印象。他の教師なしで画像を生成する手法やGANの知識と組み合わせることで、より高い精度を実現できる?少量データセット、教師無しで生成ができたらインパクトは大きい!
  • 論文
  • Supplementary material
  • GitHub
[#325]
2018.7.16 23:26:45
Efficient parametrization of multi-domain deep neural networks
Sylvestre-Alvise Rebuffi, Hakan Bilen, Andrea Vedaldi
CVPR 2018
3009
Kazuki Inoue

概要

マルチドメインな学習を行うために、少量のドメインに固有なDNNのパラメタを学習する手法を提案。既存手法のresidual adaptorと呼ばれるドメインに固有なパラメタを学習する機構を改良しており、提案手法ではドメインごとに学習すべきパラメタが普遍特徴量に対するバイアス項となっている。既存研究のモデルでは不変特徴量に対する係数となっているので、提案手法の方がより学習が容易になっている。

Item3Image

新規性・結果・なぜ通ったか?

  • 10の異なるデータセットからなるVisual Decathlonを用いて検証。ImageNetでプリトレーニングしたResNetに対し得てVisual Decathlonデータセットを学習する。
  • top-1 classification、decathlon scoreと呼ばれるマルチドメインに対する評価尺度においてSoTA。
  • 学習し直す際にかかる時間がファインチューニングの5分の1となった。
  • 他のデータセットに対する転移学習において、ターゲットとなるデータセットのデータ量が少ない場合にも既存手法と同等かつファインチューニングよりも良い精度を達成。
  • residual adaptorの位置、有効なregularizationについても検証。

コメント・リンク集

  • 具体的にパラメタ数はどれくらい減る?
  • 論文
  • GitHub
[#326]
2018.7.16 23:03:34
Dynamic-structured Semantic Propagation Network
Xiaodan Liang et al.
CVPR2018
1803.06067
Takumu Ikeya

概要

  • セマンティックセグメンテーションの新たな手法としてDynamic-Structured Semantic Propagetion Network(DSSPN)を提案した.
  • DSSPNは意味的概念階層をネットワークと結合することでsemantic neuron graphを構築する
  • それぞれのneuronは食品などのスーパークラスまたはピザのような特定の種類の物体を認識するためのインスタンス化されたモジュールを表現している.

dynamic_graph.PNG

新規性・結果・なぜ通ったか?

  • 4つの公開されているセマンティックセグメンテーションデータセット(ADE20K、COCO-Stuff、Cityscape,Mapillary)を用いて評価実験を行い、最先端のセグメンテーションモデルと比較してDSSPNの優位性を実証した.
  • 意味的階層を持つネットワークモジュールを明示的に構築している点で新しい.

コメント・リンク集

[#327]
2018.7.17 22:19:17
Adversarial Data Programming: Using GANs to Relax the Bottleneck of Curated Labeled Data
Arghya Pal, Vineeth N. Balasubramanian
CVPR 2018

概要

弱いラベルを付与する関数から、出来る限り厳選したラベルを教師として与えるAdversarial Data Programming(ADP)を提案してデータを生成しながら識別器を学習する。マルチタスク学習と同様に、ドメイン変換についても効果的に行えるGANの学習とした。生成Gに相当するタスクではデータラベルの分布を生成して、識別Dに相当する部分では相対的精度の向上、ラベリングの依存性を考慮しながらラベルづけの正当性を確認する。

180717AdversarialDataProgramming

新規性・結果・なぜ通ったか?

従来のDPは最尤推定により条件付きモデルP(y|x)を推定する問題であったが、本論文で提案するADPは同時確率モデルP(x,y)を推定する問題(データとラベルのペアを評価すること)に相当し、GANにより最適化する。MNIST, Fashion MNIST, CIFAR10, SVHN datasetにて実験を行い、多くの比較手法を抑えてstate-of-the-artなモデルであることを確認。マルチタスク学習やドメイン変換にも有効である。

コメント・リンク集

データラベルを作り出すGANである。少量にラベルづけすればどんな場面でも高精度に識別可能である、ということを示したい。

[#328]
2018.7.17 09:55:11
Improving Landmark Localization With Semi-Supervised Learning
Sina Honari, Pavlo Molchanov, Stephen Tyree, Pascal Vincent, Christopher Pal, Jan Kautz
CVPR 2018

概要

部分的にのみアノテーションが手に入る比較的少量のデータにおいて、顔ランドマーク検出問題にてSemi-Supervised Learningの手法を提案。ラベルなしのデータに対してキーポイントを推定して、誤差逆伝播ができるように構築。さらに、教師なし学習の枠組みでもキーポイント推定ができるようにした。右図は顔キーポイント検出の枠組みであり、上から順に(S)ラベルありのデータにて学習、(M)顔キーポイントからの属性(Attribute)推定、マルチタスク学習により間接的にキーポイント検出を強化、(N)正解画像に対して画像変換を施してデータ拡張。

180716LandmarkLocalizationSSL

新規性・結果・なぜ通ったか?

半教師あり学習(Semi-Supervised Learning)の枠組みで顔キーポイント検出を実行することを可能にした。特に、AFLW datasetで5%のみのラベルありデータで従来法を超えてState-of-the-artを実現した。

コメント・リンク集

間接ラベルが効くというのは、キーポイント検出にかなり依存している顔表情や頭部位置推定が働いているから?それでも半教師あり学習によりState-of-the-artを実現したことはかなりすごい!間接ラベル、いろいろ使えると思うのでアイディアを出したい。

[#329]
2018.7.16 20:31:44
Recurrent Residual Module for Fast Inference in Videos
Bowen Pan, Wuwei Lin, Xiaolin Fang, Chaoqin Huang, Bolei Zhou, Cewu Lu
CVPR 2018

概要

高速に動画処理をできるようにするRecurrent Residual Module(RRM)を提案。計算時間を大幅に削減するために、連続するフレーム間で畳み込みによる特徴マップを共有。AlexNetやResNet等と比較すると約2倍は高速であり、ベースラインであるDenseModelと比較すると8--12倍は高速であった。それだけでなく、XNORNetsなどの圧縮モデルにしても9倍高速であることが判明。この枠組みを用いて姿勢推定や動画物体検出のタスクに適用。右図は提案であるRRMの構造を示している。DenseConvolutionは最初のフレームのみであり、後続のフレームは差分の把握とSparseConvolutionによりforwardを実行。

180716RecurrentResidualModule

新規性・結果・なぜ通ったか?

一番の新規性は動画の連続フレーム間でパラメータを共有して高速かを図るRecurrent Residual Module(RRM)である。同枠組みを姿勢推定や動画物体検出に使用して高精度な推論を実現した。動画物体検出ではYOLOv2+RRMにて61.1@Youtube-BB、姿勢推定ではrt-Pose+RRMにて46.2@MPII-Poseを達成し、ベースラインから精度をほぼ落とさずに高速な処理を実行。

コメント・リンク集

汎用的に高速化が狙える枠組みの提案は重要。構造に依存しないフレームワークという点がよい!

[#330]
2018.7.16 19:45:55
Global Versus Localized Generative Adversarial Nets
Guo-Jun Qi, Liheng Zhang, Hao Hu, Marzieh Edraki, Jingdong Wang, Xian-Sheng Hua
CVPR 2018

概要

実環境データの多様体を学習するための敵対的学習(GAN)を実現するLocalized GAN(LGAN)を提案。従来の多様体を表現するGANと比較して、LGANはいかに多様体間を変換するかの学習が効率よく行えている。同学習はMode Collapseを避けるためにも有効であることが確認され、さらにはロバストな識別器にもなることが実験により明らかとなった。図は任意の3次元空間に埋め込まれた多様体空間であり、Normal Vector(法線ベクトル)とTangent Vectors(タンジェントベクトル)が示されている。このTangent Vectorが多様体空間M内にて点xの位置の局所的変換を可能にする。

180716GlobalLocalizedGAN

新規性・結果・なぜ通ったか?

LGANの利点は主にふたつ、(1)多様体において、グローバルな点を参照することなくローカルな参照にて所望の結果を得ることができる。多様体であるが、局所的な探索で良い。(2)Local Tangentにて正規直交基底による事前情報を入れることができ、局所的なCollapseをケアできるという意味で有用である。GANのMode Collapse問題にも有効。また、提案する多様体空間構築は、画像識別においても有効であることが示された。

リンク集

[#331]
2018.7.16 19:24:02
Net2Vec: Quantifying and Explaining how Concepts are Encoded by Filters in Deep Neural Networks
Ruth Fong, Andrea Vedaldi
CVPR 2018
Yue Qiu

概要

  • 学習済みネットワークの中間層が学習したセマンティックコンセプトを可視化及び統計分析を行う.更にNetwork Dissectionと比較して,一つ一つのフィルタではなく,フィルタの線形コンバインが表せるセマンティックコンセプトを考察した.
  • CVPR2017論文Network Dissectionが学習済みモデルの各々の中間層フィルタが学習したセマンティックコンセプトについて可視化・統計考察を行った.その結果,各々のフィルタが習得したコンセプトが少ないことから,フィルタの線形コンバインがより豊かなセマンティックコンセプトを表していることを推定し,更にそれを用いてNetwork Dissectionより良い可視化・分析を行う.手法としては,セマンティックコンセプトをfilter responsesのvectorial embeddingにマッピングするネットワークNet2Vecを提案した.セマンティックセグメンテーションタスクによりNet2Vecを学習.

Net2Vec

新規性・結果・なぜ通ったか?

  • 提案手法によりmulti-filterの線形結合がNetwork Dissectionに提出したsingle filterより遥かにセマンティックコンセプトを表示できる(IoU).
  • いくつか面白い発見があった.①ほとんどの場合,single filterではなくコンセプトがmulti-filtersにより線形表示できる.② filterが一つのコンセプトだけではなく,いくつかのコンセプトを同時に表せることが多い.(いくつかのコンセプトの線形成分の一つに入る)③single filterよりmulti-filterの線形表示によりmeaningfulなコンセプトを表示でき,また異なるconcept間の関係も表示できる

コメント・リンク集

  • Network dissectionと比べ変動がかなり少ない(研究対象を学習済みモデルのfilter->multi filterの線形表示),行った実験もほとんど類似している.

  • 提案手法とNetwork dissectionを利用して,学習状態の確認分析が行いやすくなる.

  • 論文

  • コード

[#332]
2018.7.18 20:27:44
Reconstruction Network for Video Captioning
Bairui Wang, Lin Ma, Wei Zhang, Wei Liu
CVPR 2018
Yue Qiu

概要

  • Encoder-decoder-reconstructor構造のビデオキャプションネットワークRecNetを提案した.ビデオからのキャプション生成とキャプションからビデオrepresentationをreconstruction両方利用した.
  • 従来のビデオキャプション手法はencoder-decoderによりforwardでビデオからキャプションを生成.生成キャプションのセマンティック情報が利用されなかった.しかし,翻訳などの分野でdual情報がすでに利用されている.そのため,forwardのビデオカラのキャプション生成のencoder-decoder及びbackwardキャプションからのビデオrepresentation復元の-reconstructor構造を用いた手法を提案した.Encoderと類似したvideo representationを復元するのが-reconstructorの目標で,encoder-reconstructorのreconstruction lossesを用いてend-to-endで実現できる.
  • また,local, globalなvideo representationを生成できる2種類のreconstructor構造を提案した

ReconstructionNetwork-VideoCaptioning

新規性・結果・なぜ通ったか?

  • 新たなencoder-decoder-reconstructor構造のビデオキャプション手法の提案.Reconstructor-video encoder間のreconstruction lossを利用し,ネットワークをend-to-end可能にした.また,backwardキャプションからのビデオ特徴reconstructすることにより,更にinformativeなビデオ特徴抽出を可能にした.
  • MSR VTT, MSVDの2種類のデータセットで従来のencoder-decoder video captioning手法より良い性能を得られた.

コメント・リンク集

  • Dual-taskを利用して,精度向上を図る手法が多そう

  • 論文

[#333]
2018.7.18 20:21:11
Cascade R-CNN: Delving into High Quality Object Detection
Zhaowei Cai, Nuno Vasconcelos
CVPR 2018
Yue Qiu

概要

  • 高精度で物体検出を行えるMulti-stageな物体検出フレームワークCascade R-CNNを提案した.
  • 従来2-stage検出手法のIoUが学習段階均一に設定されている.著者達が実験によりIoUの閾値とbounding box regressorのIoUが近い場合最も良い精度を得られることを発見し,高精度検出器を得られるためにsingle IoUの設定が最優ではないと指摘した.これにより,学習段階でIoUが変化させることをベースとした手法を提案した.具体的に,R-CNNをmulti-stageに拡張し,学習段階でstageごとに序列的に学習を行い,一つのstageの出力で次のstageを訓練.

CascadeR-CNN

新規性・結果・なぜ通ったか?

  • 従来の固定IoU設定方法の2つの問題点:①閾値が大きい場合,学習段階でoverfittingしやすい②閾値が小さい場合,ノイズバウンディングボクスが出やすいを改善できる.
  • Cascade R-CNN構造が一般的な検出ネットワークに適応しやすい.また,COCO,VOCデータセットなどでの比較によりCascade R-CNNがよりあらゆる評価指標において良い精度を達成した.

コメント・リンク集

  • 構造的にほかのネットワークに適応しやすい.簡単な変化で驚くべき精度向上

  • 論文

  • コード

[#334]
2018.7.18 20:15:36
Revisiting Oxford and Paris: Large-Scale Image Retrieval Benchmarking
Filip Radenovic, Ahmet Iscen, Giorgos Tolias, Yannis Avrithis, Ondrej Chum
CVPR 2018
Yue Qiu

概要

  • 画像検索用benchmarks:Oxford 5k, Paris 6kに対し,修正・サイズ拡大・評価方法を加え,新たなbenchmarks: Roxford, Rparis, R1M を提案した.
  • 従来の画像検索用benchmarksが①アノテーションエラーが含め②データセットサイズが小さい③現在の方法がOxford 5k, Paris 6kに対し完璧な結果を得られるので,quantitative evaluationができないの3つの問題点を指摘した.それぞれに対し①gtの信頼度付きの新たなアノテーションを追加し②Oxford 100k distractor setなどのdistractor setを追加し,データセットのサイズ・難易度を大きくした③更に3種類の新たなevaluation protocolsを提案し(Easy,Medium,Hard),異なる手法にたい公平的な比較を可能にした.

LargeScale-ImageRetrievalBenchmarking

新規性・結果・なぜ通ったか?

  • 画像検索用benchmarksに対し徹底的な問題分析・再アノテーション・評価指標の増加などを行った.
  • 新たなbenchmarksに対し従来のfeature based, CNN basedな画像検索手法の評価を行った.評価結果により,CNN + feature basedな手法が最も良い精度を達成した.また,新たなbenchmarksに対し現在の画像検索方法はまた精度向上の余地があると指摘した.

コメント・リンク集

  • 大規模画像検索用データセットをほかのタスクにも用いられそう.

  • 論文

  • コード

[#335]
2018.7.18 20:09:31
MapNet: An Allocentric Spatial Memory for Mapping Environments
Joao Henriques, Andrea Vedaldi
CVPR 2018
Yue Qiu

概要

  • SLAM, mapping, agent navigationなどに用いられる新たなallocentricな(egocentricではない・観測視点に頼らない)3DスペースのDNN representation及びonlineで行うmapping-localizationネットワークの提案.
  • 提案手法がシーンmapを2.5Dに表示し,地面に対し垂直の軸の情報をdense 2D ground表示の特徴ベクトルにエンコーディングする.このような表示により,より効率よく地面に垂直する方向に分布しやすいあらゆる室内・室外シーンを表示できる.
  • 提案手法が2.5D spatial memoryをベースとしていて,移動カメラで撮影された画像に対し情報抽出を行い,更にground に射影し,動的にspatial memoryを更新する.
  • 提案手法のコアがallocentric spatial memory. RGB-D画像から抽出した特徴tensorをallocentric spatial memoryに入力し,memoryが更新され,outputとしてlocalizationが得られる.localization/registrationがこのメモリースペースのdual convolution/deconvolution pairにformulateされる.

MapNet

新規性・結果・なぜ通ったか?

  • Onlineで行える高精度mapping&localization. Egomotionと独立したallocentricマップ表示の提案.
  • 従来の複雑なmappingアルゴリズムより簡潔なrepresentationで良い精度・ロバスト性を得られた.また,リアル・CGの2種類のデータセットでbenchmark手法より良い精度を達成.

コメント・リンク集

  • 3Dシーンをgroundに射影し, 3Dシーンを2.5Dに表示する手法がある程度優位と感じた.

  • 論文

  • プロジェクト

[#336]
2018.7.17 14:43:31
Learning a Discriminative Prior for Blind Image Deblurring
Lerenhan Li, Jinshan Pan, Wei-Sheng Lai, Changxin Gao, Nong Sang, Ming-Hsuan Yang
CVPR 2018
Yue Qiu

概要

  • Blind Image Deblurringに用いられるdata-drivenなdiscriminative priorを提案した.また,提案したdiscriminative priorを用いた有効的なImage Deblurringアルゴリズムを提案した.
  • 提案手法がBlind Image Deblurring問題のImage priorをblur画像・clear画像の2クラス分類のCNNによりformulateする.FCの代わりに,Global Average Poolingを用いることで,異なるサイズの画像を対応できるようにする.また,multi-scale学習策を用いて,入力画像サイズに対しロバスト性を向上する. Learned image priorをcoarse-to-fineなMAPフレームワークにembedし, half-quadratic splitting algorithmによりblur kernel推定を行う.

DiscriminativePriorFor-BlindImageDeblurring

新規性・結果・なぜ通ったか?

  • 提案のCNNベースなdiscriminative priorがいくつか異なったタイプの画像に用いられる:自然画像,テキスト画像,顔画像及びローイルミネーション画像.また,提案手法がnon-uniform deblurringにも対応できる.
  • 従来のdeblurring手法の①エッジ検出精度に頼る②自然画像に良い性能を得られるが,ほかのspecificな場合が対応できずなどの問題点を有効的に対応できる.
  • 定量及び定性的実験により提案手法がSoTAなアルゴリズム(domain-specificな手法を含め)より良い性能を達成した.

コメント・リンク集

  • かなり良い精度でblurを除去できる.推定したblur kernalにより動画像生成するのができそう.

  • 論文

[#337]
2018.7.17 14:37:56
Language-Based Image Editing with Recurrent attentive Models
Yelong Shen, Jianbo Chen, Jianfeng Gao, JingJing Liu, Xiaodong Liu
CVPR 2018
Yue Qiu

概要

  • 新たなタスク:言語ベースな画像編集(Input descriptionによりInput画像を編集)を提案した.また,2種類のサブタスク:①画像セグメンテーション②画像colorizationを取り扱える通用的フレームワークを提案した.
  • 提案ネットワークのコアなところは:recurrent attentiveモデルにより画像と言語特徴をfuseし,fixed stepではなく画像リージョンごとにダイナミックで編集を続くかどうかを決めるtermination gateを用いる.また,2種類のサブタスクに対し同じフレームワークを用いられる.

IBIE

新規性・結果・なぜ通ったか?

  • 新規な問題設定LBIE(言語ベースな画像編集)及び新規なCGデータセットCoSaL(人工言語付き形状着色)の提案.
  • 3つのデータセットで提案手法の有効性を示した. CoSaLにより提案end-to-endのネットワークの有効性を示し,ReferItデータセットでSoTAな言語ベースな画像セグメンテーションの精度を達成し、Oxford 102 Flowersデータセットにおいて初めての言語ベースなcolorizationを実現した.

コメント・リンク集

  • Language-and-Visionには様々な応用分野がある.基本的なLanguage-and-Visionモデルを熟練したら,ほかの分野への応用もしやすいと感じた.

  • 論文

  • ポスター

[#338]
2018.7.17 14:31:13
PIXOR: Real-time 3D Object Detection from Point Clouds
Bin Yang, Wenjie Luo, Raquel Urtasun
CVPR 2018
Yue Qiu

概要

  • 自動運転に用いられるLIDARセンサーの点群に対して,リアルタイムで行える3D検出する手法PIXORの提案.
  • 新たな3Dデータのコンパクト2D representationを提案した.提案手法はBEV(Bird’s Eye View)視点の点群を用いてBEVでの高さを1つのchannelとして取り扱う.自動運転に対しての検出タスクでは主に地面上の物体を対象とするため,2D BEV representationが計算コストを節約できるほか,物体間のoverlapがほぼなし.
  • また, 2D BEV 表示からpixel wiseで検出するネットワーク構造PIXORを提案した.

PIXOR

新規性・結果・なぜ通ったか?

  • KITTIデータセット及びATG4DデータセットでSoTAな精度を達成した.
  • BEV視点で観測された点群を2次元CNNにより対応できる新たな3Dデータのrepresentation及びネットワークを提案.こういった構造を用いて,提案手法は高スピード(10FPS)で3D検出が行える.

コメント・リンク集

  • BEV視点の3次元表示が自動運転に使いやすいと感じた.

  • 論文

[#339]
2018.7.17 14:24:04
Indoor RGB-D Compass from a Single Line and Plane
Pyojin Kim, Brian Coltin, H. Jin Kim,
CVPR 2018
Yue Qiu

概要

  • Manhattan World(MW)の1つの直線及び平面からRGB-Dカメラの3自由度3DoFを推定する手法の提案.
  • 従来のカメラ3DoF推定手法は少ない平面しか観測されてないシーンに対して,推定がうまくできない場合が多い.このような問題点を対応するため,1つの平面(depth mapから推定)及び1つの線(RGBから推定)しか観測されていない場合でも3DoFを推定できる手法を提案した.
  • 具体的プロセス:①RGB,Depth画像から直線・平面を検出;②theoretical minimal samplingの線・平面により初期カメラ3DoFを推定;③直線グループのendpointsとMW axesまでの平均orthogonal距離を最小化することで,カメラ3DoFを精密化する.

RGBDCompass-SingleLinePlane

新規性・結果・なぜ通ったか?

  • 従来の3DoF推定手法はスパースな観測(少ない平面しか観測されない)などの場合でうまく行えない.提案手法は一つの平面及びRGBから観測できる直線だけで3DoF推定を行える.また,camera driftに対してロバストである.
  • ICLNUIM,TUM RGB-Dデータセットで提案手法はSoTAな精度を達成し,また従来手法よりロバストで安定した検出ができる.

コメント・リンク集

  • DNNを用いないカメラ姿勢推定の手法を紹介した.伝統的手法及びDNNを用いた手法のロバスト性の比較に関する実験が期待している.

  • 論文

[#340]
2018.7.17 14:19:17
A PID Controller Approach for Stochastic Optimization of Deep Networks
An Wangpeng , Haoqian Wang, Qingyun Sun, Jun Xu, QIonghai Dai, Lei Zhang
CVPR 2018
Yue Qiu

概要

  • SGD,SGD Momentumの代わりにautomatic control分野に広く用いられているPID optimizer(proportional integral derivative)をDNN optimizationに用いるアプローチの提案.
  • DNNの最適化過程(gradientsによりウェイトを調整)とPID (エラーによりデバイスの状態を調整)が本質的に共通していることを示した.また, SGD,SGD MomentumとPIDの共通点と異なる点を示した:①SGDが現在のgradientだけによりウェイトを更新し,P controllerと類似する.②SGD Momentumが現在と過去のgradientによりウェイトを更新し,PI controllerと類似.③PID controllerが過去,現在及び変化情報によりデバイスを更新するので,従来のSGD momentumのovershooting問題を大幅に抑制できる.

PID_Controller

新規性・結果・なぜ通ったか?

  • SGD momentumがovershootingのため,正しく収束できない場合がある.PIDを用いたら, overshootingを大幅に抑制できる.
  • MINIST,CIFAR,Tiny ImageNetなどのデータセットで検証した結果,PID optimizerがSGD momentumより低いエラー率を達成しながら,最適化スピードが30%~50%速い.

コメント・リンク集

  • ほかの分野で長年成功していた方法をうまくDNNに用いることがかっこいい!

  • 論文

  • コード

[#341]
2018.7.17 14:09:09
Optimal Structured Light à La Carte
P. Lei et al.,
CVPR 2018
Kensho Hara

概要

Structured Light方式の3次元計測で用いるプロジェクタの投影パターンの最適化を行う手法を提案. 従来は経験的なもので決められていることが多かったが, それに対して提案手法は目的関数を定義することで最適な投影パターンを求めることを可能にしている. 投影パターン数をK,エピポーラ線上の画素数をNとして, K×Nの行列であるCode Matrix Cを求める定式化をしている. Cを使ったときのステレオマッチングの誤差が目的関数.

新規性・結果・なぜ通ったか?

  • プロジェクタの投影パターンを最適化するための手法を提案
  • 計算的に投影パターンをその場で決定することを可能にした

コメント・リンク集

  • 論文
  • 馴染みのない分野なので具体的な中身はそこまでわかっていないです...
  • 目的関数の中に,画素qに対する真のステレオ対応の点が入っているけど,それが既知な情報になっているのがよくわからない
[#342]
2018.7.18 13:14:05
Dual Attention Matching Network for Context-Aware Feature Sequence based Person Re-Identification
Jianlou Si, Honggang Zhang, Chun-Guang Li, Jason Kuen, Xiangfei Kong, Alex C. Kot, Gang Wang
CVPR 2018
Takahiro Itazuri

概要

Person Re-Identification(ReID)をするためのEnd-to-Endなネットワーク(Dual ATtention Matching network: DuATM)を提案した論文。DuATMのコアとなる要素はdual attention mechanismであり、映像内と映像間のattentionを特徴量の補正とペアリングに用いる。また実験では、いくつかのベンチマークでSoTAを達成した。

DuATM

手法・新規性

DuATMは大きく2つの構成要素からなる。1つは動画内から特徴量を抽出する要素であり、もう1つはそれらの特徴量のマッチングを行う要素である。後者にdual attention mechanismが導入されており、1つはコンテキストに応じて映像内の特徴量を補正するものでありもう1つは映像間の割り当てを行うものである。DuATMの損失関数はtriplet lossに加えて、de-correlatoin lossとcross-entropy lossを用いており、これに対してsiamese networkを学習する。

コメント・リンク集

[#343]
2018.7.17 17:52:08
Tracking Multiple Objects Outside the Line of Sight Using Speckle Imaging
Brandon M. Smith, Matthew O'Toole, Mohit Gupta
CVPR 2018
Takahiro Itazuri

概要

スペックル・イメージングを利用して見えていない(non-line-of-sight: NLOS)複数の物体を追跡する手法を提案した論文。安価なコストで角付近に存在する複数の物体を10マイクロメートル程度の精度で追跡可能にした。拡散反射する壁を通して間接的にしかセンシングできない環境において、スペックル・イメージングの方法と動きのモデルを提案した。

手法・新規性

スペックルとはコヒーレント光が荒い表面で反射した際に発生する高周波なノイズのような画像である。提案手法では、このスペックルの動きと実際の物体の動きの関係をモデル化することで、拡散反射する壁から得られる情報から物体追跡を行う。実際には参照画像とそこから物体が移動したことで得られた画像の相関を取り、ピークを得ることで、物体の移動量を得る。

コメント・リンク集

[#344]
2018.7.17 17:12:19
Interactive Image Segmentation with Latent Diversity
Zhuwen Li, Qifeng Chen, Vladlen Koltun
Takahiro Itazuri

概要

より少ないインタラクションで高精度なInteractive Image Segmentationを行う論文。インタラクションが少ない場合に発生する曖昧さ(multimodality)の問題に取り組んだ。また従来の手法と同様のインターフェースと互換性のあるシステムとなるような設計を行った。実験では、従来手法より少ないクリック回数で良い精度のセグメンテーションを得ることができるようになった。

新規性・結果・なぜ通ったか?

ネットワーク構造はユーザの入力を考慮した複数の異なるセグメンテーション結果を出力するネットワークとそれらから1つのセグメンテーション結果を選択するネットワークで構成される。複数のセグメンテーション結果をランク付けし、それに伴った重み付けを行った損失関数を用いる。

コメント・リンク集

[#345]
2018.7.16 17:34:28
RayNet: Learning Volumetric 3D Reconstruction With Ray Potentials
Despoina Paschalidou, Osman Ulusoy, Carolin Schmitt, Luc Van Gool, Andreas Geiger
CVPR 2108
Takahiro Itazuri

概要

異なる視点から撮影された映像から、CNNとMRFを用いて物理的制約を考慮可能な密な3次元復元を行った論文。CNNはタスクに対してネットワーク全体をデータから学習可能であるが、物理的制約を考慮することができない。一方でRay-Potentialを用いたMRFはモデルに陽な物理的制約を与えることができる一方で、大きな表面を上手く扱うことができない。本論文ではこの2つの手法の良いところをそれぞれ活かした手法であるRayNetを提案した。

RayNet

手法・新規性

構造としては、Multi-View CNNとMarkov Random Fieldから構成されている。Multi-View CNNは入力として複数の画像とそれに対応するカメラの姿勢を受け取り、視点による影響が小さい特徴量を抽出し、Rayごとにデプスの分布を出力する。Morkov Random Fieldは各視点からにおける遮蔽を考慮して、CNNから出力されたデプスの分布のノイズを除去する。

コメント・リンク集

[#346]
2018.7.16 18:14:40
Learning to Parse Wireframes in Images of Man-Made Environments
P. Lei et al.,
CVPR 2018
Kensho Hara

概要

環境の3次元構造を推定するのは局所特徴ベースがよく使われるけどテクスチャの少ない人工物の多い環境ではうまくいかない. そのような環境において有効な表現としてWireframe(図参照)という表現とその検出手法を提案. 人手で5000枚以上の画像に直線のアノテーションをさせたデータセットを用意してCNNベースの手法を学習することで, End-to-EndにWireframeを検出することを実現. 提案手法は直線検出と交差点検出をそれぞれ行ってから結合するという構造のCNN.

新規性・結果・なぜ通ったか?

  • Wireframeの検出という新しい問題設定を提案してデータセットも用意
  • Wireframe(直線と交差点)をEnd-to-Endで検出するためのCNN構造を提案

コメント・リンク集

[#347]
2018.7.17 10:41:34
Generative Adversarial Learning Towards Fast Weakly Supervised Detection
Yunhan Shen, Rongrong Ji, Shengchuan Zhang, Wangmeng Zuo and Yan Wang
CVPR2018
706

概要

オンラインの弱教師あり物体検出(WSD)に敵対的生成学習を用いて高速な検出を行う.Generator(G)は画像からb-boxを生成し,surrogator(F)はannotation情報からb-box分布を推定する.GおよびFからの検出結果はdiscriminator(D)に入力される.Dはb-boxおよび分布が真(Fからの出力)であるか偽(Gからの出力)であるか区別する.各モジュールを学習して,推論時は学習されたGのみを用いる.

20180716_GALfWSD1.jpg20180716_GALfWSD2.jpg

新規性・結果・なぜ通ったか?

作者らの知る限りでは,弱教師あり学習でYOLOやSSDのような1ステージ物体検出を用いる最初の手法である.VOCを用いて実験を行い,ほとんどのクラスでSOTAと同等またはそれ以上の性能を達成し,平均では47.5mAP,66.1CorLocを達成した.検出速度は入力画像サイズが300のとき8.48ms,512のとき19.93msとかなり高速(1080Ti, i7-6900K).

コメント・リンク集

学習時のみFを用いて推論時はGを用いることで高速化しているのは面白い.コードはすぐに公開されるとのこと.

[#348]
2018.7.16 15:01:34
Triplet-Center Loss for Multi-View 3D Object Retrieval
Xinwei He, Yang Zhou, Zhichao Zhou, Song Bai and Xiang Bai
CVPR2018

概要

多視点画像から3次元物体検索手法を提案。クラスの重心に近づくように最適化するcenter lossと、同一クラス同士の距離を小さくし他クラスとの距離を大きくするtriplet lossを組み合わせたcenter-triplet lossを導入した。 triplet-center lossにより、正解クラスの重心との距離を最小化しつつ、他クラスの重心との距離は最大化する。 triplet,centerそれぞれ単独よりtriplet-center+softmaxが一番いい。 他の手法よりも3d shape、sketchどちらにおいても精度がいい。

Item3Image

新規性・結果・なぜ通ったか?

triplet loss、center loss単独で最適化するよりcenter-triplet loss及びsoftmax lossを組み合わせたものがAUC及びmAPが最も良くなることを確認した。従来手法と比べ、generic 3D shape retrieval及びsketch-based 3D shape retrievalの2種類いずれのタスクにおいて、F1、mAP、NDCGの三つの指標が最も良いという結果が得られた。

コメント・リンク集

Future workとして書かれているが、手法自体は他のタスクにも試せそう。3D Object Retrievalに特化して構築された手法でないにも関わらず他のタスクが紹介されていないのは他のタスクがうまくいっていないということだろうか?

[#349]
2018.7.15 02:33:13
Thoracic Disease Identification and Localization with Limited Supervision
Zhe Li, Chong Wang, Mei Han, Yuan Xue, Wei Wei and Li Fei-Fei
CVPR2018

概要

医療画像から、病名の特定及び異常箇所の特定を行う手法を提案した。ResNetにより抽出した特徴を、パッチに分割し各パッチが異常箇所であるかを予測する。 予測したパッチ情報を用いて、病名の判定を行う。 学習時には、病名のみラベルがついていて異常箇所のラベルが付いていない場合がある。 そこで、病名のみしか存在しない場合は少なくとも1つのパッチが異常箇所であると仮定して学習を行う。

Item3Image

新規性・結果・なぜ通ったか?

病名診断については、14の病名のうち12の病名においてベースラインよりも精度が向上した。異常箇所の特定については、従来手法と比べ8つの病名全てにおいて精度が向上している。

コメント・リンク集

[#350]
2018.7.16 00:59:33
Occlusion-Aware Rolling Shutter Rectification of 3D Scenes
Subeesh Vasu, Mahesh Mohan M. R. and A. N. Rajagopalan
CVPR2018

概要

カメラモーションによって生じるdistortionをなくすための手法を提案。市販のカメラの多くは、撮影時に行ごとに処理を行うためカメラが動いている場合同じ画像であっても各行のカメラの位置は異なるため、distortionが生じてしまう。 そこで画像の各行が異なるカメラ位置として扱い、distortionのない状態への復元を行う。 具体的には、動画の各フレームからdepth mapを推定することで、backgroundの復元を行う。 続いて3次元空間をlayer分けして考え、background以外のlayerに対するマスクを作成することでocclusion領域を埋めていく。

Item3Image

新規性・結果・なぜ通ったか?

従来手法と比べ、ピクセルの推定値を評価するPSNR、カメラモーションの推定値を評価するAPMEどちらも向上した。特にカメラモーションの推定は従来手法と比べて格段に向上している。

コメント・リンク集

[#351]
2018.7.15 04:38:09
Joint Optimization Framework for Learning with Noisy Labels
Daiki Tanaka, Daiki Ikami, Toshihiko Yamasaki and Kiyoharu Aizawa
CVPR2018

概要

学習データのラベルにノイズが含まれている場合の学習方法を提案した。ネットワークのパラメータを求めるのみならず、ラベルそのものも更新していくことでラベルからノイズを取り除くことを可能とする。 ネットワークのパラメータとラベルの一方を固定した更新を繰り返すことにより最適化していく。

Item3Image

新規性・結果・なぜ通ったか?

CIFAR-10 dataset及びClothing1M datasetにより評価を行った。CIFAR-10の結果は、ノイズの割合に関わらず提案手法がベースラインと比べ精度が向上し、ノイズが50%含まれる場合でもTest Accuracy84.7%、Recovery Accuracy88.1%を記録した。 Clothing1M datasetもベースラインよりaccuracyが良く、72.23%を記録した。

コメント・リンク集

[#352]
2018.7.16 02:39:24
Geometry-aware Deep Network for Single-Image Novel View Synthesis
Miaomiao Liu, Xuming He and Mathieu Sapzmann
CVPR2018

概要

1枚画像から視点を変えた画像を生成する方法を提案した。有限の数の平面の存在を仮定し、各平面の組み合わせによって新たな視点の画像を生成する。 入力画像に対してピクセル単位でdepthとnormalを推定し、平面の数と同様のHomography変換を考える。 同時に入力画像からピクセル単位でどの平面を出力画像の生成に用いるか決定することで、出力画像を得る。

Item3Image

新規性・結果・なぜ通ったか?

従来手法が考慮していなかった3次元的な特徴を考慮することで、歪みなどが存在しない画像を出力することに成功した。数値評価においても、ground truthとのL1ノルムがベースラインと比べ小さくなっている。

コメント・リンク集

[#353]
2018.7.14 15:58:18
Compassionately Conservative Balanced Cuts for Image Segmentation
Nathan D. Cahill, Tyler L. Hayes, Renee T. Meinhold and John F. Hamilton
CVPR2018

概要

グラフカットの問題において、edgeの重みが他よりも小さい場合そのedgeで切断してしまいnodeが1つしかないクラスができてしまう。この問題を解決するために、Compassionately Conservative Balanced (CCB) Cut costsを提案した。 クラス間のnode数のバランスを取るための方法として、Compassionately Conservative Ratio CutやCompassionately Conservative Normalized Cutなどが提案されているが、CCBはこれらを一般化したcostとなる。

Item3Image

新規性・結果・なぜ通ったか?

従来手法が考慮していなかった3次元的な特徴を考慮することで、歪みなどが存在しない画像を出力することに成功した。数値評価においても、ground truthとのL1ノルムがベースラインと比べ小さくなっている。

コメント・リンク集

[#354]
2018.7.14 16:44:14
CLEAR: Cumulative LEARning for One-Shot One-Class Image Recognition
Jedrzej Kozerawski and Matthew Turk
CVPR2018

概要

Positiveデータが1枚のみであり、Negativeデータが存在しないOne-Shot One-Class(OSOC)問題を解く方法としてCulmulative LEARning(CLEAR)を提案した。人間が学習する際、同じことを何度も繰り返すこと、似たような技能を既に修得している場合はそうでない場合よりも上達が早いことに着目した。 学習済みの特徴抽出器から得られた画像特徴より、識別の境界を決定するネットワークによって識別器を構築する。 学習の際には、ImageNetから取って来た1枚の画像に対して境界を決定し、その画像が得られた境界によって正しく識別できているかを見ることで学習する。

Item3Image

新規性・結果・なぜ通ったか?

5種類のデータセット(Caltecb-256, Oxford Flowers, Caltech-UCSD Bird-200-2011, MIT Indoor scene recognition and SUN attribute database)で実験した。実験の結果、MAP及びF1の指標がランダム出力、One-ClassSVMと比べ精度が良いことを確認した。

コメント・リンク集

[#355]
2018.7.15 16:53:02
A Hierarchical Generative Model for Eye Image Synthesis and Eye Gaze Estimation
Kang Wang, Rui Zhao, Qiang Ji
CVPR2018
70
Hiroshi Fukui

概要

与えられた視線方向から視線画像を生成してくれるHierarchical Generative Model(HGM)を提案.HGMは2つのネットワークから構築されており,KnowledgeベースのHierarchical Generative Shape Model(HGSM)とData-drivenなconditional Bidirectional Generative Adversarial Network(c-BiGAN)から構成されている. ここで,入力する視線方向は,yaw, pitch, rollである. HGSMは,与えられた視線方向から目の形状のパラメータを推定する. c-BiGANでは,2種類の入力によりDiscriminatorを学習する. Generatorが出力したsynthesized imageとHGSMの出力と,real imageとEncoderで出力した目の形状パラメータであり,これらの入力を用いてDiscriminatorを学習する.

70_overview

新規性・結果・なぜ通ったか?

生成されたCGを用いて学習するアプローチ.SimGANではCGを作った後に学習しているが,この手法では視線方向等のサンプルパラメータのみで学習サンプルの生成&推定が可能である. この論文では,視線推定だけでなく,表情推定にも応用することができる.

コメント・リンク集

[#356]
2018.7.16 01:12:34
HydraNets: Specialized Dynamic Architectures for Efficient Inference
Ravi Teja Mullapudi, William R. Mark, Noam Shazeer, Kayvon Fatahalian
CVPR 2018
Takahiro Itazuri

概要

DNNの高い精度を保持したまま計算コストの削減が可能なHydraNetを提案した。HydraNetには推論時に入力に対して良い精度を出すようにネットワークアーキテクチャの部分集合を選択するsoft gating mechanismが組み込まれている。このような動的な構造を持たせることでaccuracy-per-unit-costを向上させた。実験では、画像分類タスクにおいてResNetやDenseNetと同等の精度をより少ない計算コストで出した。

手法・新規性

HydraNetは複数のbranchで構成され、各branchは特定のsubtask特化するように学習されている。その後、gating mechanismによって動的に適切なbranchを選択し、その選択されたbranchから来る特徴量を統合し、最終的な推論を行う。HydraNetでは、各branchは最後の推論までは行わず、subtaskに対応する特徴量だけを計算するような構造になっていることが計算効率の向上につながっている。

リンク集

[#357]
2018.7.15 20:53:13
Dual Skipping Networks
Changmao Cheng, Yanwei Fu, Yu-Gang Jiang, Wei Liu, Wenlian Lu, Jianfeng Feng, Xiangyang Xue
CVPR 2018
Takahiro Itazuri

概要

右脳と左脳で視覚情報を処理している解像度が異なるという人間の脳の仕組みを模倣したネットワークDual Skipping Networksを提案した。このネットワークは2つのサブネットワークで構成されており、それぞれ同様の構造を持つが、左右でスキップ可能な層のパラメータが異なっており、その結果、左右非対称なネットワークがそれぞれglobalな推論とlocalな推論をするようになっている。画像分類の問題において、既存のデータセットに加えて、小さな文字で他の文字を構成するsb-MNISTデータセットで実験を行い、可視化によってそれぞれがglobalな情報とlocalな情報を保持していることを確認し、また非常に良い精度を出した。

手法・新規性

Dual Skipping Networksのネットワーク構造は、右脳と左脳に対応する2つのサブネットワークとそれらが共有するCNNから構成される。共有されているCNNは脳におけるV1領域に対応しており、2つのサブネットワークはそれぞれ右脳と左脳に対応し、globalな推論とlocalな推論をするようになっている。各サブネットワークはSkip-Dense BlockとTransition Layerを交互に重ねた構造になっており、Skip-Dense Blockにおけるスキップ率の違いが2つのサブネットワークの差になっている。Skip-Dense BlockはDense LayerとGating Networkで構成され、Gating Networkがスキップをするか否かを司っている。またglobalな推論をするネットワークからlocalな推論を行うネットワークへの情報を伝達するGuideにより、coarse-to-fineな推論が可能になった。

リンク集

[#358]
2018.7.15 20:05:24
Zigzag Learning for Weakly Supervised Object Detection
Xiaopeng Zhang, Jiashi Feng, Hongkai Xiong and Qi Tian
CVPR2018
551

概要

物体検出の弱教師あり学習において,overfittingを防ぐためにretrain・relocalizeを繰り返すジグザグ学習を提案.特定の対象物を参照して学習画像の難しさを自動で測定する指標「mean Energy Accumulated Scores(mEAS,下図)」を導入し,これに基づいて検出ネットワークを学習する.また,学習中に特徴マップのマスキングを行い,細部に集中するだけでなく,ランダムにoccludeされたpositive-instanceを導入することでoverfittingを防ぎ,汎化性能を高める.

20180714_ZigZag1.jpg20180714_ZigZag2.jpg

新規性・結果・なぜ通ったか?

対象物体がわかりやすいかわかりにくいかの単純な戦略を用いて検出モデルを学習し,信頼性の高いインスタンスを検出することができる.弱教師あり学習の物体検出手法でSOTAを達成.VOCデータセットを用いた評価により,ほとんどの物体が他の手法よりも良い性能を達成し,総合のmAPは3~6%程度向上した.

コメント・リンク集

背景がmEASにもたらす影響が気になる.

[#359]
2018.7.14 21:10:38
Boundary Flow: A Siamese Network That Predicts Boundary Motion Without Training on Motion
P. Lei et al.,
CVPR 2018
Kensho Hara

概要

物体の境界の推定と隣接フレーム間での境界のモーションの推定を同時に行うBoundary Flow Estimationという問題の提案. これができるとMid-levelの表現として色々なタスクに利用できたりして嬉しい. 提案手法は,tフレームとt+1フレームの2入力を受け取るSiamese Net型の構造で,Encoder-Decoderにより両フレームのBoundaryを推定する. Boundaryのマッチングのために,Excitation Attentionのスコアでマッチングスコアが計算される. Siameseの2つのパスのモデルは同じ構造で重みは共有されているので,Boundaryのアノテーション付いている静止画データがあれば学習可能. Boundary Detection, Boundary Flow Estimation, Dense Optical Flow Estimationの3タスクで良い性能を達成.

新規性・結果・なぜ通ったか?

  • Boundary Flow Estimationという新しい問題設定を提案
  • Fully Convolutional Siamese Networkという構造の提案手法

コメント・リンク集

  • 論文
  • Excitation Attentionがよくわかってないからか,マッチングの話がよくわからず...
  • そこがわかってないからか,なぜBoundaryのマッチングの学習データがなくてもうまくいくのかよくわからず...
[#360]
2018.7.11 15:45:23
Active Fixation Control to Predict Saccade Sequences
C. Wloka, I. Kotseruba and J.K. Tsotsos
CVPR2018
Ryota Suzuki

概要

人間の目はサッケード運動をしていることが知られている.これは,意識的に目を動かしていなくても,無意識的に注視点(fixation point)を決めて そこの間を移動するように高速に眼球運動しているというものである. このモデリングは過去より行われており,近年では深層学習によって劇的に向上した.

しかし,静止画の上で行う上では,顕著性マップを通じた非清冽な注視点の推定に大きく依存していた. 人間のようなサッケードの時間的整列済み系列を生成できる改善モデルはほぼない.

そこで,STAR-FCを提案.これは 中心視野・高レベル物体ベース顕著性と, 周辺視野・低レベル特徴ベース顕著性 の統合による.

Figure1

新規性・結果・なぜ通ったか?

注視点推定において人間レベルの性能を達成.

コメント・リンク集

心理学に絡みそうなネタがCVPRに出ていると,個人的にはワクワクする.

[#361]
2018.7.13 12:05:21
Accurate and Diverse Sampling of Sequences based on a “Best of Many” Sample Objective
A. Bhattacharyya, B. Schiele and M. Fritz
CVPR2018
Ryota Suzuki

概要

自動移動エージェントの実世界での走行が成功するには,環境における将来のイベントや状況の緩和が鍵を握る. この問題は,系列の外挿問題として定義された. 系列からの将来の推定に,観測の数が使われる.

実世界シナリオにおいては,不確定さのモデリングが必要となる.それは時間が経つにつれて不確定さが増大する.

未来の系列の上で複数モーダルの分布を誘発するシナリオは挑戦的である.

この研究では,Gaussian Latent Variableモデルによって系列推定に挑戦する.その中心的なアイデアは,「Best of Many」(多くの中から最良を)である. これにより,より正確かつより多様な推定を導く.

Figure1

新規性・結果・なぜ通ったか?

実験により,交通シーン,天気データなどの3つの多様なタスクにおいて従来手法を越えたことを示した.

シンプルで強力だが新たな考え方を示している.

コメント・リンク集

ICRA感がある.

[#362]
2018.7.13 11:25:18
Modifying Non-Local Variations Across Multiple Views
T. Tlusty, T. Michaeli, T. Dekel and L. Zelnik-Manor
CVPR2018
Ryota Suzuki

概要

繰り返し構造・パターンを持つような同じシーンの複数画像の間での,小さいNon-local Variationを修正する手法を提案する.

異なる視点,異なる照明条件で撮影された画像間の一貫性を保つように修正を行うのがポイント.独立にやってしまうと,繰り返し構造を持っている場合,一貫性が壊れ,幾何学的構造が歪むことを示す.

Figure1

新規性・結果・なぜ通ったか?

少しニッチだが,注目されていなかったところで発生する問題を報告し,更に解決策を正しく与えている.

コメント・リンク集

著者らの前論文の正統進化といえる.

[#363]
2018.7.13 10:55:31
Graph-Cut RANSAC
D. Barath and J. Matas
CVPR2018
Ryota Suzuki

概要

RANSACのバリアントに,一番よく見えるモデルが見つかった時に局所最適化でリファインするLO-RANSACがあるが, この局所最適化の部分を2クラス分類の雄であるGraph-Cutに代替した. 従来法における,ただ最小二乗で局所最適化するより局所最適化の評価回数がかなり少なくなる(理論的にはlog(サンプル+検証の数))ようになっており,その結果,CPUでミリ秒単位で動く高速性がある. 実際には,空間的コヒーレンスが効いて理論値より評価回数が更に少ない模様.

ユーザ定義パラメータは少なく,連結とみなす距離r,局所最適化適用しきい値ε_confを決めればよい.これらは学習可能である.

Figure1

新規性・結果・なぜ通ったか?

特徴として,1.インライヤ・アウトライヤが空間的コヒーレント,2.パラメータは直感的かつ学習可能,4.計算効率がよい,3.収束性がよい.

タイムリミットを置いて比較したとき,ノイジーなデータにおいての正解数が他のLO-RANSAC系手法より優れていることを示した.

コメント・リンク集

シンプルで強力な手法に感じたので熟読したが,重複表現が多かったり誤植があったりして読解性が低く感じた.900本強あるCVPR論文の中, 時間を浪費するのでポスターといえど論文としてのクオリティは最低限維持してほしいと 完全読破チャレンジャーとしては思う.

[#364]
2018.7.11 09:14:45
Compressed Video Action Recognition
Chao-Yuan Wu, Manzil Zaheer, Hexiang Hu, R. Manmatha, Alexander J. Smola, Philipp Krahenbuhl
CVPR 2018
Takahiro Itazuri

概要

MPEG-4やH.264のようなコーデックによって圧縮された映像を直接入力として行動認識を行う論文。背景として、映像には時間方向の冗長性が多く含まれており、その事実はコーデックによって大幅に圧縮できることが挙げられる。圧縮された状態に含まれるmotion vectorとresidualを直接入力とするネットワークCoViARによって、高速かつ高精度な行動認識に成功した。

手法・新規性

提案手法の入力として、初期フレームにおいてはRGBの情報を持っており、後続するフレームには初期フレームに対するmotion vectorとresidualを持っている。通常のコーデックでは1つ前のフレームに対するmotion vectorとresidualが格納されているので、初期フレームから注目フレームまで累積することで、初期フレームと累積したmotion vectorとresidualを用いることで現在フレームを復元することできる。実際に推定する際には、初期フレームにおけるRGBから得られた特徴量と、各フレームのmotion vectorとresidualから得られた特徴量を統合して、各フレームの行動認識スコアを出力する。異なる動画間の入力ドメインでの分布を見ると、motion vectorとresidualは領域を共有しており、その結果効率的に学習することができる。

コメント・リンク集

[#365]
2018.7.12 17:00:50
Matryoshka Networks: Predicting 3D Geometry via Nested Shape Layers
Stephan R. Richter, Stefan Roth
CVPR 2018
Takahiro Itazuri

概要

2次元画像から3次元形状を復元する論文。DNNを使って3次元形状を推定する手法は、voxelを直接出力するようになっており、GPUのメモリ容量の制限から高解像度な3次元形状を復元することができなかった。本論文では、メモリ効率を良くするため、特定の方向へ延びるtubeが各ピクセルに対応する二次元表現voxel tubeを出力するshape layerを提案した。またネスト構造を持たせたshape layerを適用することで、自己遮蔽領域への対応したネットワークMatryoshka Networkを提案した。

手法・新規性

shape layerは6軸方向から見た深度画像を出力し、各軸に対応する2つの深度画像に挟まれた領域の共有部分を出力する。この場合、すべての軸から見ても遮蔽されている領域を復元することができないため、マトリョーシカのようなネスト構造を持つshape layerを出力するMatryoshka Networkを提案し、このネットワークは集合の差と和集合を交互に繰り返すネスト構造を持つ。

コメント・リンク集

[#366]
2018.7.12 15:12:46
Depth-Based 3D Hand Pose Estimate: From Current Achievements to Future Goals
Shanxin Yuan et al.
CVPR 2018
Takahiro Itazuri

概要

3D Hand Pose Estimationのサーベイ的論文。主に以下の2つの点に主眼を置いている。

  • デプス画像からの3D Hand Pose Estimationの現状を明らかにする
  • 次に挑戦するべきである課題は何かを明らかにする

Hands In the Million Challenge (HIM2017)のトップ10の最新手法に関して、3つのタスク(単一画像からの姿勢推定、3次元トラッキング、物体とインタラクション中の姿勢推定)において調査を行った。

新規性・結果・なぜ通ったか?

DNNによる手法が混濁する中で、業界を整理するサーベイ的論文が評価されている(?)。最終的に、3D Hand Pose Estimationの現状において以下の7点の洞察を得た。

  • 3DCNNを用いた3次元表現は入力のデプス情報の空間的構造を捉えることができ、良い精度を出した。
  • 検出ベースの手法は回帰ベースの手法より良い精度を出した。しかし、回帰ベースの手法は明示的に空間的制約を加えることで良い精度を出すことができる。
  • 遮蔽された関節を推定することはほとんどの手法にとってチャレンジングであるが、明示的な構造の制約や関節間の空間的関係性をモデリングすることで、遮蔽なしとありの差を大きく狭めることができる。
  • 識別的手法はまだ見ぬ手の形に著しく脆弱であり、良い生成能力を持つ機構を組み合わせることで、今後良い方向に進みそう。
  • 70~120度の見え角では、非常に良い精度を出す一方で、極端な見え角ではエラーが大きくなる。
  • トラッキングでは、現在の識別的手法においては検出を姿勢推定の2つサブタスクに分けて問題を解いている。
  • 単一画像からの姿勢推定は100万程度のデータセット上で学習すると良い精度を出すが、物体とのインタラクションには一般化できていない。今後の方針として、より良いセグメンテーション方法をデザインするか、物体とのインタラクションを含む大規模データセットで学習することが挙げられる。

リンク集

[#367]
2018.7.12 08:03:19
Dimensionality's Blessing: Clustering Images by Underlying Distribution
Wen-Yan Lin, Siying Liu, Jian-Huang Lai, Yasuyuki Matsushita
CVPR 2018
Takahiro Itazuri

概要

画像分野では画像理解のために、画像を高次元の特徴ベクトルにして処理を行うことで大きな成功を収めてきた。しかしながら画像のクラスタリングは現在も非常に難しいタスクである。その理由として挙げられることは、クラス内分散がクラス間分散より大きいため、大部分が重複した分布を持っている点である。本論文では、高次元特徴量の場合、ほぼすべてのサンプルがある位置を中心に特定の半径の領域(hyper-shell)に分布することに着目し、新たなクラスタリング手法であるDistribution-Cluteringを提案した。これにより、従来のクラスタリング手法より良いクラスタリングが可能になった。

image

手法・新規性

高次元の球の体積がほとんど外側に集中していることはよく知られている事実であるが、それを掘り起こしてきて、クラスタリングに生かし、CVPRに通すところがすごい。具体的な手法の部分は正直なところ理解できなかったが、数学的にも妥当なクラスタリングができているようである。

コメント・リンク集

[#368]
2018.7.11 14:39:18
CNN based Learning using Reflection and Retinex Models for Intrinsic Image Decomposition
D. Xu et al.,
CVPR 2018
Kensho Hara

概要

Intrinsic Image Decomposition(画像を反射特性 (Reflectance) や影 (Shading) などの要素に分解)において, Deepベースの手法はブラックボックス過ぎるので画像生成 (Image Formation) の原理なども考慮するような手法を2つ提案. 1つ目のIntrinsicNetはEncoder-Decoderのモデルで,DecoderはReflectanceとShadingそれぞれを復元. 単なるReflectanceとShadingのLossに加えて,ReflectanceとShadingから復元した画像のLossも利用するのがポイント. 2つ目のRetiNetは従来手法のRetinex(画像の勾配の大きさからReflectanceとShadingに分解)のアイディアをDeep手法に導入. 勾配の分解をEncoder-Decoderでやった後に元の画像と合わせてReflectanceとShadingを推定する. 新しく提供する大規模データセットでモデルを学習して従来よりも高い性能を達成.

新規性・結果・なぜ通ったか?

  • Intrinsic Image DecompositionのDeepモデル学習のための大規模データセット(2万画像)を提供
  • 従来の物理特性を考慮した手法とブラックボックスなDeep手法の良いとこ取りを実現

コメント・リンク集

[#369]
2018.7.11 15:45:23
Structured Attention Guided Convolutional Neural Fields for Monocular Depth Estimation
D. Xu et al.,
CVPR 2018
Kensho Hara

概要

単眼カメラからのデプス推定のための新しい手法を提案. CNNにCRFを導入して,途中の層から得られるマルチスケール情報の統合を最適化できるようにしたのが提案手法のポイント. マルチスケールの統合のためにはアテンション機構を導入して,それをうまく実現している. 実行速度も速く精度も高いという結果が出ている.

新規性・結果・なぜ通ったか?

  • 単眼デプス推定で高い性能を達成 (NYU Depth V2でSOTA超え,KITTIでSOTA並み)
  • 単眼デプス推定 & CRFによるマルチスケール統合 & アテンション の合わせ技

コメント・リンク集

  • 論文
  • うまいこと流行りの要素を混ぜ合わせました,という感じがしてしまった
[#370]
2018.7.11 14:20:43
Single Image Reflection Separation with Perceptual Losses
Xuaner Zhang, Ren Ng, Qifeng Chen
CVPR 2018
Takahiro Itazuri

概要

本論文では、DNNで単一画像から反射成分と透過成分を分離するタスクを解いている。入力画像Iを反射成分Rと透過成分Tに分離する問題は本来ill-posedな問題であり、従来は様々な前提知識を利用してこの問題を解いていた。近年ではDNNが利用され始めているが、最新の手法であるCEILNetでは低レベルなセマンティクスのみを考慮しているため、十分な精度が出ていなかった。そこで提案手法は高レベルなセマンティクスを考慮することで非常に高品質な分離が可能となった。DNNを学習するにあたって、データセットを構築し、またSoTAの精度を実現した。

image

手法・新規性

提案手法におけるネットワークの損失はFeature Loss、Adversarial Loss、Exclusion Lossの3つからなる。Feature Lossは提案ネットワークによって分離した画像と正解画像を深い部分における特徴量の差であり、Adversarial LossはCGANを適用しておいリアルな分離を実現するように学習し、Exclusion Lossは基本的に透過部と反射部は1つのエッジを共有しないという観察を元に勾配空間で透過部と反射部をよりはっきりと分けるように学習する。これらの損失を組み合わせたEnd-to-Endのネットワークを用いることでSoTAを実現した。

コメント・リンク集

[#371]
2018.7.11 13:58:38
Attention-Aware Compositional Network for Person Re-identification
Jing Xu, Rui Zhao, Feng Zhu, Huaming Wang and Wanli Ouyang
CVPR2018

概要

Person Re-identificationにattentionを利用したAttention-Aware Compositional Network(AACN)を提案した。体の部位のocculusionや背景の影響を軽減するために、体のどの部分に注目すればいいかを考慮することで精度の向上を計る。 AACNは、Attentionを得るPose-guided Part Attention(PPA)と特徴を得るAttention-aware Feature Composition(AFC)の2つにより構築される。 PPAは、入力画像からnon-rigid part(腕など)、rigid part(頭など)、key pointの3つの観点からattentionを推定する。 AFCは、PPAにより得られたattentionを考慮した対象人物の特徴量を抽出する。

Item3Image

新規性・結果・なぜ通ったか?

従来の姿勢情報を用いた手法は注目領域に背景などを含んでしまったのに対し、より詳細なattentionを得ることを可能とした。これにより、従来手法と比べあらゆるPerson Re-identificationのデータセットにおいて精度の向上を確認した。

コメント・リンク集

この論文に限らずattentionを用いる論文をよく見る気がする

[#372]
2018.7.11 00:47:05
Weakly Supervised Instance Segmentation using Class Peak Response
Yanzhao Zhou, Yi Zhu, Qixiang Ye, Qiang Qiu, Jianbin Jiao
CVPR2018, arXive:1804.00880
399
Hiroshi Fukui

概要

弱教師あり学習に畳み込み層のレスポンスを使ってセグメンテーションを行う手法であるPeak Response Map(PRM)を提案.手法としては,Class Response Mapという各クラスの特徴マップ(Class Activation Mappingのクラス数枚の特徴マップと同意?)からピークを算出し,そのピーク周辺の勾配を各特徴マップから抽出する事でPeak Response Mapを求める. そして,このピーク等を用いる事でセグメンテーションを行う.Pascal VOCとCOCOにおいて高い性能を達成している.

399_oveerview.png

新規性・結果・なぜ通ったか?

特徴マップにおける特定のピークと勾配情報を用いる事で,セグメンテーションを可能にしている.また,弱教師あり学習(セグメンテーションラベルなし)によりセマンティックとインスタンスセグメンテーションをラベルなしに認識できるため,評価が高い.

[#373]
2018.7.10 17:23:41
V2V-PoseNet: Voxel-to-Voxel Prediction Network for Accurate 3D Hand and Human Pose Estimation from a Single Depth Map
Moon, Gyeongsik, Ju Yong Chang, and Kyoung Mu Lee
CVPR2018

概要

Depthマップから手の3次元key pointを検出する手法を提案した。従来手法はdepthマップを2次元画像として扱っているため、2次元への射影時にdistorionが生じる、2次元から3次元への推定は非線形 mappingであるという問題があった。 そこで3次元のボクセルデータから、各ボクセルが3次元のkey pointである確率を推定するV2V-PoseNetを提案した。 2次元のDepthマップをボクセル化することで、V2V-PoseNetによってkey pointを推定する。

Item3Image

新規性・結果・なぜ通ったか?

直接key pointの座標を求める手法と比べ、ボクセル毎の確立を求めることで精度が向上した。具体的には、正解値との誤差、mAPの2つの尺度において従来手法よりも数値的に向上したことを確認した。

コメント・リンク集

[#374]
2018.7.10 14:00:42
Image Collection Pop-up: 3D Reconstruction and Clustering of Rigid and Non-Rigid Categories
A. Agudo, M. Pijoan, F. Moreno-Noguer
CVPR2018
Ryota Suzuki

概要

部分的に2Dアノテーションされた複数インスタンスの画像データセットにおいて,3D形状,カメラ姿勢,物体,変形のタイプのクラスタリングを同時に行う. また,不明瞭(indistinctly)に剛体・非剛体カテゴリ分類を行う. これは,クラスタが事前知識であるような既存手法の拡張となる.

物体変形のモデリングを行う.小さい領域の動きを,複雑な変形へと橋渡しできるように, サブスペーススの複数ユニオンに基づく定式化を行う. このモデルのパラメータは拡張ラグランジュマルチプライヤーで学習する. 完全に教師無しで行え,学習データが不要である.

Figure1

新規性・結果・なぜ通ったか?

剛体,非剛体カテゴリ,小さい・大きい変形を含む合成データ,実データセットで検証し,3D復元においてSoTA.

コメント・リンク集

※拡張ラグランジュ関数は条件を満たすと真凸関数.

[#375]
2018.7.10 12:22:13
NeuralNetwork-Viterbi: A Framework for Weakly Supervised Video Learning
A. Richard, H. Kuehne, A. Iqbal and J. Gall
CVPR2018
Ryota Suzuki

概要

弱教師付き動画学習に,ビタビ復号を組み込んでみた話.タスクはアクションセグメンテーション. 用意するのは動画とそのアクションラベルだけ.

動画がネットワークに入力され,その出力された確率分布に対しビタビ復号を実行する.すると,フレームラベルがビタビ復号で生成される.そして,勾配計算時にフレームワイズのクロスエントロピー計算を行い,逆伝播する.

明示的なコンテキスト・長さのモデリングが,これがビデオセグメンテーション・ラベリングタスクの改善に大きく作用することも示す.

Figure1

新規性・結果・なぜ通ったか?

アクションセグメンテーションでSoTA.

コメント・リンク集

勉強していないと知らなそうなアルゴリズムの導入.だいぶ込み入った話をしに行かないと論文が通らなくなってきた?

[#376]
2018.7.10 11:10:38
Eliminating Background-bias for Robust Person Re-identification
M. Tian, S. Yi, H. Li, S. Li, X. Zhang, J. Shi, J. Yan and X. Wang
CVPR2018
Ryota Suzuki

概要

人物再同定の話.人の領域で丁寧にバウンディングボックスを切ったとしても,やはり背景は映り込んでいて,背景バイアスは免れない. この事実を,以前作成した人領域をピクセルレベルでセグメンテーションして作ったデータセットで検証した.

そして,背景バイアス問題を解決すべく,3つのパーツに分ける人パージングマップに基づき,人領域をガイドとしたプーリングを行うDNNを構成.

また,人画像とランダム背景を合成するという,トレーニングデータのオーギュメンテーション手法も提案.背景画像は監視カメラ映像のフレームから100枚選び,対象の人画像と同じ大きさの背景画像をランダムにオンラインでクロップし,人画像とマージ.

Figure1

新規性・結果・なぜ通ったか?

背景バイアスに関する調査と,それを低減できる人物再同定DNNの提案.

コメント・リンク集

人領域を自分たちで色塗りしたデータセットを作る力業ができるSensetime x CUHK.

Action recognition without humanは引用してくれなかった.

[#377]
2018.7.10 10:57:36
Weakly Supervised Facial Action Unit Recognition Through Adversarial Training
Guozhu Peng, Shangfei Wang
CVPR 2018

概要

顔表情の基本構成であるアクションユニット(AU; Action Unit)を弱教師により敵対的学習する論文である。最初に擬似ラベルによりAUを推定し、敵対的学習の枠組みにより高精度にAUを認識できるようにしていく。敵対的学習はAUの認識を行うRと、AUラベルかどうかを見分けるDから構成される(つまり認識した擬似ラベルが本物のラベルかどうか見間違うように学習を進めていく)。

180709WeaklySupervisedFacialActionUnit

新規性・結果・なぜ通ったか?

ラベルづけが困難なタスクである顔表情のアクションユニットに対して効果的なアルゴリズムを提案し、弱教師付き学習ができるようにした。GANの枠組みを改良し、擬似ラベルを正解として十分にするよう学習できたことが大きな貢献である。

コメント・リンク集

擬似ラベルでも使用可能なレベルに持っていく学習はSelf-Supervised Learningでも使われているし、最初は粗いラベルでも徐々に意味のある教師になっていく様子が確認できる。アイディアは世界で同時多発的に思いついて実装が行われるので、思いついたらすぐにやらないといけない。

[#378]
2018.7.9 12:40:17
A Causal And-Or Graph Model for Visibility Fluent Reasoning in Tracking Interacting Objects
Yuanlu Xu, Lei Qin, Xiaobai Liu, Jianwen Xie, Song-Chun Zhu
CVPR 2018

概要

与えられた人物トラッキングやアピアランス情報から人物/物体間のインタラクション認識(ここではVisibility Fluent Reasoningと呼ばれている)を行う。ここで、通常人物や物体のトラッキングは欠損を含むことが多く、途切れ途切れになっている状態からでも認識ができるようにCausal And-Or Graph(C-AOG)を適用して対応関係を学ぶようにする。

180709VisibilityFluentReasoning

新規性・結果・なぜ通ったか?

C-AOGを用いて時間軸に伴うイベントの変化を理解することに成功、物体トラッキングと変化の理由づけを同時に行なっている。オクルージョン時の対応(トラッキングが一部できなくなっている)が行われたデータセットも公開し、より複雑かつ情報の欠損を含む環境においてもFluent Reasoningができるようにした。

コメント・リンク集

「ビジョンの認識精度は完璧ではない」という前提でより上位のタスクを完結するデータは今後さらに重要!査読に対する理解(完璧でないなら減点するといったことをなくす)も広がってほしい。

[#379]
2018.7.9 11:33:11
Facial Expression Recognition by De-Expression Residue Learning
Huiyuan Yang, Umur Ciftci, Lijun Yin
CVPR 2018

概要

顔表情認識を行うために、De-expression(Happy=>Neutralのように顔表情を打ち消す)を学習することにより特徴表現能力を向上させる。De-expression Residue Learning(DeRL)とよばれる、生成的/識別的な誤差計算を同時に学習可能な枠組みを提案(右図)。DeRLではまずConditional GANによりある表情の顔を無表情の顔に生成するモデルを構築。従来ではピクセルレベル/特徴レベルの違いを見分けていたが、本論文では生成モデルにおける中間層レベルの違いを見分けることにより高精度な表情認識モデルが出来上がる。このうち、Encoder/Decorderの2,3,4,5層、最終識別結果においても誤差を計算。

180709DeexpressionResidueLearning

新規性・結果・なぜ通ったか?

顔表情認識に関して、表情を打ち消すための識別/生成的モデルから誤差を計算するDe-expression Residue Learning(DeRL)により学習を行なった。BU-4DFE/BP4D-spontaneousと2つのデータセットにより事前学習を行い、CK+/Oulu-CASIA/MMI/BU-3DFE/BP4D+にてテストを行なった結果、従来法を超える顔表情認識精度を達成した。

コメント・リンク集

生成的に顔表情を打ち消す(教師なし)学習が有効とは発想勝ちである。また、それでうまくいく実装力も評価できる。

[#380]
2018.7.9 09:52:16
3D Human Sensing, Action and Emotion Recognition in Robot Assisted Therapy of Children With Autism
Elisabeta Marinoiu, Mihai Zanfir, Vlad Olaru, Cristian Sminchisescu
CVPR 2018

概要

児童心理ケアのシーンにおいて3D次元姿勢推定、行動認識、感情推定を実施した。長期の動画撮影、多様な行動、部分的にしか身体が映っていない、児童の年齢が異なる、などの課題があるが、このような環境にて上記タスクを行なった。詳細行動/感情認識(fine-grained action, emotion recognition)を行うために3,700動画を撮影(各動画は10-15分の長さを保有)、37人の児童から19の頻出行動を分類。

180709PoseActionEmotion

新規性・結果・なぜ通ったか?

提案手法は姿勢推定においてKinectとcompetitiveな精度を実現するとともに、行動認識や感情推定では良好な精度を実現、Child-Robot Interactionに関する新しいタスクを定義した。

コメント・リンク集

Child-Robot Interaction、新しいタスクである。大人とは異なり、子供の行動/感情は年齢により大きく異なりそうである。

[#381]
2018.7.9 09:07:24
Monocular 3D Pose and Shape Estimation of Multiple People in Natural Scenes - The Importance of Multiple Scene Constraints
Andrei Zanfir, Elisabeta Marinoiu, Cristian Sminchisescu
CVPR 2018

概要

Deep Multi-task Neural Networksにより複数人物の3次元姿勢+形状を推定する。直接的に画像のアピアランスから人物姿勢を推定するのみならず、環境の拘束条件や推定された関節情報からコンセンサスを取るように文脈を把握しながら(2次元や)3次元の姿勢+形状を決定していく。ビデオに拡張することも可能で、さらに自然環境下における高精度な人物姿勢推定も実行した。右図は処理フローを示す。初期段階では単一人物の姿勢推定と推定結果のフィードバックを行い、次に複数人物同時最適化を行い、最終的な複数人物の3次元姿勢とその形状を取得する。

180709Mono3DPoseShapeEstimation

新規性・結果・なぜ通ったか?

高精度に複数人物の3次元姿勢を推定するとともにその形状も復元可能にした点が貢献点である。さらに、モデルにおいても単一人物/複数人物/環境に関する拘束条件など文脈を把握することにより3次元姿勢や形状を推定した点にも新規性が認められた。

コメント・リンク集

単眼カメラからのモーキャプまでもう少し?

[#382]
2018.7.9 08:46:45
Inferring Semantic Layout for Hierarchical Text-to-Image Synthesis
Seunghoon Hong, Dingdong Yang, Jongwook Choi, Honglak Lee
CVPR2018

概要

テキストからの画像生成において、テキストから画像への写像を直接学習するのではなく、layout generatorよりtextから中間表現としてsemantic layoutを生成するステップと、image generatorによりそれを画像へ変換するステップに分解して画像を生成する枠組みを提案。

Inferring_Semantic_Layout_for_Hierarchical_Text-to-Image_Synthesis_1.PNGInferring_Semantic_Layout_for_Hierarchical_Text-to-Image_Synthesis_2.PNG

新規性・結果・なぜ通ったか?

意味のある画像をsemantic layoutに基づき生成する点だけでなく、生成画像のアノテーションも自動で行われている点と生成されたsemantic layoutを修正することによるユーザーがコントロールできる生成も可能にしている点が新しく有用である。StackGANのような鳥や花といった特定対象ではなく、より複雑な一般シーンを想定し、Fine-grained semantic layoutが必要であるという問題設定が良い。

コメント・リンク集

評価の際に、生成された画像のcaptionを生成し、元の文章との類似度を比較しており、納得できる生成モデルの評価をしていた。StackGANでは行われていなかった気がするが、こういった評価は普通?また画像生成等の中間表現としてSemantic layoutを利用する研究が増えてきた。それゆえ物体の形状とインスタンス情報(この研究で言うところのBox generatorとshape generator)をよりスマートに取得または統合できればと感じる。

[#383]
2018.7.9 06:58:04
Referring Image Segmentation via Recurrent Refinement Networks
Ruiyu Li, Kaican Li, Yi-Chun Kuo, Michelle Shu, Xiaojuan Qi, Xiaoyong Shen, Jiaya Jia
CVPR2018

概要

自然言語に基づいてsegmentationするタスク(referring image segmentation)においてmulti-scaleなsemantic情報を取得するRecurrent Refinement Network(RRN)を提案。これは入力にPyramid特徴からの得られる情報を適応的に組み込み、segmentation maskを洗練する。実験では、ReferIt、UNC、UNC+、G-RefのデータセットでベースラインとSoTAより性能が優れていることを確認。

Referring_Image_Segmentation_via_Recurrent_Refinement_Networks.PNG

新規性・結果・なぜ通ったか?

Referring image segementationへmulti-scaleなsemantic情報を含むpyramid特徴を適用し、単純に利用するのではなく、ConvLSTMにより洗練化している点が新しい。そして4つのデータセットでSoTAの性能を達成。包括的な実験により、RRNの有効性を示している。

コメント・リンク集

ここでもPyramid特徴が利用され、有効性が示されている。Referring image segmentationにおいて、ConvLSTMにおいてtanhを利用すると大幅な精度改善がみられるのが不思議である。個人的な意見として、maskの生成のためのRefinementに再帰構造を利用するのは自然であり、加えて本論文の結果よりLSTMには、multi-scaleの特徴を適応的に追加・削除する機能があり、これがsegmentation maskに良い影響を与えている点がわかる。興味深い。

[#384]
2018.7.9 06:00:21
DenseASPP for Semantic Segmentation in Street Scenes
Maoke Yang, Kun Yu, Chi Zhang, Zhiwei Li, Kuiyuan Yang
CVPR2018

概要

自動走行のシーンで現れる物体はスケールの変動が大きく、multi-scaleな情報を適切にEncodeする必要がある。multi-scaleなsemantic情報を抽出するために、複数rateのAtrous ConvolutionによるAtrous Spatial Pyramid Pooling(ASPP)が提案されているが、このような自動走行のシーンではまだ十分ではない。そこで、よりスケールの変動に対応するために、Densely connected Atrous Spatial Pyramid Pooling(DenseASPP)を提案。

DenseASPP_for_Semantic_Segmentation_in_Street_Scenes.PNG

新規性・結果・なぜ通ったか?

ASPPのように、Dilation rateを上げると画素のsampling間隔が広がる。これは大きいストライドのconvolutionのようなもので、大きなrateのatrous convolutionは受容野を広げるが、その分情報の欠落が起こる(低密度化)。この問題を解決すべくStackしかつ密な結合をしたDenseASPPにより高密度化し、異なるdilation rateのlayerの多様なアンサンブルを可能とすることで、ASPPよりも多くのスケールを持つ特徴マップを効果的に得ることができる。これが新しい。

コメント・リンク集

Dense結合 + Pyramid特徴の単純な構造に思えるが、ASPPでのAtrous Convolutionの隙間に着目し、これを効果的に高密度化していることがおもしろい。semantic segmentationにおいて大小様々なスケールの変動への対応策は、最終段へ伝播できるパスが存在するかが重要?これって結局multi-scaleなpyramid特徴?

[#385]
2018.7.9 05:52:39
On the Importance of Label Quality for Semantic Segmentation
Aleksandar Zlateski, Ronnachai Jaroensri, Prafull Sharma, Frédo Durand
CVPR2018

概要

この論文ではcityscapeライクなcoarseラベルでの性能を人工データを使って、Semantic Segmentationでのラベルの品質とCNNの性能との関係を調査した研究。これにより、人間の労力を最小化しつつ、coarseラベルを作るべき時間を提案することができる。ラベル品質とあるが、domain adaptation等の手法によるラベル生成の品質検証というわけではなく、人間の労力は前提で、その上でのcoarseラベルの品質と性能を検証している。

On_the_Importance_of_Label_Quality_for_Semantic_Segmentation.PNG

新規性・結果・なぜ通ったか?

結果から、CNNの性能は人間のアノテーションコストに依存することがわかった。これつまり、大きなcoarseアノテーションデータセットは、小さなfineアノテーションデータセットの性能と同等で、coarseラベルでpretrainし、少ないfineアノテーションデータセットでfine-tuneした場合、大きなfineデータセットで学習した性能に匹敵またはそれ以上の性能を得ることができる可能性があることを示している。また様々なネットワーク構造や都市の様々なオブジェクトに対しても有効であることを証明。

ここではcoarseラベルを対象としていたが、ミスラベルの場合は?、汎化との関係は?、stuffクラスは?と異なる対象でさらなる検証がほしいと思わせる研究。これらについて検証した研究がもうすでにあったりする?

[#386]
2018.7.9 05:43:49
A Memory Network Approach for Story-based Temporal Summarization of 360° Videos
Sangho Lee, Jinyoung Sung, Youngjae Yu, Gunhee Kim
CVPR2018, arXive:1805.02838
170
Hiroshi Fukui

概要

360°カメラの動画を用いたビデオ要約を,Memory NetworkをベースとしたPast-Future Memory Networkにより実現した研究.はじめに,入力の360°の動画から81個の領域(normal field of view)を,RankNetベースの手法を用いて切り出す. 候補領域は,MemoryNetのMemoryへと記憶される. PFMNでは,これらの候補領域を過去と将来という形でMemoryに記憶しており,時刻tで最もスコアが高い記憶が過去のMemoryに残される. 印象の強い候補領域を残しつつMemoryをアップデートしていくことで,高性能なビデオ要約が可能となる.

170_overview.png

新規性・結果・なぜ通ったか?

この手法では,対象を360°カメラの動画としており,広大な情報量から効率的に印象的なシーンをMemory Networkを活用することで,高性能な成果を出している.Memory Networkをこのような問題設定に応用した事例はこの手法が初めてであり,この点が高い新規性となっている. また,このタスクを評価する指標として,新たなデータセット360◦ video summarization datasetを提案している.

[#387]
2018.7.9 02:14:01
BlockDrop: Dynamic Inference Paths in Residual Networks
Zuxuan Wu, Tushar Nagarajan, Abhishek Kumar, Steven Rennie, Larry S. Davis, Kristen Grauman, Rogerio Feris
CVPR2018, arXive:1711.08393
1213
Hiroshi Fukui

概要

強化学習を使い,推論時のResNetの不必要な層(ブロック)を取り除いて計算コストを削減するBlockDropを提案.この研究では,ResNetが特定の層を取り除いた際に性能があまり低下しない能力を利用しており,どのブロックを落とせるかをPolicy Networkにより判定させている. 報酬の設計では,画像認識時により少ないブロックで認識が成功できるほど報酬が高くなるように設計されている. BlockDropにより,ImageNetにおいてtop-1の性能を76%を保ちつつ,平均で20%の高速化(一部では36%高速化)を実現している.

1213_overview.png

新規性・結果・なぜ通ったか?

推論時のネットワーク構造を強化学習により最適化させる手法.強化学習によりネットワーク構造を削減する手法はあまり提案されていないため,新規性が高く評価されたと思われる. また,BlockDropでは速度を改善するだけでなく,場合によっては若干性能を向上させる事が可能である事を示している(CIFAR, ImageNetで検証).

コメント・リンク集

強化学習の新しい使い方で非常に面白い手法.今後,改善や応用が期待できそう.

[#388]
2018.7.9 02:18:31
CondenseNet: An Efficient DenseNet using Learned Group Convolutions
Gao Huang, Shichen Liu, Laurens van der Maaten, Kilian Q. Weinberger
CVPR2018, arXive:1711.09224
350
Hiroshi Fukui

概要

DenseNetをベースにコンパクトなネットワークを構築するCondenseNetを提案.このCondenseNetは,学習中は更新回数が増えるに連れて畳み込む特徴マップを減らしていく. そして,推論時は疎になった畳み込み層の特徴マップを入れ替え,Group Convolutionする. これにより,畳み込みに対する処理時間を大幅に削減する事が可能であり,推定時の計算コストを大幅に削減する事ができる.

350_overview.png

新規性・結果・なぜ通ったか?

コンパクトなネットワークを構築するために,学習では畳み込みをスパースにする処理を導入し,推論時には特定の特徴マップを畳み込むようにGroup Convolutionを導入している.このような畳み込みの最適化方法は提案されていないため,新規性として高い. また,DenseNetの構造も改良しており,複数種類のプーリングを使用する等の改良も導入している. 同会議で提案されているShuffleNetよりコンパクトにする事ができる.

コメント・リンク集

[#389]
2018.7.9 02:23:06
Cube Padding for Weakly-Supervised Saliency Prediction in 360° Videos
Hsien-Tzu Cheng, Chun-Hung Chao, Jin-Dong Dong, Hao-Kai Wen, Tyng-Luh Liu, Min Sun
CVPR2018, arXive:1806.01320v1
171
Hiroshi Fukui

概要

360°カメラの動画から弱教師あり学習でSailency mapを効率的に求める方法を提案.方法として,360°のシーンを6つのパネルに分割し,チャンネル方向に結合する事で,ネットワークに入力する. ここで,シーンをパネルに分割する際にCube Paddingという方法を提案しており,特定パネルの周囲のパネルの一部を,その特定パネルの両端に結合させる. これにより,パネル間の関連性をネットワークに学習させる事が可能である. また,360°シーンのデータセットを新たに提案している.

171_overview.png

新規性・結果・なぜ通ったか?

提案しているCube Paddingという広大なシーンに特化した入力方法は,解像度が高い場合においても処理速度の低下を抑制する事が可能である.また,パネルを分割する際にCube Paddingを導入する事で,パネル間の境界に対してロバストにする事ができる. 今回のタスクに対して新しいデータセット”Wide-360° Dataset”を提案している点も,評価が高い.

コメント・リンク集

新たな問題設定にチャレンジした研究.そして,結果の見せ方が凄く良い.(特にオフィシャルページの360°のYouTubeを使った動画デモ)

[#390]
2018.7.9 02:08:03
Finding beans in burgers: Deep semantic-visual embedding with localization
Martin Engilberge, Louis Chevallier, Patrick Pérez, Matthieu Cord
CVPR2018, arXive:1804.01720
522
Hiroshi Fukui

概要

マルチモーダルに任意の領域を高精度にローカライズする研究.この研究では画像 & テキストを対象としており,右図のように入力されたテキストに適合した領域をヒートマップで推定している. 画像特徴とテキスト特徴を同一空間に落とし込んでネットワークを学習する. そして,認識時にテキストの特徴ベクトルと画像の特徴マップを使ってヒートマップを出力する.

522_overview.png

新規性・結果・なぜ通ったか?

方法としては,画像と単語からResNetとRNNを用いて特徴マップ / 特徴ベクトルを抽出し,同一特徴空間にembeddingさせる.学習では,画像とテキストの特徴からTriplet Ranking Lossを用いて学習させる. ヒートマップは,画像の特徴マップと文章の特徴ベクトルの掛け合わせから求めることができる. このローカライゼーションは,非常に高い性能を達成している.また,Zero-shot Learningにも応用できる.

コメント・リンク集

[#391]
2018.5.20 19:39:22
Learning Answer Embeddings for Visual Question Answering
Hexiang Hu, Wei-Lun Chao and Fei Sha
CVPR2018

概要

VQAの質問と画像、答えそれぞれを表現するembeddingを学習する手法を提案。従来のVQAは、任意の文章を答えとして出すものと用意された選択肢の中から選択するものの2種類に分けることができる。 前者は答えが合っているか否かは主観的なものである、後者は選択肢に含まれない答えを出力できない、runningとjoggingのように似ている単語の区別が難しいといった問題がある。 そこで質問と画像のペア、答えそれぞれを表現するベクトルを学習することで答え同士の類似度の定義や未知の答えへの対応を可能にする。 具体的には、それぞれのベクトルを用いた確率モデルを構築し、最尤推定を行う。

Item3Image

新規性・結果・なぜ通ったか?

従来手法では学習の際に設定した答えのみしか出力できず、異なるデータセットに適用することが不可能であったが、提案手法により異なるデータセットなどデータセットに含まれていない答えにも適用可能となった。

コメント・リンク集

[#392]
2018.7.9 00:41:29
Structure Inference Net: Object Detection Using Scene-Level Context and Instance-Level Relationships
Yong Liu, Ruiping Wang, Shiguang Shan and Xilin Chen
CVPR2018
876

概要

画像のシーンコンテキストと,物体の関係の2種類のコンテキストを用いて物体検出を行うアルゴリズムを提案.物体検出をグラフ構造の推論問題として扱い,物体をノード,物体間の関係をエッジとしてモデル化する.これを実現するために,Faster R-CNNのような物体検出フレームワークに組み込む構造推論ネットワーク(Structure Inference Network;SIN)を設計した.SINは,特徴マップとしてプールされたRoIをノードとしてFC層にマッピングする.同様に画像全体の特徴をシーンとして抽出し,RoIを連結してエッジとする.グラフは反復的に更新され,最終状態は物体クラス予測の精度向上に貢献する.

20180708_SIN1.jpg20180708_SIN2.jpg

新規性・結果・なぜ通ったか?

物体検出の精度向上のためにコンテキスト(周辺環境,物体の位置関係など)の理解が重要となる.コンテキストをグラフ構造で表して推論する斬新な手法である.VOCとCOCOで評価を行い,一部のクラスはFaster R-CNNよりも高性能であり,全体では76.0mAP(VOC07),73.1mAP(VOC12)とFaster R-CNN(73.2,70.4)よりも高性能であることを示した.

コメント・リンク集

グラフ構造で物体検出を扱うものはいくつかあるが,エッジの情報と周辺環境のコンテキストも考慮したものは新しい.コンテキストを考慮した物体検出は,未知の物体を検出するためにも重要な要素となり得る?

[#393]
2018.7.8 11:15:43
Deep Ordinal Regression Network for Monocular Depth Estimation
Huan Fu, Mingming Gong, Chaohui Wang, Kayhan Batmanghelich and Dacheng Tao
CVPR2018
231

概要

DCNNを用いてdepth画像を推定するとき,depthを離散化して順序回帰問題として解くdeep ordinal regression network(DORN)を提案.Depthの離散化にはspacing-increasing discretization(SID)を導入した.SIDを用いてログスケールで離散化することで,遠い領域のdepth画像を粗く,手前の領域のdepth画像を細かく離散化してロスの減少に貢献する.ネットワークの構成は高解像度な特徴抽出部,マルチスケール特徴学習器(ASPP),フル画像エンコーダおよび順序回帰optimizerからなる.計算コストを削減するために,skip connectionではなくシンプルな構成を採用した.

20180708_DORN1.jpg20180708_DORN2.jpg

新規性・結果・なぜ通ったか?

DCNNを用いた高解像度なdepth画像推定は,通常skip connectionや複数のdeconv層が必要だったが,この問題を解決または低減した.KITTI,Make3D,NYU Depth v2などのベンチマークで他の手法を大きく上回りSOTAを達成した.

コメント・リンク集

単純なログスケールでの離散化だけでなく,depth値の出現頻度を考慮した離散化を行えばより高精度化できそう.

[#394]
2018.7.8 07:43:29
Translating and Segmenting Multimodal Medical Volumes with Cycle- and Shape-Consistency Generative Adversarial Network
Zizhao Zhang, Lin Yang, Yefeng Zheng
CVPR 2018
Takahiro Itazuri

概要

医療画像処理ではCTやMRIなどの異なった種類のデータが存在する。医療の現場において、CTとMRIはどちらも必要となる場面がある一方で、どちらか一方しかデータが存在しないことも多々発生している。そこで本論文では、CTとMRIという3D画像データ間のドメイン変換を行うタスクに取り組んだ。またCTとMRIのそれぞれからセグメンテーションを行うネットワークも学習させた。

img

新規性・結果・なぜ通ったか?

2D画像におけるImage-to-Image Translationに対応する、医療3D画像におけるVolume-to-Volume Translationに対して以下の点に取り組んだ。

  • 画像ペアがないデータセットにおける学習を行った点
  • 解剖学的構造に矛盾が出ないようにした点
  • 合成画像を利用して、セグメンテーションの精度を向上させた点

コメント・リンク集

[#395]
2018.7.6 18:22:51
“Learning-Compression” Algorithms for Neural Net Pruning
Miguel et al.
CVPR 2018

概要

Pruningを最適化問題として定式化し、交互最適化によって解くLC algorithmの提案。定式化としては0をとらないパラメータ数に対して制約を設けて解くConstrain formとそれを罰則項として損失関数に組み込むPenalty formの二つを提案。メジャーなPruning手法であるパラメータのmagnitudeの小さいものをナイーブにzeroingしていくものよりも、良い結果となった。提案する2つのformに関してはConstrain formの方が良かった。

Learning_Compression_Algorithms_for_Neural_Net_Pruning.png

詳細

補助パラメータのPruningを行うCompression(C) Stepと本パラメータを補助パラメータに近づけつつ本タスク(識別・回帰など)を学習するLearning Stepからなる。C Stepでは(制約 or 罰則項として) Lp正則をかけながら本パラメータとのMSEを最小化するような補助パラメータを探索する。L Stepでは損失関数における補助パラメータとのMSE項の係数を学習の進行に応じて大きくすることで(μ→∞)、最終的な解がスパースなものに近づく。また、Constrain formでは超パラメータ一つでNN全体において最適化できる。手法の新規性・妥当性が大きく評価されたと考えられる。

コメント・リンク集

magnitudeベースのものは「 magnitude が小さいものは推定への寄与率が低い」という仮定のみでPruningしていくが、この手法ではその仮定をベースにしつつ(C step)、本タスクの性能を担保しながらPruningしていく(L step)点で理にかなっているように思え、面白い。計算効率をモチベーションにされることが多いPruning研究だが、枝刈りの割合によってはLasso回帰のように汎化性能が向上するような地点がないかもきになる。

[#396]
DeLS-3D: Deep Localization and Segmentation with a 3D Semantic Map
Peng Wang, Ruigang Yang, Binbin Cao, Wei Xu, Yuanqing Lin
CVPR 2018
Yue Qiu

概要

  • GPS IMU,RGBビデオカメラ及び3Dセマンティックマップからカメラ姿勢・自己位置推定及びscene parsingを同時に行えるフレームワークの提案.
  • 提案フレームワークの概要は:①GPS/IMU及びrenderredセマンティックマップから初期なカメラ姿勢を推定する.② renderredセマンティックマップとRGB画像をpose推定ネットワークに入力し,精密なカメラ姿勢を推定する.またRNNにより更に姿勢推定を精密化する.③推定した精密なカメラ姿勢で新たなセマンティックマップをrenderし, renderredマップとRGB画像を更にsegment CNNによりピクセルレベル精度のセマンティックマップを推定する.

DeLS-3D

新規性・結果・なぜ通ったか?

  • GPS IMU,RGBカメラ,3Dセマンティックマップのマルチセンサーの情報をDNNにより有効的かつロバストでに融合できる.
  • カメラ姿勢推定とScene parsingの2つのタスクを同時に行うことにより,各々で行える場合より良い精度を得られることを実験に通して示した.
  • gtカメラ姿勢,denseなセマンティックラベル付きのポイントクラウド及びピクセルレベル精度のビデオカメラ画像の室外運転用データセットを提案した(リアルデータ).

コメント・リンク集

  • 入力に3Dセマンティックマップがあるので,ある意味ではscene parsingに対して提案手法は入力画像を手掛かりにレンダリングされたセマンティックマップをマイナー修正だけ?

  • 論文

[#397]
2018.7.6 16:26:27
Parallel Attention: A Unified Framework for Visual Object Discovery through Dialogs and Queries
Bohan Zhuang, Qi Wu, Chunhua Shen, Ian Reid, Anton Van den Hengel
CVPR 2018
Yue Qiu

概要

  • variable lengthな物体の言語descriptions (一つの単語からmulti-round会話まで)から正しく画像中に物体を参照できるネットワークPLANを提案した.
  • PLANネットワークは2種類のattentionを用いている:言語descriptionsのパーツと①画像のグローバルコンテンツ②画像の局所的領域ー物体candidatesを関連付けする.
  • recurrent attentionを用いて,異なる処理段階でのattentionを変更できる.更に, attentionを可視化することにより,システムが異なる処理段階で正しい物体領域をattentionしているかを確認できる.

parallel-attention

新規性・結果・なぜ通ったか?

  • 言語入力が異なるRefCOCO,RefCOCO+,GuessWhat?!などのデータセットでSoTAな精度を達成.
  • LSTMとattentionを用いているので,referringプロセスをビジュアライズできて,ネットワークの解釈可能性も高い.
  • 固定長ではなく長さが異なる言語入力(一つの単語からmulti-round会話まで)から正しく視覚attentionを得られる.

コメント・リンク集

  • LSTM+attentionもなかなか良さそう

  • 論文

[#398]
2018.7.6 16:14:24
DS*: Tighter Lifting-Free Convex Relaxations for Quadratic Matching Problems
F. Bernard et al.,
CVPR 2018
Kensho Hara

概要

画像間で対応関係を探すなどのマッチング問題の最適化を解くための新たな手法を提案. 二次計画問題として定式化された問題を効率的に解くための凸緩和手法. 提案手法はScalableでデータ数が増えても計算時間があまり増えないことに加えて, Tightな解を求めることが可能.

新規性・結果・なぜ通ったか?

  • ScalableかつTightな解を求められるアルゴリズムを提案

コメント・リンク集

  • 論文
  • 中身全然理解できてないです...
[#399]
2018.7.6 12:29:32
Robust Video Content Alignment and Compensation for Rain Removal in a CNN Framework
J. Chen, C. Tan, J. Hou, L. Chau and H. Li
CVPR2018
Ryota Suzuki

概要

動画像において,土砂降り的なはっきり見えている雨を除去する.高速に動くカメラの動きにも頑健.

スーパーピクセルセグメンテーションをし,デプスを含むユニットに分解.シーンコンテンツの位置合わせをスーパーピクセルレベルで実行する. 雨の線の場所や遮蔽された背景コンテンツに関する情報を抽出し, 雨除去の中間出力を得る. さらに,そこで使った情報を更にCNNの入力特徴として使い, 高周波成分の復元に使う.

Figure1

新規性・結果・なぜ通ったか?

土砂降り雨を合成した車載カメラ画像データに適用し,PSNRが改善,見た目もよくなった.

コメント・リンク集

合成データでしか評価してないのが気になる.

[#400]
2018.7.6 12:10:22
Self-calibrating Polarising Radiometric Calibration
D.T. Guangwei, B. Shi, Y. Zheng, S. Yeung
CVPR2018
Ryota Suzuki

概要

偏光放射特性のセルフキャリブレーション手法の提案.これまでには,カメラ応答だけ求めるものはあったが, 本研究では,未知のカメラ応答及び未知の偏光角を同時に復元する.

応答が線形とした場合,偏光フィルタを回転すれば偏光強度の変化は正弦波になるはずではる.この事実を使って,統合的に最適化を定式化する.

Figure1

新規性・結果・なぜ通ったか?

カメラ応答を偏光情報を使って,放射特性と偏光特性の両方を統合的に最適化するというやり方で,自己キャリブレーションを実現したものは初.

コメント・リンク集

[#401]
2018.7.6 11:16:24
Mining on Manifolds: Metric Learning without Labels
A. Iscen, G. Tolias, Y. Avrithis and O. Chum
CVPR2018
Ryota Suzuki

概要

教師なしマイニングの話.ハードポジティブ・ハードネガティブが分別しやすいマニフォールドにおける表現方法を考案. 本手法によれば, 正例たちは一つのマニフォールドに距離が離れて置かれ, 負例たちは複数のマニフォールドに距離が近い形で置かれる. ユークリッド的な近さとマニフォールド的な近さの不一致性によって,両者を分別可能になる.

Figure1

新規性・結果・なぜ通ったか?

学習済みネットワークの教師なしファインチューニングや,特定物体検索に適用させてみて,完全・部分教師ありと比較して性能超え.

コメント・リンク集

[#402]
2018.7.6 10:41:24
Polarimetric Dense Monocular SLAM
L. Yang, F. Tan, A. Li, Z. Cui, Y. Furukawa and P. Tan
CVPR2018
Ryota Suzuki

概要

通常のカメラとは違い,偏光カメラ画像からは,鏡面反射してしまっているようなところでも,物体表面の法線角度が窺い知れたりするので,組み合わせることで良いDense SLAMができるようになると思われる.ところが,偏光情報からの法線角度推定は,特に境界付近でエラーが載りやすい.従来手法では事前にセグメンテーションマスクを生成しており,オフラインアルゴリズムであった.

本研究では,・方位ベースデプス伝播・2視点デプス一貫性チェック・デプス最適化の 反復処理を完全自動化し, 注意深くGPU実装できるように設計, SLAMに組み込んだところでリアルタイムに動くようにした.

Figure1

新規性・結果・なぜ通ったか?

通常カメラ+偏光カメラでのSLAMは初.

コメント・リンク集

[#403]
2018.7.6 10:12:41
Left-Right Comparative Recurrent Model for Stereo Matching
Z. Jie, P. Wang, Y. Ling, B. Zhao, Y. Weio, J. Feng and W. Liu
CVPR2018
Ryota Suzuki

概要

左右一貫性チェックという,ステレオにおける視差情報を改善する手法がある.従来は,左右でのチェックはそれぞれ独立かつHand-Craftedであった. 本稿では,これを結合的に行えるようなリカレントモデルを提案する.

両眼の視差結果から,オンラインにミスマッチ領域を判別していく.ここで,ソフトアテンション機構を導入する. 学習したエラーマップを使い,次時間の処理において,信用できない領域に選択的に焦点を当てるという方法. これにより,視差結果を反復的に改善していく.

Figure1

新規性・結果・なぜ通ったか?

3つのベンチマークでSoTA性能を達成.

コメント・リンク集

[#404]
2018.7.5 11:32:39
Taskonomy: Disentangling Task Transfer Learning
Alexander Sax, William Shen, Amir Zamir, Jitendra Malik, Silvio Savarese, Leonidas J. Guibas
CVPR 2018
452
Yue Qiu

概要

  • CVPR2018のベストペーパー.視覚タスクの関連性に基づき高効率的に遷移学習を行えるtaskonomyの提案.
  • 問題設定:CVの究極的目標の1つとしては全世界の視覚問題を解く.現状では,視覚タスクはほぼ各々にネットワーク,データセットを定義,学習を行っていた.しかし,作者達が視覚タスクの間に関連性が高いと指摘し,究極的視覚タスクを解ける目標に向かう一歩としては①視覚タスクの間の関連性を導く.②そういった関連性に基づき目標タスクに対しより遷移学習を行うことで,少ないデータで高効率的に学習をする.
  • 概要:taskonomyを求めるのは主に2つのパーツから構成される.①タスクの関連性を量化し,その量化の結果はaffinity matrix.②目標タスクに対し,affinity matrixに基づき最適化を行い,効率的に遷移学習を行えるルートdirected graph(このグラフはtaskonomy)を求める.
  • ①タスク関連性を表すaffinity matrixを求めるプロセス:目標タスクグループをT,0から学習できる開始タスクグループをSと定義.ステップ1:Sタスクに対し,全部0から学習を行う.(全部encoder-decoderの構造)ステップ2:遷移学習を行う.「タスク間1次関連」s∈S, t∈T, tに対しsのencoderを使い,decoderを学習.(全部のs,tペアに対この学習を行う)「タスク間n次関連(n<=5)」1次関連の効果により,tに対し,効果上位n個のsのencoderのrepresentationを同時に用いてdecoderを学習.ステップ3:ステップ2の全部の遷移学習の最終ロスをベースにaffinity matrixを生成する. それぞれのタスクのロスは異なるロス関数を用いているため,線形的に遷移学習の効果を表せないために,Ordinal Normalizationをベースとした手法を用いてロスを関連度に表示した(この方法はAnalytic Hierachy Processを参考した).最終的に求めたAffinity matrixの(i,j)の意味はあるタスクに対しタスクiから遷移学習の効果がどれくらいの確率でjタスクから遷移学習の効果より良い.
  • ② affinity matrixを用いた効率的遷移学習:ある目標タスクtに対し,最適遷移学習ルートを求めるプロセスは「affinity matrixに対し,subgraph selection問題であり,そのsubgraphのスタートはsで,終点は目標タスクt」.具体的には条件1あらかじめ定義した開始タスクsの数を超えない;2タスクsに対し,遷移学習の回数上限は1回;3遷移学習の開始及び目標タスクはsubgraphに含める.の3つの拘束条件の元Binary Interger Programmingを用いて最適化を行う.

taskonomy

新規性・結果・なぜ通ったか?

  • 視覚タスクは各々でデータセット,方法を構築することから,視覚タスク間の関係を追究し,その関係を利用ことで,資源を有効的に利用できる.
  • 3000+ネットワークをトレーニング
  • ~50,000GPU時間
  • 120k画像0から学習,16k画像遷移学習
  • 400万枚画像,それぞれ26種類のタスクのアノテーション付き

コメント・リンク集

  • 今のそれぞれのタスクで解決しようとする研究より一歩先に立っている

  • 実行力とコストが想像できないくらい

  • 論文

  • プロジェクト

  • task bank

[#405]
2018.7.6 10:37:53
Single-Image Depth Estimation Based on Fourier Domain Analysis
Jae-Han Lee, Minhyeok Heo, Kyung-Rae Kim and Chang-Su Kim
CVPR2018
59

概要

フーリエ周波数領域解析をベースとしたCNNを用いて,単一のRGB画像から距離画像を推定する手法を提案.CNNはResNet-152ベースで,depthbalanced Euclidean lossと呼ばれる損失関数を設計し,広範囲の距離画像を推定できるように学習する.次に,入力画像を複数のアスペクト比で切り取って複数のデプスマップ候補を生成する.アスペクト比の小さい画像は,局所的に信頼できるデプスマップを生成するが,アスペクト比の大きい画像は,大域的なデプスマップを生成する.これらをお互いに補完するために,デプスマップ候補を周波数領域で結合する.

20180705_single-image_depth_estimation1.jpg

新規性・結果・なぜ通ったか?

距離画像推定にフーリエ周波数領域解析を使った(作者の知る限りで)初めての論文である.NYUv2 depth datasetの画像280,000枚を学習し,654枚で評価を行った.fully convolutional residual networksを用いた最新の手法と同等またはそれ以上の性能を得ることができた.

コメント・リンク集

損失関数やフーリエ周波数領域解析がしっかり構築されており説得力のある論文である.

[#406]
2018.7.5 14:32:07
FlipDial: A Generative Model for Two-Way Visual Dialogue
Daniela Massiceti, Siddharth Narayanaswamy, Puneet Kumar Dokania, Phil Torr
CVPR 2018
740
Yue Qiu

概要

  • 画像及びキャプションからConditional VAEをベースとした視覚会話(継続的な質問・回答を両方とも生成)を生成できるモデルFLIPDIALを提案した.
  • 従来の継続的な応答するタスクを1VDと継続的に応答及び質問両方行うタスクを2VDと定義し,構造的に変更を加え提案FLIPDIALが1VD,2VD 両方対応できる.
  • FLIPDIALの基本的な考えはCNNによりfull 会話をエンコードし,conditional VAEを用いて会話を生成する. 2VDタスクは画像・キャプション・会話履歴からlatent variableを通して答えをfull dialogueをモデリングし,予測したfull dialogueとgt dialogueのlatent空間においての類似性及び画像との関連性を元にロス関数を定義した.

FlipDial

新規性・結果・なぜ通ったか?

  • 提案FLIPDIALが1VDタスクにおいてVisDialデータセットに対し従来のVisual Dialog手法より良い精度を達成し,新規な2VDタスクのbaselineを建てて,新たな評価指標なども提案した.
  • 提案FLIPDIALが一つの質問に対し,多様な答えを生成できる.

コメント・リンク集

  • CNNによりfull 会話をエンコードする考えが大胆的

  • 論文

[#407]
2018.7.5 11:59:41
VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection
Yin Zhou, Oncel Tuzel
CVPR 2018
575
Yue Qiu

概要

  • LiDARなどのセンサーにより得られるポイントクラウドから3次元検出を行うend-to-endなネットワーク構造VoxelNetの提案.
  • VoxelNetの全体構造はまずスパースなポイントクラウドから4Dテンサーで特徴を表し,それに対して空間コンテキスト情報を集合する層により処理を行った後,RPN構造により3Dバウンディングボクスの予測を行う.
  • 提案したポイントクラウド情報抽出するの主なプロセスは①ポイントクラウドをスパース3Dボクセルに変換し②VFE(新規提案)層よりボクセル内のポイントワイズな特徴を集合し,更にVFE層をstackすることにより3D形状の複雑な特徴を抽出する

VoxelNet

新規性・結果・なぜ通ったか?

  • 提案手法はスパースなポイントクラウドを直接処理できる.LiDARポイントクラウド処理の手法の中最も良い性能が得られる.
  • KITTIデータセットにおいてSoTA.車・人・自転車を高い精度の検出できる.

コメント・リンク集

  • LiDARセンサーから有効的かつ高スピードで識別や検出する研究がまたまた研究の余地があると感じている.

  • 論文

[#408]
2018.7.5 11:52:56
Efficient Optimization for Rank-based Loss Functions
P. Mohapatra, M. Rolínek, C.V. Jawahar, V. Kolmogorov and M.P. Kumar
CVPR2018
Ryota Suzuki

概要

情報検索システムにおける精度は,平均精度(AP)や正規化減価累積利得(NDCG)のような複雑なランクベースロス関数で測られるが,このような関数の微分不可能性・分解不可能性は単純勾配最適化においては許されない.これの回避方法として,一般的には,構造化ヒンジロス上界の最適化をロス関数にする方法や,直接ロス最小化のような漸近的手法が使われる. それでも,loss-augmented inferenceの高い計算複雑性は残る.

本稿では,それを緩和する,新たなクイックソート・フレーバーな分割統治を導入したアルゴリズムを提案する.分解不可能ロス関数に適用可能である.

我々のアルゴリズムにも適用できるロス関数の特徴づけも提供する.これはAP,NDCGの両方を含む. 更に,我々の手法の計算複雑性の上では,漸近的に比較ベースアルゴリズムでは改善できないことを証明する.

あらゆるCVのタスクでの学習モデルでのAP,NDCGの構造化ヒンジロス上界の最適化の文脈において,我々の手法の効果をデモンストレーションする.

Figure1

新規性・結果・なぜ通ったか?

クイックソート的にランクを並べ替え・選択して,というのは面白いやり方に感じる.

コメント・リンク集

専門用語がわからないと読み下すのが難しいかもしれない.

[#409]
2018.7.3 11:34:08
Deep Learning of Graph Matching
A. Zanfir, C. Sminchisescu
CVPR2018
Ryota Suzuki

概要

グラフマッチングをDeepで扱えるようにしたという,大変汎用的な論文.

グラフマッチングにおける全パラメータのEnd-to-End学習を可能にした.これは深層特徴抽出階層により表現される.

モデルの異なる行列計算レイヤの定式化が肝である模様.勾配の一貫性ある効率的な伝播を行えるようにする, マッチング問題を解くにあたっての組み合わせ最適化レイヤと,特徴抽出階層を通じた, ロス関数からの完全なパイプラインを提案している.

Figure1

新規性・結果・なぜ通ったか?

グラフマッチングは,ノードとその間をつなぐエッジで構成されるグラフ(ノードの幾何学的位置は無意味)の等価性を検索するタスクで,コンピュータビジョンや機械学習のあらゆる方面で適用されるものである.これが深層学習で解けるようになれば,それは当然大きな進歩である. グラフマッチングを扱おうとする人の第一リファレンスになりえる論文と思われる.

キーポイント検出において試してみたところ,やはりSoTA性能.

コメント・リンク集

[#410]
2018.7.3 10:27:30
CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes
Yuhong Li, Xiaofan Zhang, Deming Chen
CVPR 2018

概要

混雑状況認識やカウンティング、密度推定のためのネットワークCongested Scene Recognition Network (CSRNet)を提案し、データドリブンで学習する。畳み込みによる特徴抽出とDilated Convにより広範領域から特徴を評価する(ここにおいてプーリング層を置き換えると記述され、純粋に畳み込みそうのみで構成されている)。図はDilated ConvとPoolingの有無によるヒートマップの比較。

180704CSRNet

新規性・結果・なぜ通ったか?

データセットはShanghaiTech, UCF_CC_50, WorldEXPO'10, UCSDを用いて検証した。特にShanghaiTechデータセットではMean Absolute Error (MAE)が47.3%も下がった。

コメント・リンク集

[#411]
2018.7.4 08:54:53
Stacked Latent Attention for Multimodal Reasoning
Haoqi Fan, Jiatong Zhou
CVPR 2018

概要

アテンションモデルの改善を行い、VQAに適用する。現在のアテンションに関する弱点は(1)中間層では対応関係といった理由づけに関する情報を除去してしまう(2)StackedAttentionでは局所最適解に陥ってしまうことを挙げた。本論文ではこの問題を解決するため、明示的に中間的な理由づけに関する構造を加えたStacked Latent Attention Modelを提案。マルチモーダルのReasoningに有効であることがわかり、VQAにおいても効果的な手法となった。

180704StackedLatentAttentionModel

新規性・結果・なぜ通ったか?

構造をスタックしてより良好なアテンションにしていくモデルを構築した。空間的な理由づけ(Reasoning)を潜在的に行うモデルであり、マルチモーダルであるVQAや画像説明文にも効果的である。

コメント・リンク集

アテンションは論文数増加していて、各方面に広がってきた。

[#412]
2018.7.4 08:35:08
CarFusion: Combining Point Tracking and Part Detection for Dynamic 3D Reconstruction of Vehicles
N Dinesh Reddy, Minh Vo and Srinivasa G. Narasimhan
CVPR2018
221

概要

カメラキャリブレーションされていない複数の視点から車の3次元データをパーツ単位で再構成しトラッキングも行うパイプライン「CarFusion」を提案.強いオクルージョンがある場合でも移動車両の検出,localize,再構成を行うことができる.構造化された点(検出された車両のパーツ)と構造化されていない特徴点(Harrisのコーナー検出)を融合して車の正確な再構成と検出を行う.複数視点からの車の再構成にはCar centric RANSAC(cRANSAC)を提案している.通常のRANSACと比較して,左右対称を前提として車の形状を考慮したマッチングを行う.

20180703_CarFusion1.jpg20180703_CarFusion2.jpg

新規性・結果・なぜ通ったか?

キャリブレーションされていない非同期のカメラからダイナミックに剛体を再構成するという,3D Vision分野で重要だが困難な研究を行った.In the wildでの高精度な検出としても新規性がある.cRANSACのみ用いた場合とCarFusion全体パイプラインを用いた場合で,トラッキングの誤差を4倍削減することができた.再構成時のキーポイント検出も従来手法より優れている.さらに,車の半分程度が隠れてしまう強いオクルージョンがある場合でも3D構成を検出することができた.

コメント・リンク集

車に特化した手法だが,いくつかの剛体に対しては似たアルゴリズムを用いることができそう.検証実験も詳細で一見の価値はある.

[#413]
2018.7.3 22:58:23
Human Semantic Parsing for Person Re-Identification
Mahdi M. Kalayeh, Emrah Basaran, Muhittin Gökmen, Mustafa E. Kamasak, Mubarak Shah
CVPR 2018

概要

人物に関して、主に姿勢に関するパーツベースのセマンティック情報を導入することにより人物再同定(Person Re-identification)の精度を向上させる。提案のSPReIDはInception-v3やResNet-152をベースアーキテクチャにしていて、各種データセットに対して向上が見られた。

180703PersonSemanticReID

新規性・結果・なぜ通ったか?

各種データセットにて次の通り向上した。セマンティック情報を人物再同定に使うのは有効であることが判明した。Market-1501 (参考文献48) by ∼17% in mAP、∼6% in rank-1, CUHK03 (参考文献24) by ∼4% in rank-1、DukeMTMC-reID (参考文献50) by∼24% in mAP ∼10% in rank-1。

コメント・リンク集

セマンティック情報を使えば想像通りよくなるが、実際にデータセットに対してアノテーションしてCVPRに通す根性がすごい!見習おう。

[#414]
2018.7.3 10:29:10
Monocular Relative Depth Perception With Web Stereo Data Supervision
Ke Xian, Chunhua Shen, Zhiguo Cao, Hao Lu, Yang Xiao, Ruibo Li, Zhenbo Luo
CVPR 2018

概要

Web画像により相対的なステレオ視に関するデータセットを作成した。RankingLossを改善した誤差関数によりデータセット内のステレオ視を学習、ペアリングが困難なものについての対応付けを行なった。作成したデータセットに対してState-of-the-artであるのみならず、他のピクセルベースの密な推定(距離推定、セマンティックセグメンテーション)についても有効性を示した。

180703RelativeDepthPerception

新規性・結果・なぜ通ったか?

Web画像により密なステレオ視を推定する枠組みを考案、Relative Depth from Web(ReDWeb)の概念を提唱。RankingLossの改善版によりペアリングが困難な対応付についても行った。DIW/NYUDv2データセットにて評価、State-of-the-artな性能を達成した。

コメント・リンク集

Web x StereoVisionという掛け合わせがよい。さらに、アノテーションの枠組みも参考になる。

[#415]
2018.7.3 01:52:59
Depth and Transient Imaging With Compressive SPAD Array Cameras
Qilin Sun, Xiong Dun, Yifan Peng, Wolfgang Heidrich
CVPR 2018

概要

イメージング技術において、Time-of-flight(ToF)やTransient Imagingに関する研究である。これらの技術は研究の関心に反して解像度が上がらず、低コスト化も進んでいない。本論文ではセンサの設計を変更し、Arrays of Single Photon Avalanche Diodes (SPADs)を改善することでこの問題に取り組む。DMDを用い、光学系をカスタマイズすることでSPADの解像度を800x400まで向上。時系列ヒストグラムを調整するモデルでは効果的にノイズ除去できることも示した。

180703DepthTransient

新規性・結果・なぜ通ったか?

右図は提案のイメージング技術であり、SPADsの高解像度化を実現した。

コメント・リンク集

[#416]
2018.7.3 01:19:46
GVCNN: Group-View Convolutional Neural Networks for 3D Shape Recognition
Yifan Feng, Zizhao Zhang, Xibin Zhao, Rongrong Ji, Yue Gao
CVPR 2018

概要

3次元形状認識のためにGroup-View Convolutional Neural Netowrk (GVCNN)を提案し、形状に関するビュー不変な内的かつ階層的な相関関係を記述する。識別性が高くなるようGroupingModuleによりビューポイントのグルーピングを行い、途中の層でViewPoolingやGroupFusionを行い、3次元形状認識を行う。右図はGVCNNのアーキテクチャである。

180703GVCNN

新規性・結果・なぜ通ったか?

ビューポイントに不変な認識を実施可能なEnd-to-Endな学習フレームワークであるGVCNNを提案した。MVCNNとの比較により有効性を示した。

コメント・リンク集

ビューポイントに不変は学習可能。

[#417]
2018.7.3 00:56:48
Deflecting Adversarial Attacks with Pixel Deflection
Aaditya Prakash et al.
CVPR 2018

概要

対象ピクセルを近傍のピクセルと入れ替えるPixel Deflectionを利用した敵対的摂動に対しての防御手法。NNは敵対的摂動ノイズに対しては弱いのに対し、ランダムノイズには強いという経験的な傾向から、敵対的摂動が加わっていないサンプルへの性能をできるだけ保持した状態でノイズを加えるためにPixel Deflection+ Wavelet Denoisingを行う。既存手法よりも良い防御性能を示した。

Deflecting_Adversarial_Attacks_with_Pixel_Deflection.png

詳細・なぜ通ったか?

Pixel Deflectionはある対象ピクセルをその近傍からランダムにサンプルされたピクセル値に置き換える。対象ピクセルを決める際には、正しい識別を行う際に重要となる領域以外からサンプリングする。具体的には敵対的摂動による影響が少ないsaliencyであるRobust CAMを定義し、そのsaliencyが低い領域からサンプル。この背景には敵対的摂動は画像に対して大域的に(物体に関係せず)現れる傾向があるので、できるだけ正しい識別に影響を与えない領域にPixel Deflectionを行いたいという考えがある。

コメント・リンク集

NNのパラメータに関する変更はせずに入力への変更を行うことで敵対的摂動の種類にかかわらず汎用的に防御できるという点が面白い。手法の裏付けとして敵対的摂動とランダムノイズの識別精度への影響比較も行っており、面白かった。

[#418]
OATM: Occlusion Aware Template Matching by Consensus Set Maximization
S. Korman, M. Milam and S. Soatto
CVPR2018
Ryota Suzuki

概要

本稿の手法により,60%のピクセルがノイズに侵されている(occluded)テンプレートでもマッチングできる.しかも結果の証明が可能.

N高次元ベクトルの最近傍探索をsqrt(N)次元ベクトルにおける2つのセットの間の最近傍探索 の変換を行う. これで探索効率が二乗でよくなる.

また,コンセンサスセット最大化(cf. RANSAC)による,ハッシング手法も提案.これにより,遮蔽を扱うことができる.

これらのスキームは,高い確率で最適解を得るのに求められるイタレーション数を考慮する,ランダム化仮説&テストアルゴリズムとみなすことができる.

Figure1

新規性・結果・なぜ通ったか?

SoTAなロバスト性・高速性・精度を達成.

コメント・リンク集

やはりエレガントさを求める勢力が台頭してきているように感じる.

[#419]
2018.7.2 18:18:37
Context Contrasted Feature and Gated Multi-scale Aggregation for Scene Segmentation
H. Ding, X. Jiang, B. Shuai, A.Q. Liu, G. Wang
CVPR2018
Ryota Suzuki

概要

セマンティックセグメンテーションにおいて,FCNの中に2つの機構を取り入れた.

  • Context Contrasted Local feature
    コンテキストを見るには広く見るべきだが,ローカルな特徴も実際必要なので, そういう構造のカーネルを採用したフィルタを定義.
  • Gated sum
    それぞれの場所におけるスケールごとに対応したスケールの特徴を選択的に集計.

Figure1

新規性・結果・なぜ通ったか?

3つのセマンティックセグメンテーションのデータベースでSoTA.

コメント・リンク集

[#420]
2018.7.2 17:44:27
Now You Shake Me: Towards Automatic 4D Cinema
Yuhao Zhou, Makarand Tapaswi, Sanja Fidler
CVPR2018
Kazuho Kito

概要

4D映画を自動で作成するための研究。63本の映画に9286のエフェクトのアノテーションをしたデータセットであるMOVIE4dを提案。エフェクトは、揺れ、天候、風、水しぶきなど。また、人の形のみでなく、視聴覚情報をまとめるニューラルネットワークとしてConditional Random Field modelを提案。

Now_You_Shake_Me_Towards_Automatic_4D_Cinema.PNG

新規性・結果・なぜ通ったか?

映画のスレッドだけでなく、クリップ内でのキャラクター間のエフェクトの相関関係を利用。

コメント・リンク集

[#421]
2018.6.23 02:05:00
Objects as context for detecting their semantic parts
Abel Gonzalez-Garcia, Davide Modolo and Vittorio Ferrari
CVPR2018
Kazuho Kito

概要

物体の情報に効果的な影響があるセマンティックパーツの検出アプローチを提案。どのパーツを予想するべきかという指標として、オブジェクトの見た目とクラスを用い、その見た目を基に物体の中でのそのパーツに期待される相対的な位置をモデル化。OffsetNetという新しいネットワークモジュールで所定の物体の中の一部の場所を効果的に予測することを達成。

Objects_as_context_for_detecting_their_semantic_parts_1.PNGObjects_as_context_for_detecting_their_semantic_parts_2.PNG

新規性・結果・なぜ通ったか?

the PASCAL-Part datasetにおいて+5mAPの改善。PASCAL-PartとCUB200-2011において他のパーツ検出手法より優れた成果を達成。

コメント・リンク集

[#422]
2018.6.23 01:42:55
Solving the Perspective-2-Point Problem for Flying-Camera Photo Composition
Ziquan Lan, David Hsu and Gim Hee Lee
CVPR2018

概要

ドローンのような飛行体にユーザーが指定した2つの被写体を含んだ画像を撮影させる手法の提案。ユーザーは希望の2つの被写体を指定し、それぞれどのように配置したいかを指定する。 ここでは、n=2の場合のPnP問題を考えることでドローンの撮影位置を決定する。 カメラの姿勢を求める6自由度の問題として考えるが、P2P問題は解が一意に定まらないので移動距離が最小となる撮影位置を解とする。 ワールド座標系とカメラ座標系間の直接の変換を考えるのではなく、2つの被写体がx軸上に配置される座標系を考えることで、計算を簡略化する。

Item3Image

新規性・結果・なぜ通ったか?

仮想環境によって実験を実施し、被写体の位置情報にノイズが含まれている場合でも頑健なことを確認した。実環境における実験は、SLAMにより得られた自己位置を使用して行ったが、推定誤差があるような場合においても高い精度で撮影位置を求めることに成功した。 撮影位置の最適化は、1つの物体を先に最適化した後にもう一方の物体の位置を調整するという実験結果が得られた。

コメント・リンク集

幾何学的な計算が中心である論文であり、数少ない機械学習が全く登場しない論文である。

[#423]
2018.7.2 01:32:33
3D Pose Estimation and 3D Model Retrieval for Objects in the Wild
Alexander Grabner et al.
CVPR 2018
Pavel A. Savkin

概要

RGB画像から6DOF姿勢推定+3Dモデル検索を同時に行えるようにする手法。厳密な中身は画像から6DOF姿勢するパートと、その姿勢とRGB画像情報から最適な3Dモデルを検索して見つけてくるパートに分けられる。三次元姿勢推定については既存手法からInspireされ、認識された物体を内包するProjected 3D Bounding Box(16 Parameters)及び3D Scale(3 Parameters)をResNetやVGGをベースとしたCNNで推定し、PnP問題を解いた。これによりモデル既知でないにもかかわらず、Pascal3D+データセットでState of the artな6DOF姿勢推定精度を実現。3Dモデル検索パートでは、RGB特徴量とDepthImage特徴量の取得を異なるのCNNで定義し、RGB特徴量、対応するDepth特徴量、間違ったDepth特徴量をそれぞれAnchor, Positive, Negativeと扱いTripletLossを計算することで学習。これによりRGB画像とDepth画像という全く異なるドメイン間での特徴量マッチングを実現し、テクスチャレスな3DモデルであったりRGB画像の照明環境不明であっても最適な3Dモデルの検索を行えるようになった。同カテゴリでは似たような形状のモデルが多数存在するにもかかわらず、画像に対する人間のAnnotationに対して約50%の精度での検索結果を実現した。

fukuhara-3D_Pose_Estimation_and_3D_Model_Retrieval_for_Objects_in_the_Wild.png

新規性・結果・なぜ通ったか?

Projected 3D Bounding Box を用いた6DOF 姿勢推定ではモデル既知でしか解けなかったところをモデル既知でState of the art、モデルなしでもCompatibleな結果を出した点。検索パートではハイコストな3D畳み込みや既知DepthImageを要することなくRGBとDepthImage間の共通記述特徴量の学習・その有効性を示した点。結果については姿勢推定においてはState of the art、検索においては人間のAnnotationに対して50%の精度を実現。6DOF姿勢の高精度推定と、RGB・Depth間の共通記述子を学習することにより画像から3Dモデル検索までを行うシステムを実現したことが通った理由と思われる。

コメント・リンク集

[#424]
2018.6.30 23:18:55
Neural Sign Language Translation
Necati Cihan Camgoz, Simon Hadfield, Oscar Koller, Hermann Ney and Richard Bowden
CVPR2018

概要

手話動画を言語に翻訳する手法を提案。手話の各フレーム及び文章中の各単語を表現する特徴ベクトルを取得し、RNNによりそれぞれのsequenceを取得する。 手話動画から得られるsequenceを文章のsequenceに変換することで翻訳を実現する。 その際、手話動画のフレーム数は文章中の単語数と比べて圧倒的に多いため対応付けが難しい。 そこで、Attentionを導入することで手話動画中の重要なフレームに対して重み付けを行う。

Item3Image

新規性・結果・なぜ通ったか?

従来のデータセットは機械学習に用いるには数が少ないため、手話動画、手話の単語、対応するドイツ語の文章を含んだRWTH-PHOENIX=Weather 2014Tというデータセットを提案した。従来の手話に関する研究は、Recognitionの問題として考えていたのに対して、Sequence間の変換と考えることにより文章を出力することを可能とした。

コメント・リンク集

[#425]
2018.6.30 21:07:35
4DFAB: A Large Scale 4D Database for Facial Expression Analysis and Biometric Applications
Shiyang Cheng, Irene Kotsia, Maja Pantic and Stefanos Zafeiriou1
CVPR2018
Kazuho Kito

概要

180万枚以上の3Dのメッシュを含んだダイナミックで高解像度な3Dの顔のデータベースである4DFABを提案。このデータベースには、5年以上かけて異なる4つの期間で撮られた180のサブジェクトの記録を含んでいる。サブジェクトには、自然な表情とそうでない表情の両方の4Dビデオが含まれており、行動に関するバイオミメティクスだけでなく、顔と表情の認識に使うことができる。また、表情をパラメータ化させるためのパワフルなblendshapeを学習することに使うこともできる。

4DFAB.PNG

新規性・結果・なぜ通ったか?

自然な表情と笑顔,泣き笑い,混乱している表情などの自然でない表情が含まれている.

コメント・リンク集

[#426]
2018.6.20 19:36:05
Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning
D. Mascharka et al.,
CVPR 2018
Kensho Hara

概要

モデルの挙動を解釈しやすい,かつ高精度なVQAモデルの提案. Neural Module Networkは結果の解釈がしやすいが,複雑なタスクだと精度が落ちる. それを改善した手法はあるが,解釈性を犠牲にしている. ということで,性能と解釈性のGapを埋めよう,というモチベーション. Moduleに分解するのは従来と同じアイディアなものの, モジュール設計のデザインを工夫することで改善を図っている. なお,Transparencyは途中経過を可視化できるという意味で使っている.

新規性・結果・なぜ通ったか?

  • VQAのタスクにおいて解釈しやすいモデルでありながらSOTAを達成

コメント・リンク集

  • 論文
  • ざっと読んだだけだとなぜこの論文のモジュール構成が優れているのかわかりにくい
[#427]
2018.6.29 18:30:49
PoTion: Pose MoTion Representation for Action Recognition
V. Choutas et al.,
CVPR 2018
Kensho Hara

概要

行動認識のためのPoseベース特徴表現の提案. まず姿勢推定手法を適用して各Jointのヒートマップを計算. 各時刻のヒートマップを時間情報を色で表現してTemporal Aggregationすることで, 各動画でJointごとに1枚のヒートマップ表現を得る. これをチャンネルにスタッキングしたのがPoTionという提案特徴表現. PoTionをCNNに入力して識別するのが提案手法. 従来手法と組み合わせることで相補的に働き精度の向上が可能.

新規性・結果・なぜ通ったか?

  • Pose情報を利用した新しい特徴表現を提案
  • 時間情報を含めて画像1枚に落とせるので入力時間長に依存せずCNNで扱いやすい
  • 元々のSOTAのI3Dと組み合わせて更に高い精度を達成

コメント・リンク集

  • 論文
  • 姿勢推定がかなり良くできるようになってきた時代の手法という感じ
  • 色を使って時間情報をAggregationしてるのが面白い
[#428]
2018.6.29 18:10:57
Deep Learning under Privileged Information Using Heteroscedastic Dropout
John Lambert et al.
CVPR 2018

概要

テスト時に入力できる情報に対して、学習時にはより強い情報が使用できる場合にその+αの情報(特権情報)を学習時にうまく活用する研究。テスト時には特権情報が得られないので、特権情報に対して周辺化したものを出力とする方針をとるが、一般にその値を求めるのは難しい。そこで特権情報をGaussian Dropoutの分散の中に埋め込み学習することでテスト時に特別な計算をせずに周辺化することができる。画像認識・機械翻訳で実験し、学習サンプルが少ない状況下で特に効果を発揮する。

Deep_Learning_under_Privileged_Information_Using_Heteroscedastic_Dropout.png

詳細・なぜ通ったか?

Gaussian Dropout部分での逆伝搬ではVAEなどで用いられるreparameterization trickを利用している。画像認識においては特権情報として物体のbounding boxを与えている。SGDでのNNの最適化が理想的に完了する条件下でデータ効率が上がるという理論的な保証と、実験結果による精度向上が評価されたと考えられる。

コメント・リンク集

マルチタスクでの学習よりもしっかり良い結果となっていて興味ふかい。理論的保証はあるものの、Gaussian noiseが具体的にどのようなサンプルに対してどのように作用しているのかを確認する実験なども欲しかった。

[#429]
Motion-Guided Cascaded Refinement Network for Video Object Segmentation
Ping Hu, Gang Wang, Xiangfei Kong, Jason Kuen, Yap-Peng Tan
CVPR 2018

概要

通常、物体のモーションは背景(カメラ)モーションとは異なることを事前知識として動画に対する物体セグメンテーションを実行した。提案モデルであるCascaded Refinement Network(CRN)は最初にオプティカルフローにより荒くセグメントしてから高解像なセグメンテーションをCNNにより実施する(ここらへんがMotion-Guidedと呼ばれる理由)。CRN構造に対してSingle-channel Residual Attention Moduleも提案して学習/推論時間を効率化。

180629MotionGuidedCRN

新規性・結果・なぜ通ったか?

疎密探索の枠組みを採用しており、まずはオプティカルフローを抽出、Active Contourにより荒くセグメント。次にCRNによりセグメンテーションを実施した。動画に対して84.4%@mIOU, 0.73 sec/frame(semi-supervision)を達成した。

コメント・リンク集

Old-fashionな手法を組み合わせて弱教師にする方法を提案。また、DAVISは少量教師や教師なしが当たり前のように出てくる。コンペで教師なしを用いる設定はうまいと思った。

[#430]
2018.6.29 07:51:28
Multi-Content GAN for Few-Shot Font Style Transfer
Samaneh Azadi et al.
CVPR 2018

概要

26のアルファベットのうちfewな種類しかデータがない状況で、そのフォントで書かれた他種類のアルファベットを生成する研究。アルファベットの形状をグレースケールで生成するGlyph Netとそれらにカラーで装飾を行うOrnamentation Netの二つからなる。単純にpix2pixのようにsingle-shotな構造で生成するよりも形状生成と装飾を多段に行う方がはるかに実際に近いアルファベットが生成できた。

Multi_Content_GAN_for_Few_Shot_Font_Style_Transfer.png

詳細・なぜ通ったか?

Glyph Netではチャネル方向に配列されたアルファベットを入力する。ないアルファベットは0埋めし、敵対的損失を用いて26×H×Wのグレースケールアルファベットを生成する。 Glyph Netはデータベースのあらゆるフォントサンプルに対して同一のモデルを学習する。 Ornamentation Netは上記のグレースケール画像に対し正解サンプルに近づくよう敵対的損失とMSEによって学習。ここで、正解はfewな種類しかないためそれらにのみ損失を計算。 Ornamentation Netはフォントごとに逐一異なるモデルを学習する。問題設定の面白さ、実際の完成度の高さが評価されたと考えられる。

コメント・リンク集

画像生成において今回の「形状」と「色(装飾)」のように相関が薄いと考えられるものに関しては多段に生成を行った方が良い結果が得られるのだろうと考えられた。

[#431]
Self-Supervised Feature Learning by Learning to Spot Artifacts
Simon Jenni et al.
CVPR 2018
Tomoyuki Suzuki

概要

画像情報の欠損を検出することによる表現獲得手法。encoder-decoder modelの特徴マップ上の領域をランダムに欠損させて、decodeされた画像が欠損されたものがどうかを識別する。

Self_Supervised_Feature_Learning_by_Learning_to_Spot_Artifacts.png

詳細・なぜ通ったか?

学習はdecoder内の補完レイヤーと識別器間で敵対的に行う。識別器は欠損された部分を示すマスクも出力する。encoder-decoderモデルをreal/fake問わず最初にかませる理由としては、CNNに入力することによるartifactによって識別器が判断しないようにするため、 また高次な特徴マップ上での欠損を行うことで高次な情報が欠損した画像の生成を行うためである。SoTAに近い精度が出ていることが評価されたと考えられる。

コメント・リンク集

生成された画像を見る限り高次な情報が欠損しているかどうかがよく分からない。また、pretrainを終了するタイミングを含め全体的に学習が難しそうであると感じた。

[#432]
Weakly-Supervised Semantic Segmentation by Iteratively Mining Common Object Features
Xiang Wang, Shaodi You, Xi Li, Huimin Ma
CVPR 2018

概要

弱教師付き学習に対してボトムアップ(物体レベルで似ている特徴量をマイニング)とトップダウン(リファインされた領域をセグメンテーションの教師として学習)のアプローチを組み合わせる手法を考案。右図の(1)RegionNetによる出力/リファイン結果とPixelNetによる出力との比較によりセグメンテーションの誤差を比較、(2)PixelNetによ出力とマイニングした物体マスクと(Class Activation Mappingにより領域抽出された)RegionNetの出力を比較して領域に対する識別の誤差を計算する。

180623WSSegmentMining

新規性・結果・なぜ通ったか?

識別ベースによる物体領域抽出とセグメンテーションの誤差を繰り返し最適化することにより弱教師付きセマンティックセグメンテーションを実行する。SuperPixelの導入、類似物体マイニング、領域のリファインなどが徐々にセグメンテーション結果をよくしていく。

コメント・リンク集

弱教師付き学習はうまくいくときとうまくいかない時がありそう?なんどもやればランダムで良い結果が得られる?

[#433]
2018.6.23 22:07:14
MAttNet: Modular Attention Network for Referring Expression Comprehension
Licheng Yu, Zhe Lin, Xiaohui Shen, Jimei Yang, Xin Lu, Mohit Bansal, Tamara L. Berg
CVPR 2018

概要

言語の入力から画像中の領域を指定するネットワークModular Attention Network (MAttNet)を提案する。本論文では2種類のアテンション(言語ベースのアテンションと視覚ベースのアテンション)を導入した。言語ベースのアテンションではどこに着目して良いかを学習、視覚ベースのアテンションではサブジェクトとその関係性を記述することができる。それぞれのスコアは統合され、最終的には文章を入力すると対応する領域がbboxの形式で出力される。右図はMAttNetの枠組みを示す。文章の入力から言語ベースのアテンションによりワードが厳選され、画像中から探索される。画像ではSubject-/Location-/Relationship-Moduleが働き、最後は統合して総合的に判断、画像中の物体相互関係を考慮した検出が可能になった。

180623MAttNet

新規性・結果・なぜ通ったか?

従来の枠組みと比較して、提案手法は(bboxレベルでもpixelレベルでも)高い精度を達成。

コメント・リンク集

Language and Visionの一例。最近はやっている。

[#434]
2018.6.23 21:37:17
HashGAN: Deep Learning to Hash with Pair Conditional Wasserstein GAN
Yue Cao, Bin Liu, Mingsheng Long, Jianmin Wang
CVPR 2018

概要

Wasserstein GAN (WGAN)の枠組みでハッシング技術を行うHashGANを実装する。主となるアイディアはハッシングのためのデータ拡張を行うためにGANの枠組みを導入。通常は画像生成のみに用いられる仕組み自体を、データバリエーションの拡張のために用いて識別器を強くする。さらに、画像ペアの類似度を計測しながら画像生成を行う枠組みであるPair Conditional WGAN(PC-WGAN)を提案した。図はPC-WGANのアーキテクチャを示し、主に2つの構造から構成される。ひとつは画像生成部Gと識別部Dであり、ランダムノイズuと類似特徴vの連結から画像を生成してリアルな画像を生成。もうひとつはベイジアン学習によりコンパクトなバイナリハッシュを生成するハッシュエンコーダFである。

180623HashGAN

新規性・結果・なぜ通ったか?

GANの枠組みにより高品質なバイナリコードを生成。生成器Gと識別器DのみならずハッシュエンコーダFを同時に学習する枠組みを考案。NUS-WIDE/CIFAR-10/MS-COCOにおいてSoTA。

コメント・リンク集

戦いの中で強くなるGAN、ですね。

[#435]
2018.6.23 21:20:15
Clinical Skin Lesion Diagnosis using Representations Inspired by Dermatologist Criteria
Jufeng Yang, Xiaoxiao Sun, Jie Liang, Paul L. Rosin
CVPR 2018

概要

肌疾患(Sin Disease)の診断を医師が行いながら、同時にデータ/モデルをIterativeに蓄積・構築する枠組みを考案。従来はComputer Aided Diagnosis(CAD)が肌疾患を判断するために役立ってきたが、2次元画像による判断は(ほぼ)行われていなかった。本論文ではデータの蓄積を行うと同時に、医師の判断材料をベースにした表現方法を学習することで、診断するモデルを構築する。診断の特徴としては、テクスチャの分布(複数箇所に渡り対称性が見られる領域が存在するかどうか)や色の表現(ここでは参考文献39,40のColorNameを適用)、形状を用いる。

180623ClinicalSkinLesionDiagnosis

新規性・結果・なぜ通ったか?

医師による診察の目を実装したこと、データを繰り返し実装する枠組みを構築できたことが分野(特に医用画像処理)に貢献した。

コメント・リンク集

この枠組みはうまいと思う。さらにお医者さんと連携してデータ収集/アルゴリズム強化の枠組みが整えば、より病気を判断するための手助けをする技術が発達する。

[#436]
2018.6.23 21:00:26
Deep Cauchy Hashing for Hamming Space Retrieval
Yue Cao, Mingsheng Long, Bin Liu, Jianmin Wang
CVPR 2018

概要

効率的かつ効果的なDeep Hash ModelであるDeep Cauchy Hashing(DCH)を提案する。主たるアイディアはCauchy分布によるPairwise Cross-Entropy Lossを提案することであり、類似する画像に対してHamming距離により誤差の重み付けを行う。図はDCHの構造を示しており、畳み込みにより表現を学習、全結合を通り抜けFully-Connected Hash Layer(FCH)によりK-bitのハッシュコードを生成、Cauchy Cross-Entropyにより類似度により誤差を計算して誤差を伝播させる。

180623DeepCauchyHashing

新規性・結果・なぜ通ったか?

画像検索において3種のデータ(NUS-WIDE/CIFAR-10/MS-COCO)に対してSoTA。

コメント・リンク集

Deep Hashingの研究、データセットをより大きくしてハード面での実装も含めて評価する枠組みが必要?Hashingなので、FCC100Mのように1億枚くらいの画像検索をやってほしい(し、日本でも取り組んでいる人はいる)。

[#437]
2018.6.23 17:49:41
Blazingly Fast Video Object Segmentation with Pixel-Wise Metric Learning
Yuhua Chen, Jordi Pont-Tuset, Alberto Montes, Luc Van Gool
CVPR 2018

概要

ユーザインタラクティブに動画セマンティックセグメンテーションのための距離学習(Metric Learning)を行い、特徴空間を最適化する。入力画像から任意のモデルに対してセグメンテーションを実施、ユーザが良いと判断したセグメント領域を正解値として特徴空間を設定、一方でテスト(バリデーション?)画像を参照して動画セマンティックセグメンテーションを実行して学習する。

180623PixelWiseMetricLearning

新規性・結果・なぜ通ったか?

ユーザインタラクティブというところが良い。セグメンテーションに対するアノテーションはコストがかかる(かかりすぎる)が、これをコンピュータによる推論と、ユーザのクリックのみにして特徴空間を学習していく方がコストが最小化される。精度も出るのでCVPRにアクセプトされている。

コメント・リンク集

セマンティックセグメンテーションに対するアノテーションは一枚あたり$10~12であると言われる。アノテーションコストを下げる方向に研究は進んでいて、特に動画セマンティックセグメンテーションは低コスト/弱教師学習/ドメイン変換等により進められると考えられる。

[#438]
2018.6.23 17:26:13
Mask-guided Contrastive Attention Model for Person Re-Identification
Chunfeng Song, Yan Huang, Wanli Ouyang, Liang Wang
CVPR 2018

概要

人物再同定のための特徴表現学習のためにTriplet学習を行う。オリジナルの全体画像(Anchor Image)、マスクされた人物領域(Positive Image)と背景領域(Negative Image)を用いて学習する。ここで、Triplet学習ではAnchor/Positiveをできる限り近く、Anchor/Negativeをできる限り遠くの特徴空間に置くことでよりよく対象となる物体を見ることができ、良好な特徴量を生成することができる。

180623MaskguidedContrastiveAttention

新規性・結果・なぜ通ったか?

前景/背景を別々に学習し、背景ではなくできる限り前景に対してアテンションを置いて識別することで、人物再同定において良好な精度での識別を確認した。前景抽出のマスク画像に関するアノテーション(Mars/Market-1501/CUHK03)も公開することで、人物再同定の分野に貢献する。

コメント・リンク集

マスクを全部作成した、ということで膨大な労力がかかっている研究。

[#439]
2018.6.23 17:04:57
Video Person Re-identification with Competitive Snippet-similarity Aggregation and Co-attentive Snippet Embedding
Dapeng Chen, Hongsheng Li, Tong Xiao, Shuai Yi, Xiaogang Wang
CVPR 2018

概要

適切な長さの動画分割(Video Snippet; ビデオスニペット)とCo-Attention機構による人物再同定の研究である。動画からの人物再同定では長いフレーム長をそのまま入力するよりもスニペットに分割して、さらには分割動画間のCo-Attentionに着目することで特徴表現を学習する方が認識に有利であることを実証した。スニペット間で類似度が計算され、ランク付が行われる。

180623SnippetSimilarityCoAttention

新規性・結果・なぜ通ったか?

動画スニペットごとに類似度を計算し、それぞれに対してCo-Attentionを求めて特徴量を学習する方法で複数のデータセットにてSoTA。iLIDS-VIDにてTOP1が85.4、TOP5が96.7(上位に正解が含まれているかどうかであり、TOP5は5人中1人が正解であればよい)であり強い手法が構築できた。PRID2011においてもそれぞれ93.0/99.3、Marsにおいても86.3/94.7である。

コメント・リンク集

人物再同定は数年前までTOP5(〜TOP20)が高い精度であれば許される時代だったがTOP5で95+%(驚くべきは99%も出ているデータセットがあるということ)という数値である。中国の事情もあり、その解決のためにSenseTimeがその役を買っているというわけである。今後はさらなるデータ作成と社会実装の推進が進むと思われる。SenseTime/CUHKの連携ラボの枠組みも整った(CUHK-SenseTime Joint Lab.と著者リストにある)ことで、さらに研究が大規模に進められる。

[#440]
2018.6.23 16:51:25
Recognizing Human Actions as the Evolution of Pose Estimation Maps
Mengyuan Liu, Junsong Yuan
CVPR 2018

概要

動画に対する姿勢+ヒートマップからの行動認識を解く問題である。通常、動画中の姿勢推定は不安定なものであるが、動画内での平均化や連続する姿勢、ヒートマップから補完的に改善して行動を認識する枠組みを提案。ヒートマップのスパース性を考慮、Spatial Rank Poolingを実装してEvolutionImageを作成しヒートマップや姿勢の変動に対応できるようにした。この枠組みはNTU RGBD/UTD-MHAD/PennActionに対して有効であることを示した。

180623EvolutionPoseMap

新規性・結果・なぜ通ったか?

不安定な姿勢変動に対応するためにSpatial Rank Poolingを実装した。位置づけ的にはDynamicImage/VideoDarwinがTwo-Stream ConvNetsに対する改善なのに対して本論文は姿勢に対してこれらの枠組みを試行。この枠組みを用いてNTU RGBD/UTD-MHAD/PennActionに対してSoTA。

コメント・リンク集

直感的に言うと、テスト動画に対する中間特徴(中間値)みたいのを作成して、外れ値を防ぐことで精度向上?

[#441]
2018.6.23 16:25:14
Video Representation Learning Using Discriminative Pooling
Jue Wang, Anoop Cherian, Fatih Porikli, Stephen Gould
CVPR 2018

概要

行動認識における特徴は独立ではなく、動画を通して共通する部分が多い。これら共通特徴を捉えるためのプーリング(Pooling)手法を確立すると共に特徴表現を学習する。戦略としてはMultiple Instance Learning(MIL)により未知だが識別性に優れた非線形の識別境界(Hyperplane)を求めるようにPooling自体をDNNの中で学習する。右図は従来法のDynamicImages(参考文献2; 図中(iii))と提案手法であるSVM Pooling(図中(iv))の比較である。SVM Poolingは動画像全体の動きを捉える特徴量が抽出しやすくなり、精度向上に寄与した。識別決定境界を学習、動画レベルの識別を最適化することから、SVM Poolingと呼ぶ。

180623DiscriminativePooling

新規性・結果・なぜ通ったか?

3種類の公開データセット(HMDB51/Charades/NTU-RGBD)にてSoTA。

コメント・リンク集

Pooling/Conv自体のパラメータを固定ではなく、学習可能にしてしまう、というアイディアは多くなってきた。構造自体を学習するNAS(Neural Architecture Search)なんかにも使うことでさらなる精度向上ができないか?

[#442]
2018.6.23 16:05:37
SGPN: Similarity Group Proposal Network for 3D Point Cloud Instance Segmentation
Weiyue Wang, Ronald Yu, Qiangui Huang, Ulrich Neumann
CVPR 2018
335
Yue Qiu

概要

  • ポイントクラウドを対象としたインスタンスセグメンテーションネットワークSGPNを提案した.
  • SGPNが入力されたポイントクラウドに対してまずpointnet++などを用いて特徴抽出を行い,抽出特徴に対し類似性を評価することによってグルーピングを行う.グルーピングと同時にセマンティックを予測する.グループの結果をインスタンスセグメンテーションに用いる

SGPN

新規性・結果・なぜ通ったか?

  • 初めてのポイントクラウドに対しインスタンスセグメンテーションを行うネットワークの提案と指摘した.
  • SGPNがflexibleに2D CNN特徴を導入でき,これによって更なる良い性能を得られる.
  • 3次元Shape及び実三次元シーンのセグメンテーション用データセットShapeNetとStanford Indoor Semantic Dataset及びNYUV2においてSoTAなインスタンスセグメンテーション結果を得られた.

コメント・リンク集

  • ネットワークの説明が簡潔で,結果も良いのでつかってみたい

  • 論文

[#443]
2018.6.26 13:56:20
Recurrent Slice Networks for 3D Segmentation of Point Clouds
Qiangui Huang, Weiyue Wang, Ulrich Neumann
CVPR 2018
341
Yue Qiu

概要

  • 有効的にポイントクラウドの局所的構造をモデリングできるポイントクラウドを直接処理する3D セグメンテーションフレームワークRSNetを提案した.
  • RSNetは主に3つの部分から構成され:①slice pooling layerが入力ポイントクラウドをslicesスにグループし, sliceごとにポイントの特徴をaggregateすることによりグローバル特徴を抽出する②RNNsにより特徴を抽出する③slide unpooling layerにより抽出特徴をポイントに戻す.

RecurrentSliceNetworks

新規性・結果・なぜ通ったか?

  • S3DIS, ScanNet, ShapeNetの3つのデータセットにおいて最も高いセグメンテーション精度を達成した.
  • RSNetは従来の3DCNNと比べ精度が高いほか,時間とメモリー消耗がより少ない.

コメント・リンク集

  • RNN構造をポイントクラウドの情報抽出に用いるのが良い精度を達成した原因だと思う

  • 論文

  • コード

[#444]
2018.6.26 13:51:24
3D Object Detection with Latent Support Surfaces
Zhile Ren, Erik Sudderth
CVPR 2018
121
Yue Qiu

概要

  • 点群密度,3次元法線方向ヒストグラム,COG特徴などの3つの特徴に基づいた3次元検出手法の提案.
  • RGB-D画像にoriented cuboidsをアラインして,更にcanonical座標フレームに変換する.ボクセルごとに点群密度特徴,3次元法線方向ヒストグラム及びCOG特徴(Latent Support Surfaces特徴)を抽出し,SVMにより識別及びバウンディングボクスの検出を行う.提案するCOG特徴は555ボクセルでボクセルごとに主要法線方向の表示をベースとしたdescriptor.

3D-detection-latentsupportsurfaces

新規性・結果・なぜ通ったか?

  • 従来の3次元検出手法は局所的形状及び表現から物体カテゴリを決定し,異なる視覚スタイル・スケールの物体を検出するロバスト性が低い.提案手法は異なるスケールの物体検出を行える.特に小さい物体の検出が従来より強い.
  • SUN RGB-D DatasetにおいてSOTAな精度を達成.

コメント・リンク集

[#445]
2018.6.26 13:46:17
Learning 3D Shape Completion From Laser Scan Data With Weak Supervision
David Stutz, Andreas Geiger
CVPR 2018
226
Yue Qiu

概要

  • 弱監督なラーニングベースな3次元形状補完手法を提案した.3次元CGモデルデータにより形状priorを学習し,形状予測学習に対しmaximum likelihoodロスを用いて弱監督学習を行う.
  • 具体的に,2段階で学習を行う.段階①で三次元CGモデルによりfull監督でリコンストラクションロスを用いてauto-encoder(VAE)をトレーニングし,段階②では欠損した実三次元モデルからencoderを行い,段階①で学習済みのdecoderにより形状補完を行い,復元した形状と入力形状間のmaximum likelihood lossにより学習を行う.

3DshapeCompletion-laser-weak

新規性・結果・なぜ通ったか?

  • Data-driven型な3次元形状補完手法と比べ,実行時間が短く,full supervised的な手法と比べリアルデータに対し監督信号がなくても行える.
  • ShapeNet, ModelNetにおいてData-driven型な手法と同レベルな精度.

コメント・リンク集

  • 弱監督・無監督がホットスポット.

  • 論文

[#446]
2018.6.26 13:40:50
SurfConv: Bridging 3D and 2D Convolution for RGBD Images
Hang Chu, Wei-Chiu Ma, Kaustav Kundu, Raquel Urtasun, Sanja Fidler
CVPR 2018
378
Yue Qiu

概要

  • 3次元サーフェスに沿って,2次元畳み込みフィルタリング処理を行う新たな畳み込み処理方法SurfConvを提案した.
  • 従来の2次元畳み込み操作は空間スケールの変化に弱い,3次元畳み込み操作はデータのスパース性により効率が良くないなどの問題点から,3次元空間中のサーフェスに沿って畳み処理を行う手法を提案した.提案するdepth-guided畳み込み操作は,デプス値によりreceptive fieldのサイズをコントロールし, receptive fieldごとの幾何情報をHHAにより表示する.

SurfConv

新規性・結果・なぜ通ったか?

  • SurfConvを用いて連続なデプス情報を離散的に取り扱い,一つのreceptive field内でx,yはfull解像度で同時にzの解像度は従来の3次元畳み込みより低いので効率が良い.
  • 従来の3DCNN手法と比べ良い精度を得られるほか,モデルのサイズが小さい.
  • KITTI,NYUv2データセットにおいてSOTAな精度を達成した

コメント・リンク集

  • 考え方が新しい

  • 調整する必要があるhyper parameterが多いので,訓練しにくいかもしれない

  • 論文

  • コード

[#447]
2018.6.26 13:34:49
Unsupervised Learning of Monocular Depth Estimation and Visual Odometry with Deep Feature Reconstruction
Huangying Zhan, Ravi Garg, Chamara Weerasekera, Kejie Li, Harsh Agarwal, Ian Reid
CVPR 2018
60
Yue Qiu

概要

  • デプス推定及びビジュアルodometryを同時に行える無監督学習フレームワークの提案.
  • デプス推定及びodometry推定の結果をそれぞれ互いにwarpingし比較することをベースとしたimageリコンストラクション及びfeatureリコンストラクションロスを提案し,従来の従来のphotometricベースなロス関数と比べ良い精度を得られた.またデプス推定及びodometry推定をwarping,比較することにより,自己監督を得て,監督データなしで学習を行える

unsupervised-depthvo

新規性・結果・なぜ通ったか?

  • デプス推定及びvisual odometryを同時に行う方が良い精度を得られると宣言した.
  • KITTIデータセットにおいて,デプス推定及びvisual odometryがトップ1の精度を達成した.

コメント・リンク集

  • 2017年及び2018年のCVPRでの左右視,自己監督などを用いたデプス推定の手法が多い

  • 論文

  • コード

[#448]
2018.6.26 13:23:06
Divide and Grow: Capturing Huge Diversity in Crowd Images with Incrementally Growing CNN
Deepak Babu Sam, Neeraj N Sajjan, R. Venkatesh Babu, Mukundhan Srinivasan
CVPR 2018
Shusuke Shigenaka

概要

訓練データの複雑さに基づいてモデル容量を反復的に拡張するIG-CNNの提案。CNNは個人の検出だけでなく群衆の特徴を学び群衆密度マップを生成することができる。 しかし、多くのデータセットは群衆が一様ではないため疎の画像を高密度と予測してしまう。 提案したIG-CNNは、データセット全体で訓練されたベースのCNN密度回帰分析から始まり、 訓練データに応じて階層的なCNNツリーを作成していくことで細かく分類していくことである。 提案手法は群衆データセットで高いカウント精度を達成している。

Divide_and_Grow_Capturing_Huge_Diversity_in_Crowd_Images_with_Incrementally_Growing_CNN_1Divide_and_Grow_Capturing_Huge_Diversity_in_Crowd_Images_with_Incrementally_Growing_CNN_2

新規性・結果・なぜ通ったか?

  • CNNを階層的に成長させるモデルであるが、手動で指定された基準なしに作成することができる
  • 階層を作った後はIG-CNNを廃棄させ、CNNツリーのリーフノードのネットワークだけで選択が可能になる
  • UCF-CC_50とWorldExpo'10のデータセットにおいて高い精度を誇る

コメント・リンク集

群衆のデータセットは通常高密度のデータばかりに目を向けがちだが、疎なデータに目を向けているのが良いと思った。

[#449]
2018.6.26 11:39:43
Trapping Light for Time of Flight
R. Xu, M. Gupta, S.K. Nayar
CVPR2018
Ryota Suzuki

概要

一回のスキャンだけで,かなり複雑な形状の物体を全周囲計測し,復元する3D復元システムの提案.

Light trapと名付けた,Time-of-Flight(ToF)式3Dスキャナの光を反射しまくる鏡部屋を使うのがキーアイデア.Trapの形状を入射光が複数回trapの中で跳ね返るように選択することで, 対象物体に対し,あらゆる位置・あらゆる方向から複数回数光が注ぐことになる. ToFセンサはそれぞれの光の移動距離を入手でき,Trapの形状は既知(予め計測しておく)なので, 全ての完全なパスが再現可能である. そのためのアルゴリズムを提案する.

通常すごく遮蔽する,球格子をかなり複雑な形状物体の例としたときに,シミュレーションによって99.9%の表面に光を当てられることを示す. また,ハードウェアプロトタイプを実装し, 様々な物体の大きさ,反射特性の物体に対し試してみた.

Figure1
Figure2
Figure3

新規性・結果・なぜ通ったか?

この手のシステムは反射屈折式(Catadioptric)で通っているようだが,問題となるのは一貫性,ラベリング問題(どの受容光が発射光だったのか)を解決しなければならないという困難さがある.

このシステムでは,ToF(パスの長さが分かる)を使っているので,ラベリング問題を解く必要がない.

コメント・リンク集

  • カオス感(パイ捏ね変換).カオスは複雑さと単純さを仲立ちできる点が面白いので,問題を簡単にするのに使えるという好例の一つに感じる.DNNも複雑ネットワークという点では同様である.
  • 物体形状の周期性などの条件がたまたま合ってしまうと,全然見えなくなる可能性はないだろうか.
  • システムとして工夫している点が複数あり,制約もあるので,各々論文を確認いただきたい.
[#450]
2018.6.26 11:26:50
Separating Style and Content for Generalized Style Transfer
Yexun Zhang, Ya Zhang, Wenbin Cai
CVPR2018

概要

StyleとContent、それぞれを抽出するEncoderにより得られた特徴を結合することによりStyle Transferを実現するEMDモデルを提案。学習の際、Style Encoderの学習にはStyleが一緒だがContentが違う画像を、Content Encoderの学習にはContentが一緒だがStyleが異なる画像のセットを用いて学習する。

Item3Image

新規性・結果・なぜ通ったか?

Styleとして漢字のフォント、Contentとして漢字の種類を考え検証を行った。Style及びContentのセットは、枚数が多いほど精度がよくなるが増えていくと飽和して変わらなくなる。 ベースラインと比べるときれいな文字が生成されている。

コメント・リンク集

Style Transferの一般化と書いてある割に、漢字という一部の地域でしか用いられていない文字でしか実験がされておらず他の対象に適用可能であるかが不明。(ロスの設計も漢字を前提とした重み付けがされている)そもそも学習画像のセットにStyleとContentが一緒であるという仮定が必要であり、これらが明らかであるという理由で漢字で実験したとあるように、漢字以外でやる場合StyleとContentとは何かを考えなければならない。

[#451]
2018.6.25 14:11:55
Learning Globally Optimized Object Detector via Policy Gradient
Yongming Rao et al.
CVPR 2018
Yoshihiro Fukuhara

概要

強化学習(Policy Gradient)を応用して大域最適化された物体検出器の学習を行う end-to-end なフレームワークの提案. 既存の物体検出器の学習に RoI 間の相互関係が用いられていないことに着目し, 検出された物体の mAP の総和を最大にする様な学習を行うために強化学習を用いている. 提案手法はネットワークの構造には依存しないので既存の多くの手法に適用が可能. 評価実験では, COCO-style mPA で Faster R-CNN を 2.0%, Faster R-CNN with Feature Pyramid Networks を 1.8% 向上させた.

fukuhara-Learning-Globally-Optimized-Object-Detector-via-Policy-Gradient.png

新規性・結果・なぜ通ったか?

  • 強化学習を応用して大域最適化された物体検出器の学習を行う end-to-end なフレームワークの提案(厳密には強化学習では無い)
  • 検出された物体の mAP の総和を最大にする様に学習するため, 大域最適化が可能 (既存手法は multi-task loss で個々を独立して学習)
  • 提案手法はネットワークの構造には依存しないので既存の手法に適用が可能(汎用性). 計算のオーバーヘッドも無い(高速). 通常の Cross-Entropy Gradient に簡単な修正を加えるだけで適用可能(単純)
  • 強化学習の reward は mAP の総和を使用, action は Bounding Box の選択
  • action が膨大になってしまうのを防ぐため, 物体のカテゴリーは既存の手法で適当に選択されていると仮定(学習済みのモデルに追加で学習), それでも action が膨大なので, 強化学習の各イテレーションでサンプリングをして行動を決定
  • 評価実験では, COCO minival set において COCO-style mPA で評価して, Faster R-CNN を 2.0%, Faster R-CNN with Feature Pyramid Networks を 1.8% 向上

コメント・リンク集

  • [論文] Learning Globally Optimized Object Detector via Policy Gradient
  • 強化学習の手法をCVのタスクに応用した例. 既存手法に提案手法を上乗せすることで精度を向上させているところが上手い.(強化学習の際の action の数が多くなり過ぎてしまう問題も, 事前学習済みの検出器に追加で学習を行うことで回避している.)
  • Policy Gradient の式を上手く Cross-Entropy Loss の特殊な場合となる様に変形することで"単純"で効果的な手法となっている.
[#452]
2018.6.23 20:33:55
Through-Wall Human Pose Estimation Using Radio Signals
Mingmin Zha,et al
CVPR2018
Masaki Miyamoto

概要

この研究では,壁や閉塞空間を通した正確な人間の姿勢推定を説明している.これはWiFiの電波が,壁を通り抜け人体に反射する現象を利用している.このとき,人間は無線信号に対してアノテーションを行うことができないため,最先端のビジョンモデルを用いる.具体的には,訓練中に同期された無線信号と視覚情報を用いてビジュアルストリームから姿勢情報を抽出し、それを使用して訓練プロセスを誘導する.いったん訓練されると,このシステムは姿勢推定のために無線信号のみを使用する.人が視認できる状態でテストすると、信号ベースのシステムは、それを訓練するために使用された視覚情報ベースのシステムとほぼ同じ精度であることがわかる.

Through-Wall_pose.PNG

新規性・結果・なぜ通ったか?

コンピュータビジョンにおいてはキーポイントから姿勢を推定する際にこれまでのカメラなどのセンサから情報を得るのではなく,高周波信号を用いている.モデリング面においては教師 - 学生ネットワークを用いている.そのため,このネットワークは具体的な信頼できるキーポイントのマップに関するより豊かな知識を伝達する.ワイヤレス面においては,時間の異なる時点で検出された複数の身体部分を費えることによって、壁の後ろの姿勢の不鮮明な説明を作成するRF-Captureと呼ばれるシステムとなっている.

コメント・リンク集

  • 論文
  • デモ動画
  • [#453]
    2018.6.23 16:41:59
    DiverseNet: When One Right Answer is not Enough
    Michael Firman et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    教師あり学習において, test 時に同じ入力から異なる結果を出力可能にする Loss と学習方法 (DiverseNet) を提案. 提案手法はあらゆる教師あり学習の手法に対して適用が可能であり, 提案された Loss は GAN などで報告されている mode-collapse を起こしにくい. 複数のタスクに対して評価実験を行い有効性を確認した.

    fukuhara-DiverseNet-When-One-Right-Answer-is-not-Enough.png

    新規性・結果・なぜ通ったか?

    • 学習の画像と一緒に制御変数(整数)を入力する, 制御変数を変更することで test 時に同じ画像から異なる結果を得られる
    • 複数の正解ラベルについて Loss の和をとると mode-collapse を起こしやすいため, 提案された Loss では各ラベルについてそれぞれ Loss を計算し, 最小の値を取ったものを Loss として使用  
    • 提案手法はあらゆる教師あり学習の手法に対して適用が可能. また, 正解ラベルが1つしか無いタスクにおいても, 最もらしい結果を複数生成可能
    • 評価実験では提案手法を 2D image completion, 3D volume estimation, flow prediction などの複数のタスクにおける手法に適用し, 特に小さなネットワークのモデルに対して良い結果となった
    [#454]
    2018.5.17 12:19:55
    Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification
    Kiang Long et al.
    CVPR2018
    1711.09550
    Takumu Ikeya

    概要

    • 動画のクラス分類タスクにおいて時系列の情報,特に長期間のパターンは必要な情報ではないことを示し,純粋にattentionに基づいた局所特徴の統合フレームワークを提案をした研究である.
    • 提案したフレームワークを用いて動画分類タスクを実行することで評価した.

    Attension_Clusters.PNG

    新規性・結果・なぜ通ったか?

    • 提案したフレームワークはKineticsデータセットにおいてtop-1で79.4%,top-5で94.0%の精度を達成した.
    • 提案したフレームワークではシフト操作を伴うMultimodal Attention Clustersを導入することでフレームの類似性が高い動画に対しても良好な結果が得られる

    コメント・リンク集

    [#455]
    2018.6.22 22:56:48
    CVM-Net: Cross-View Matching Network for Image-Based Ground-to-Aerial Geo-Localization
    Sixing Hu et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    Ground-to-Aerial Geolocalization の研究. CNNを用いて局所特徴量を抽出した後, NetVLAD によって局所特徴量から大域特徴量を生成してマッチングを行う. また, 新しい Loss を提案し学習時間を短縮した. CVUSA dataset 等を用いて行った評価実験では既存手法に大差で優位な結果を達成した.

    fukuhara-CVM-Net-Cross-View-Matching-Network-for-Image-Based-Ground-to-Aerial-Geo-Localization.png

    新規性・結果・なぜ通ったか?

    • 地上で撮影された写真から, 衛星写真上のどの位置で撮影されたかを推定する(Ground-to-Aerial Geolocalization)
    • 両方の写真からCNNを用いて局所特徴量を抽出した後, NetVLAD によって局所特徴量から大域特徴量を生成, 後述の weighted soft margin ranking loss を用いて学習を行う
    • 新しく提案した weighted soft margin ranking loss は従来の soft-margin triplet loss よりも学習の収束の速度を早めると共に, ネットワークの精度を向上させた
    • CVUSA dataset と Vo and Hays dataset を用いて行った評価実験では既存手法に大差で優位な結果を示した(評価基準は上位 1% の recall). 特にパノラマ写真を入力とした場合は90%以上の精度を達成
    [#456]
    2018.6.22 6:22:55
    Cross-Domain Self-supervised Multi-task Feature Learning using Synthetic Imagery
    Zhongzheng Ren and Yong Jae Lee
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    人手によるアノテーションを使用しない本当の意味での自己教師学習を行うために、合成画像の法線マップ、デプス、物体輪郭と実画像とのadversarial trainingを行う手法を提案。実画像に対して汎用的な特徴量が取得できたことを主張している。 輪郭線はキャニーフィルタによるエッジだが、これによって人がつける曖昧なアノテーションを緩和することができる。 デプスを推定することで高次元のセマンティックな情報やオブジェクトの相対的な位置を得ることが可能。 既存研究により法線マップとデプスのそれぞれの推定が良い影響を与えることがわかっているため、法線マップの推定も行う。 GANの学習において、ディスクリミネータの更新は実画像、合成画像に対するGANのロス、ジェネレータの更新は合成画像に対するGANロス、 3つのタスクの推定におけるロスを使用している。ドメインに不変な特徴料を得るために実画像を用いたジェネレータの学習も行ったが、 精度が良くなかった。

    新規性・結果・なぜ通ったか?

    • 人手によるアノテーションを使用せずに自己教師学習を行うために合成画像の法線マップ、デプス、オブジェクトの輪郭を推定するネットワークを構築し、さらに実画像に対して汎用的な特徴量を得るために実画像とのadversarial trainingを行う。
    • PASCAL VOCを用いた最近傍によるリトリーバルを行った。トレーニングデータにはバスや車などの区別しづらい画像が含まれているにも関わらず、車を入力した際には車のりトリーバルに成功。
    • conv1ですでにガボールフィルタのような特徴量を取得できていることを確認。これはImageNetをただ学習させるだけでは得ることができないことを確認している。
    • Pascal VOCを用いたクラシフィケーション、ディテクションにおいてSoTAと同等の精度を達成。
    • クラシフィケーションとディテクションに対して3つのタスクのうちどれが効果的なのか、どの層の特徴量が効果的なのか、domain adaptaionを行う際にどの層の特徴量が効果的なのかを検証。
    • NYUDデータセットを用いた法線推定において、既存の自己教師学習と比べてSoTAを達成。

    コメント・リンク集

    [#457]
    Dynamic Feature Learning for Partial Face Recognition
    Lingxiao He, Haiqing Li, Qi Zhang, Zhenan Sun
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    マスクなどから見えている顔領域のみを検出するPartial face recognition(PFR)をFCNで高速かつ高精度に行う手法を提案。トレーニング時には顔全体と顔が見えているパッチのそれぞれに対してパラメタを共有したFCNをで特徴量マップを適用し、 パッチ領域から得られる特徴量マップと同サイズのマップを顔全体からえられた特徴量マップからスライディングウィンドウによって複数個切り出し、 パッチから得られた特徴量マップとの比較を行う。 この比較のことをDynamic Feature Matching(DFM)と読んでいる。 DFMを行う際の工夫として、パッチから得られた特徴量マップを顔全体から得られた特徴量ウィンドウの線形和で表す際の重み、 パッチから得られた特徴量マップと特に類似している特徴量ウィンドウに対する重みの学習を行っている。

    新規性・結果・なぜ通ったか?

    • PFMを行う際に顔全体から得られた特徴量マップを切り出した複数の特徴量ウィンドウと顔パッチ部分から得られた、特徴量ウィンドウと同サイズの特徴量マップを比較するDFMを行う手法を提案。
    • 既存手法であるMR-CNNの20倍の速度で実行可能。
    • CASIA-WebFace 1万枚を用いて学習。LFWなどのデータセットでテストを行う。face recognition, verificationにおいてSoTA。
    • 切り取るサイズや、パラメタに対する考察も行っている。

    コメント・リンク集

    • FCNを用いることで任意のサイズの入力を扱えることに着目したことが根幹となるアイディア。
    • 論文
    [#458]
    Mean-Variance Loss for Deep Age Estimation from a Face
    Hongyu Pan, Hu Han, Shiguang Shan, Xilin Chen
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    顔画像から年齢を推定する際に正確に年齢を推定するのではなく、ガウス分布を用いてある程度幅のある推定を行う手法を提案。大きなコントリビューションはロス関数としてガウス分布の平均値と分散に関するロスをとったことであり、 平均値はGTの年齢との差分をとり、分散は分布がよりシャープになるようにロス関数を設計する。 学習の際には上記2つのロス関数の他に1歳刻みの年齢をそれぞれクラスと見立てソフトマックスロスを取る。 分布を学習する既存手法と異なる点は、提案手法ではGTの平均値、分散を使用しない点である。

    新規性・結果・なぜ通ったか?

    • 人間の年齢は正確に推定することは難しいが、ある程度の範囲内であれば推定は容易、という観察に基づいてロス関数を設計。
    • FG-NET, MORPH Album Ⅱ, CLAP2016, AADBデータセットにおいてMAE、CSを評価指標として使用し多くのテストプロトコルにおいてSoTA。
    • 照明環境に依存し、顔が赤い光で照らされているなどの特殊な照明環境では推定誤差が大きい。

    コメント・リンク集

    • 年齢推定だけでなく、同様の性質を持つタスクならば適用可能。
    • 論文
    [#459]
    Anatomical Priors in Convolutional Networks for Unsupervised Biomedical Segmentation
    Adrian V. Dalca, John Guttag, Mert R. Sabuncu
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    MRIのスキャンデータに対するセグメンテーションを、MRIのソース画像とセグメント画像のペアを使用せずに行う手法を提案。はじめにセグメント画像のみを用いてVAEを学習。 次に教師無しでセグメンテーションを行うためにdecoderの重みを固定してソース画像に対するセグメンテーションの推定を行う。

    新規性・結果・なぜ通ったか?

    • 医療用画像に対する教師無しのセグメンテーション手法を初めて提案。
    • T1w scanデータセットのうち、5000枚のセグメンテーション画像を使用してauto-encoderをプリトレーニング。残りの9000枚のスキャンデータを用いて教師無し学習。
    • T1wデータセットよりも解像度が低く、スライス間隔も広いT2-FLAIR scanデータセットでもテストを実行。ただしアノテーションが存在しないのでセグメンテーションの見た目で良し悪しを判断。
    • 評価尺度はGTとの領域の重なりを評価するDice。Dice、セグメンテーションの結果の見た目として良好な結果が得られていると主張。

    コメント・リンク集

    • Diceを使って定量的に評価しているため、境界線の引き方などの細かい部分のセグメンテーション結果を詳細に評価していないが、実用上は問題無いのだろうか?
    • 論文
    • Supplementary material
    • GitHub
    [#460]
    GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose
    Author
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    単視点動画に映っている物体を静的物体と動的物体に分離することで教師なしでデプス、オプティカルフロー、カメラ向きを推定する手法を提案。フレームワークは二段階で構成されており、 まずはじめにデプスとカメラ向きをそれぞれ独立に推定することで道路や街路樹などの静的物体のモーション情報を得る。 続いて静的物体との差分情報を使用することで歩行者などの動的物体のモーション情報を得る。教師無しの推定を行うため、 参照フレームから推定されたモーション情報の逆変換をターゲットフレームに適用し参照フレームを推定することで consistency lossをとることで精度が向上。

    新規性・結果・なぜ通ったか?

    • consistency lossによってオクルージョンに対する精度の向上も確認。
    • 同じネットワークを持つ既存研究に対して、ロス関数の優位性を確認

    コメント・リンク集

    [#461]
    CSGNet: Neural Shape Parser for Constructive Solid Geometry
    Gopal Sharma et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    Shape Parsing の研究. 2次元画像, 3次元ボクセルから同じ形状を生成するプログラムを推定する. 学習のための2次元や3次元のLogoやCADモデルなどを含む synthetic dataset を作成・公開した. また, 教師データが無い場合でも強化学習を用いた学習が可能.