Interpret Neural Networks by Identifying Critical Data Routing Paths
A. Uthors, B. Uthors and C. Uthors

概要

  • 新たな視点で学習済みネットワークを解釈(Interpret) する手法の提案.ネットワークの予測プロセスのcritical data routing paths(CDRPs)をidentify及び統計分析することをベースとする.
  • 学習済みネットワークのテスト画像ごとのCDRPsを得られるためのDGR(Distillation Guided Routing)を提案した.Layersの出力チャネルにscalar control gateを付け, gateによりそのチャネルがcritical nodeかどうかを決める.また,知識蒸留手法からcritical nodeをcontrol gatesの値を最適化する.学習済みのcontrol gatesにより全部のlayersのcritical nodeでDGRを得られる.
  • 大量な画像からDGRを生成し,クラスタリングによりクラスの分類もできる.著者達がadversarial examplesと元のクラスの高層のDGR clusteringの分布が異なることを発見し, adversarial examplesを検出できる手法を提案した.

InterpretNN-IdentifyCDRP

新規性・結果・なぜ通ったか?

  • 従来のネットワークinterpretに関する研究が各々のフィルタなどを対象とすることが多い.この文章で新たなネットワークinterpretの視点を提案した.
  • 提案のDGRをクラスでクラスタリングし,それを用いて新たな画像に対し認識を行う場合,元のネットワークより良い精度を得られることを発見した.また,DGRをクラスでクラスタリングによりadversarial examplesをリアルデータを区別できる

コメント・リンク集

  • 各々のフィルタの活性化マップによりフィルタが学習できているセマンティックコンセプトに関する研究が多い.この文章で識別する際のcriticalルートからinterpretを行う視点が新しい.今後同じような視点でのinterpretに関する研究が多くなるように思う.

  • 論文

[#1]
2018.7.20 15:49:44
Learning Semantic Concepts and Order for Image and Sentence Matching
Yan Huang, Qi Wu, Liang Wang
CVPR 2018
Yue Qiu

概要

  • 画像キャプション生成に用いられるSemantic-enhanced画像―テキストマッチングモデルを提案した.従来の手法より画像からセマンティックコンセプト・コンセプトの順序の学習により良い性能を図る.
  • 画像キャプション生成において,画像からいかに有用な情報を抽出することはまだ改善の余地がある.従来のキャプション手法では画像からグローバル特徴を抽出するフレームワークを用いる手法が多い.しかし,画像からリージョンベースなセマンティック情報の抽出が良い性能を得る上に重要だと著者達が指摘した.
  • 提案の手法のプロセスは:①multi-region, multi-label CNNを利用した画像からセマンティックコンセプト(オブジェクト・属性・行動)を抽出する②リージョンベース情報・グローバル情報からcontext gated sentence生成スキームを利用しsemanticのorderを求める③LSTMによりsentenceを生成する.

LearningSemanticConceptsOrder-ImageSentenceMatching

新規性・結果・なぜ通ったか?

  • 従来のlanguage-visionタスクに画像認識の側グローバル情報が広く用いられている.著者達がregionベースなsemantic concepts, concepts orderを画像抽出情報としてvisionを表す.
  • Flickr30k,MSCOCOデータセットにおいて,SoTAなimage annotation and retrieval精度を得られた.

コメント・リンク集

  • 自然言語の面の理解が画像の理解より未だに深いような気がして,Language-and-visionの分解でいかに画像から有用な情報を抽出することが重要と感じている.セマンティックコンセプトだけだはなくて,画像側のもっと深い理解がこの分野に需要されているように思う.

  • 論文

[#2]
2018.7.20 15:44:37
Where and Why Are They Looking? Jointly Inferring Human Attention and Intentions in Complex Tasks
Ping Wei, Yang Liu, Tianmin Shu, Nanning Zheng, Song-Chun Zhu
CVPR 2018
Yue Qiu

概要

  • RGB-Dビデオからタスク(人が何をしようとしているのか),attention(人がどこを見ているのか),intention(どうしてそこを見るのか)を推定する新たなタスク,データセット及び手法の提案.
  • 従来のビデオから行動推定タスクに,更にintention推定を提案した.著者達がintentionをlocate,direct,guide,checkの4種類に分け,一つのintentionをhumanpose-humanAttention-objectsから構成される.Intentionの予測はビデオフレームごとに一つのintention categoryを与える.
  • 新規な提案タスクに対応する新たなグラフHAOを提案した.HAOがタスク・intention・objectsをunifiedな階層的なフレームワークにより表示できる.タスクがintentions序列から構成される.Beam searchアルゴリズムを用いて,グラフHAOからattention,intention,taskをジョイントで予測できる.

WhatAndWhyAreTheyLooking-AttentionIntention

新規性・結果・なぜ通ったか?

  • 従来のビデオから行動認識と比べて,新たに人の意図の定義し,ビデオから意図の推定も提案した.
  • 新規なRGB-DデータセットTIF(14tasks, 70intention, 28objects, 809videos)を提案した.
  • 定性的結果により,提案手法はintention推定に対し良い精度を得られる.また,attention,task推定においてそれぞれTIFデータセットでSoTAな精度を得られた.

コメント・リンク集

  • 行動をグラフ構造によりで更に細かく分解することによって,ほかのタスクに用いることがもっとflexibleになる.

  • 論文

[#3]
2018.7.20 15:39:21
Non-blind Deblurring: Handling Kernel Uncertainty with CNNs
S. Vasu et al.,
CVPR 2018
Kensho Hara

概要

ブラーのカーネルが既知の状態でモーションブラーを除去するNon-blind Deblurring (NBD) における新手法を提案. 従来のブラー除去手法では,得られているブラーカーネルがノイジーな場合, 画像のPriorに対する重みを低くするとアーティファクトが多く出るし, 逆に高くすると細かい情報が欠損してしまうという性質がある. しかしこれらは相補的に情報を持っていて,これらを組み合わせることできれいに画像を復元できるというのがアイディア. 提案手法では,まず従来手法で重みを変化させていくつもの復元画像を生成し, これらの複数画像をCNNに入力して組み合わせることで最終的な復元画像を生成する. これにより従来よりも良い復元画像を得ることに成功した.

新規性・結果・なぜ通ったか?

  • ブラーカーネルがノイジーな場合でも高品質なモーションブラーの除去を実現
  • ノイジーなカーネルを人工的に生成することで大量の学習データを得ることに成功

コメント・リンク集

  • 論文
  • 最近の流れ的にEnd-to-Endでやっちゃおうとしていないのは少し意外
  • 理論的にカッチリわかってるところはボトムアップにしないとかはあって良いとは思うけども
[#4]
2018.7.20 14:52:30
Distributable Consistent Multi-Object Matching
N. Hu et al.,
CVPR 2018
Kensho Hara

概要

多物体のマッチングを行うための新たなフレームワークを提案. このようなマッチングにおいては循環制約というものが重要になるが, それを満たす対応を求めると物体数に対してscalableなアルゴリズムとするのが難しい. 提案手法のポイントは物体の集合全体で制約を満たすようにするんじゃなくて, 重なりのある部分集合に分けてそれぞれで制約を満たすように扱うというもの. 部分集合に対して制約が満たされているときにグローバルにも制約が満たされる条件を定義して, それに沿うように部分集合を選ぶようにしている? SOTAに匹敵する精度でありながら高速なマッチングを実現.

新規性・結果・なぜ通ったか?

  • 循環制約を満たす多物体のマッチングにおける新しいアプローチを提案
  • SOTAレベルのマッチング精度でありながら非常に高速な動作を実現

コメント・リンク集

  • 論文
  • 図は,一番下が提案手法で,黄色が正しい,青色が間違ったマッチング
[#5]
2018.7.20 13:37:54
Focal Visual-Text Attention for Visual Question Answering
Junwei Liang, Lu Jiang, Liangliang Cao, Alexander Hauptmann
CVPR 2018
Yue Qiu

概要

  • Visual-Text sequencesデータから質問に対して回答するVQAの手法FVTAを提案した.
  • 携帯の写真集のような,大量な画像―付加情報(GPS,title,caption,time)の情報から質問文に対して応答するタスクに対し,我々人間がまず質問文を答えるためのhintがある画像をlocateして回答する仕組みである.そこで,著者達が質問文に応じで,動的にどの画像・時間帯を注目すべきかを決める階層的な手法FVTAを提案した. FVTAはまず質問文に基づき相関情報が含めたvisual-text sequencesをlocateし,そしてこういったsequences,questionの抽出情報により答える.
  • FVTAのプロセスは:①pre-trained CNNモデルにより画像情報抽出,pre-trained word2Vecによりwordsをembedding②Bi-directional LSTMによりwords・質問文の序列情報をエンコーディング③質問文とコンテキスト(画像・テキスト)のhidden statesを用いてFVTA tensorを計算④FVTA attentionにより質問文とコンテキストをそれぞれsingle vectorsに変換し,最終的な答えを生成する.答えはマルチクラス分類問題として解く.

FVTA-VQA

新規性・結果・なぜ通ったか?

  • MemexQA,MovieQAの2つデータセットにおいて,SoTAなパフォーマンスを得られた.
  • FVTAが質問文に対して答えるだけではなく,visual-text-question attention kernelにより,答えの根拠となる画像―テキストもpointできる.

コメント・リンク集

  • 従来の画像・質問文から回答するVQAより実用性が高い.

  • 論文

  • コード

[#6]
2018.7.19 20:40:41
Texture Mapping for 3D Reconstruction with RGB-D Sensor
Yanping Fu, Qingan Yan, Long Yang, Jie Liao, Chunxia Xiao
CVPR 2018
Yue Qiu

概要

  • RGB-Dセンサーから収集した画像でリコンストラクションした非剛体の3Dモデルのテクスチャーマッピング手法を提案した.提案手法の入力がRGB-Dビデオ序列,出力はhigh qualityテクスチャー付きのリコンストラクションした3Dモデル.
  • 幾何errors,デプスセンサーの精度などの原因でRGB-Dセンサーにより得られる3Dモデルのテクスチャーの精度が良くないことがある.この問題を解決するために,著者達がglobal-to-localな最適化手法を提案した(①global最適化でテクスチャーの姿勢を修正,②local最適化でtexture boundariesをリファイン).
  • 提案手法の流れは:①preprocessing:RGB-Dセンサーにより得られたDフレームからmeshモデルを作成し,RGBフレームからtexture candidates抽出する.②従来手法より,meshのブロックに対し,最適なtextureを選択する.③Global optimization:ブロック間のカラー・幾何一致性に基づきtextureの姿勢を最適化.④Local optimization:隣接するブロック間のテクスチャー連結部のseamless性によりテクスチャーのboundariesを最適化.

TextureMapping-3DReconstruction

新規性・結果・なぜ通ったか?

  • Kinect V1センサーによりtoy,book,hat,keyboardなどの物体で検証した結果,従来の2種類の手法より良い定性的テクスチャーマッピング結果を得られた.また,処理時間が1桁速い.
  • 従来のテクスチャーマッピングのblurring artifacts,面のバウンドリーのseam inconsistencyを改善できた.

コメント・リンク集

  • 提案手法は複雑なPre-processingが必要で,ほかの分野の人が使いにくい気がする.

  • RGB-Dセンサーの3Dモデルのテクスチャーマッピングを高精度でできるEnd-to-Endな手法が期待している.

  • 論文

[#7]
2018.7.19 20:35:29
Interpretable Convolutional Neural Networks
Quanshi Zhang, Yingnian Wu, Song-Chun Zhu
CVPR 2018
Yue Qiu

概要

  • 伝統的なCNNに変更を加え,Interpretable性を高める手法の提案.提案したInterpretable CNNの高層Conv層のfiltersがセマンティックコンセプトとのIoUがより大きい.
  • 学習済みモデルの高層convのfilterがどのようなセマンティック情報を学習されていることを可視化・統計分析によりネットワークに対しある程度のInterpretable性を評価できる.提案手法の目的は高層convのfiltersをできるだけ同じセマンティックコンセプトにしか活性化されないように学習させる.
  • 具体的には,従来のConv-layerのfiltersの出力feature mapに新たなロスを導入した.提案ロスはinter categoryのentropyを抑え,一つのフィルタが2つ以上のcategoryに活性化されないように学習ができる.また,neural activationsの空間分散のentropyも抑え,一つのフィルタが1つのcategoryに活性化されることように学習させる.

interpretable-cnn

新規性・結果・なぜ通ったか?

  • Pascal VOC part datasetを用いた実験によりInterpretable CNNが従来のCNNと比べ,クラス分類問題において認識精度がほぼ落ちずに高層conv層のfilterのInterpretable性が高い(Alexnet,VGGなどに対して実験).
  • 提案の手法をあらゆるネットワークに適応しやすい.追加する監督信号を用いずに,普通のCNNのInterpretable性を高められる.

コメント・リンク集

  • Interpretable CNNをVision-and-Languageに応用してみたい

  • Interpretable CNN構造が高層convのfilterに対して同じセマンティックコンセプトにしか活性化されないように学習するので,このレベルでは“Net2Vec”と逆になっている.

  • 論文

  • コード

[#8]
2018.7.19 20:29:10
End-to-end Recovery of Human Shape and Pose
Angjoo Kanazawa, Michael J. Black, David W. Jacobs, Jitendra Malik
CVPR 2018
890
OKIMOTO Yusuke

概要

人物を含む画像から人物の3Dメッシュをend-to-endで推定するframeworkの提案.画像中の人物のキーポイントがアノテーションされたデータと,人物の3Dモデルのパラメータのデータを用い,推定した3Dモデルを画像に投影した際におけるキーポイントの誤差と,3Dモデルが画像から推定したものか,人物の3Dモデルのデータセットから持ってきたものかを識別するDiscriminatorのAdversarial lossの2つを損失関数として学習を行う.Adversaial Lossは,推定した3Dモデルが人物の3Dモデルと自然かどうかの弱教師として働く.

overview_image

新規性・結果・なぜ通ったか?

  • 人物のメッシュ推定における一般的な評価データセットは存在しないため,他手法との比較は主に人体の関節推定とpart segmentationで行う.この2つのタスクにおいては既存手法とcompetitiveな性能.
  • 人物の3Dモデルの自然さについての情報を与える,推定した3Dモデルか既存の3Dモデルか識別するdiscriminatorの導入.これにより,直接の教師データが大規模には存在していない,画像からの人物の3Dモデルというタスクに置いて,2Dの人物のキーポイントのデータと,人物の3Dモデルのデータという,それぞれ独立なデータセットを用い,end-to-end推定を行うネットワークを学習させることを可能にした

コメント・リンク集

  • 上手にDiscriminatorを設計することで,互いにはunpairな複数の大規模データセットを用いるというアイデイアは,他のタスクでも有用だと思われる.
  • メッシュ推定というタスクという意味でNeural 3D Renderer(H. Kato et al, CVPR2018)とも関係
  1. 論文
  2. code
  3. Neural 3D Mesh Renderer紹介ページ
[#9]
2018.7.19 17:37:21
Intrinsic Image Transformation via Scale Space Decomposition
L. Cheng et al.,
CVPR 2018
Kensho Hara

概要

Intrinsic Image Decompositionにおける新しい手法を提案. ラプラシアンピラミッドを導入したネットワーク構造により, マルチスケールに分解した処理を実現している. 評価実験により,SOTAよりも高い性能を達成したことを確認.

新規性・結果・なぜ通ったか?

  • ラプラシアンピラミッドを導入したネットワーク構造を提案
  • SOTAよりも高い性能を達成

コメント・リンク集

  • 論文
  • 具体的な実装が全然書いてなくて詳細が理解できない気がするんだけどこれでいいの?
  • Intrinsic Image Decompositionにおいてラプラシアンピラミッドの導入が重要という話があるように見えなくて,なぜこれがいいのかよくわからない
[#10]
2018.7.19 15:09:08
Learning Pixel-level Semantic Affinity with Image-level Supervision for Weakly Supervised Semantic Segmentation
Jiwoon Ahn et al.
CVPR 2018
Yoshihiro Fukuhara

概要

画像レベルのラベルから Semantic Segmentation の学習で使用する画素レベルのラベルを生成する研究. 隣接する領域の意味的な親和性を推定する, AffinityNet を提案. 入力画像の CAM のアクティベーションの情報を AffinityNet で推定された意味的親和性に基づいて伝搬することで, 完全なマスクを生成する. 提案手法によって作成されたラベルによって学習した Semantic Segmentation 手法は PASCAL VOC 2012 において弱教師の手法の中でSOTAを達成した.

fukuhara-Learning_Pixel-level_Semantic_Affinity_with_Image-level_Supervision_for_Weakly_Supervised_Semantic_Segmentation.png

新規性・結果・なぜ通ったか?

  • 画像クラスのラベルから Semantic Segmentation の学習で用いる画素レベルのラベルを生成する手法を提案
  • 隣接する領域の画素レベルでの意味的親和性を推定する AffinityNet を提案
  • CAMのアクティベーションの情報(弱教師)を AffinityNet によって推定された画素間の意味的親和性に基づいて伝搬し, 完全なマスクを生成する.
  • AffinityNet の学習にはCAMの中で信頼度の高い領域を使用
  • 提案手法によって生成した教師データによって学習した, ResNet38 は PASCAL VOC 2012 でSOTAを達成し, FCN(fully supervised)をも上回る結果を達成
[#11]
2018.7.9 0:32:55
Towards High Performance Video Object Detection
Xizhou Zhu, Jifeng Dai, Lu Yuan, Yichen Wei
CVPR 2018
2494
Kazuki Inoue

概要

既存手法のSparse Feature Propagation、 Dense Feature Aggregationをアップデートした動画に対する物体検出手法を提案。提案手法は以下の3つの要素からなる。1) recursively aggregate feature for key frames:隣合うキーフレームごとに特徴量を抽出する。隣合うキーフレームではフレーム内に大きな変化は少ないため効率的に特徴量を抽出することができる。2)partially update feature for non-key frames:キーフレーム出ないフレームに対して、キーフレームと異なる部分のみに対して特徴量を抽出する。3)temporally-adaptive key frame scheduling:ここまでの処理ではキーフレームに主に学習してしまっているため、過学習を防ぐためにトレーニング動画全体で特徴量抽出器を調整する。なおここでのキーフレームは10フレームごとのフレームを指す。

Item3Image

新規性・結果・なぜ通ったか?

  • ImageNet VIDに対して77.8% mAP score と 15.22FPSとなり、SoTAを獲得。
  • ablation studyにより、手法のハイパーパラメタに寄らず既存手法より良い結果となっていることを示している。
  • 学習にはResNet101を使用している。

コメント・リンク集

  • キーフレームを取得する間隔が精度、FPSにどの程度影響するのかが気になった。
  • 論文
[#12]
2018.7.17 01:10:37
Action Sets: Weakly Supervised Action Segmentation without Ordering Constraints
Alexander Richard, Hilde Kuehne, Juergen Gall
CVPR 2018
1284
Kazuki Inoue

概要

動画のaction labelingとactionごとのtemporal segmentationをactionラベルと確率モデルによる弱教師学習で行う手法を提案。既存研究では弱教師とはいえほとんどの手法ではactionの順序は与えられていたが、提案手法ではactionラベルのみを用いる。手法は大きく3つに分けられ、context modelによる起こりうるactionの順序の推定、length modelによるactionのtemporal segmentation、multi-task learningによる各actionラベルの推定からなる。context modelの構築方法として以下の3つを検証。1)Naive Grammer、2)Monte-Carlo Grammer:行動が様々な順番で並び替えられた動画を学習3):Text-Based Grammer:ネット上の本やレシピなどのテキストを利用して順番を学習する。length modelでは以下の2つを検証。1) Naive Approah:全ての行動クラスが一様に同じ時間的長さをもつ、2)Loss-based:行動クラスごとに時間的長さが異なるため、行動クラスごとの平均値を求める。

Item3Image

新規性・結果・なぜ通ったか?

  • Breakfast dataset(48クラス)、MPII Cooking 2(67クラス)、Hollywood Extended(16クラス)で実験
  • context model, length modelのそれぞれの方法の有効性を確認。context modelではmonte-carloとtext-basedの精度が高く、length modelではloss basedの方が精度が高い。
  • Breakfasta datasetでは23.3%、MPII Cooking 2では10.6%、Hollywood Extendedでは9.3%となり、行動の順序を教師として持つ手法と比べて10%程度精度が落ちなかった。

コメント・リンク集

  • 使用しているデータベースがBreakfastの精度が高いのは、朝食で行う行動の順序はある程度決まっているから?
  • 完全教師ありの手法ではBreakfast datasetで55%の精度。
  • 論文
  • GitHub
[#13]
2018.7.17 01:02:30
Knowledge Aided Consistency for Weakly Supervised Phrase Grounding
Kan Chen, Jiyang, Gao Ram Nevatia
CVPR 2018
589
Kazuki Inoue

概要

phrase groundingを弱教師学習で行う際に、検出された領域と入力された名詞句から推定されるオブジェクトとのvisual consistencyを使用するKnowledge Aided Consistency Network (KAC Net)を提案。phrase groundingとは入力名詞句に相当するオブジェクトを画像中から検出するタスクである。既存手法では検出されたオブジェクトから名詞を推定し直すlanguage consistencyを用いていたが、提案手法ではlanguage consistencyとvisual consistencyの両方を用いる。具体的には、いくつかのカテゴリにおける画像識別をプリトレインしておくことで、オブジェクトの検出精度を高めることができ、かつ言語と画像の対応精度も高くなる。

Item3Image

新規性・結果・なぜ通ったか?

  • 画像識別のプリトレーニングを用いてphrase groundingを弱教師学習で行う手法を提案。
  • 2つのgroundingデータセットFlickr30K EntitiesとReferit Gameで評価。それぞれで38.71%(9.78%の向上)、、15.83%(5.13%の向上)の精度が向上しSoTAを達成。
  • 特に人に対する精度が高い。一方で、名詞句(e.g. A man is taking a photo of another man and his two dogs on some grassy hills)を入力するよりも名詞単体(e.g. a man)を入力した方が精度が落ちた。

コメント・リンク集

  • MS COCO(90カテゴリ)とPASCAL VOC2007(20カテゴリ)で画像識別をプリトレーニング。MS COCOでプリトレーニングした方が若干精度が高い。
  • 識別ではなく検出をプリトレーニングすると制度は上がる?
  • 論文
  • Supplementary material
[#14]
2018.7.17 00:53:26
Learning Facial Action Units from Web Images with Scalable Weakly Supervised Clustering
Kaili Zhao, Wen-Sheng Chu, Aleix M. Martinez
CVPR 2018
237
Kazuki Inoue

概要

弱弱教師によるスペクトルクラスタリングによってembedding空間を再形成し、アノテーションを貼り直すことで顔のaction unitの手法を提案。提案手法ではネット上の画像とそのアノテーションを使用することで、画像の見た目とアノテーションのどちらも考慮した手法を提案。教師ありの手法ではどちらか一つの要素しか考慮できず、弱教師だとノイズや外れ値の影響を受けてしまうが、提案手法ではどちらも要素も考慮する。

Item3Image

新規性・結果・なぜ通ったか?

  • F1 score, S scoreで結果を比較、AlexNet、DRML、GFK、LapSVM、TSVMを用いて検証
  • そのままのアノテーションを使用するよりも高い精度を達成した。
  • 教師あり学習と同程度の精度を達成。

コメント・リンク集

[#15]
2018.7.17 00:17:13
Mesoscopic Facial Geometry Inference Using Deep Neural Networks
Loc Huynh, Weikai Chen, Shunsuke Saito, Jun Xing, Koki Nagano, Andrew Jones, Paul Debevec1 Hao Li
CVPR 2018
2496
Kazuki Inoue

概要

深層学習によってLight Stageから得られる1Kの顔のUVテクスチャを入力として4Kのディスプレイスメントマップを推定する手法を提案。事前実験により、テクスチャから全てのディスプレイスメントを推定するのではなく、中周波数帯、高周波数帯のディスプレイスメントをそれぞれ推定した方が精度が高いことを確認しているため、周波数帯ごとに二つのブランチで推定を行う。提案手法ではimage-to-image networkによって1Kのテクスチャを1Kのディスプレイスメントに変換し、super-resolution networkによって高周波数帯のディスプレイスメントを高開画像度化し、中周波数帯に対してはバイキュービック方で高解像度する。最終的には顔の3D meshにディスプレイスメントマップを統合することでリアルな3Dジオメトリモデルを得る。

Item3Image

新規性・結果・なぜ通ったか?

  • 中周波数帯のみ、1Kの中・高周波数帯、4Kの中・高周波数帯(提案手法)のディスプレイスメントマップを用いた結果を比較。
  • 既存手法と比較した結果、提案手法の方がGTに近い復元ができており、定量的にも提案手法の方がよりGTに近い。
  • 主観評価を行い、提案手法、GT、既存手法のどれが最もリアルかという質問に対して、20.7%、67.2%、12.1%という結果となった。
  • in-the-wildな顔画像に対してもある程度うまく復元できることを主張。

コメント・リンク集

  • 手法的に新しいことはないものの、pore-levelと書いてある通り、推定されたディスプレイスメントでは肌の細孔も表現されておりかなり綺麗な結果となっている。とはいえ、主観評価ではGTが圧倒的な評価を集めているため、人間の顔に対する知覚の鋭さに驚いた。
  • テスト時にはディスプレイスメントの生成に1秒、4K化に5秒程度かかる
  • 論文
  • Supplementary material
[#16]
2018.7.17 00:10:47
Revisiting Dilated Convolution: A Simple Approach for Weakly- and Semi- Supervised Semantic Segmentation
Yunchao Wei, Huaxin Xiao, Honghui Shi, Zequn Jie, Jiashi Feng, Thomas S. Huang
CVPR 2018
812
Kazuki Inoue

概要

複数のカーネルサイズのdilation conv層をclassification networkに付け足すことで、image-levelのオブジェクトラベルから、オブジェクトごとの密なlocalization mapを生成し、これを元にセマンティックセグメンテーションを行う手法を提案。image-levelのラベルのみが与えられていても、複数サイズのdilated convolutionを組み合わせることで様々なスケールでオブジェクトを探索することが可能。最終的なlocalization mapはとdilated conv層の平均と通常のconv層の推定結果を足し合わせた物を使用する。このlocalization mapとonline mannerのそれぞれから得られたセグメンテーションとを教師とすることでセグメンテーションネットワークを訓練する。localization mapの汎用性を示すために、weakly/semi-supervisedの両方を行っている。

Item3Image

新規性・結果・なぜ通ったか?

  • Pascal VOC 2012(20ラベル)におけるセマンティックセグメンテーションのmIoUにおいてweakly/semi-supervisedが60.8%(既存手法+2.1%)/67.6%(既存手法+1.4%)となりSoTAを達成。
  • semi-supervisedの設定において、使用するpixel-levelの教師画像が500枚と1400枚ではmIoUが0.9%ほどしか変わらなかったため、localization mapの効果を示している。

コメント・リンク集

  • dilated convolutionの強力な探索能力を示した論文。シンプルがゆえにCNNの汎用性の高さが伺える。
  • onlineによるセグメンテーションはどのように得られている?
  • 論文
[#17]
2018.7.16 23:48:11
Weakly-Supervised Semantic Segmentation Network with Deep Seeded Region Growing
Zilong Huang, Xinggang Wang, Jiasi Wang, Wenyu Liu, Jingdong Wang
CVPR 2018
2541
Kazuki Inoue

概要

画像に対するimage-levelのラベルのみを用いてセマンティックセグメンテーションを行う際に、ラベルを貼る領域をイテレイティブに増やす手法を提案。既存手法ではシードの初期値から一気にラベルを貼っていくが、提案手法では自信が高い領域にのみラベルを貼り、これを繰り返すことでセマンティックセグメンテーションを行う。ラベル(背景含む)の初期値としてclassificationから得られるヒートマップを用いてconfidenceが高いピクセルを使用する。DNNを用いてラベルごとのヒートマップを作成し、一つ前のイテレーションで推定したラベル領域と照らし合わせることでラベルの更新を行う。ロス関数は各ピクセルが各クラスに所属する確率と、物体境界の推定誤差からなる。

Item3Image

新規性・結果・なぜ通ったか?

  • PASCAL VOC 2012, COCOで検証しそれぞれでmIOUが61.4%(既存手法+2.8%)、 26.0%(既存手法+3.6%)となり、弱教師学習においてSoTA。
  • セグメンテーションを行う際の閾値の変化による結果への影響や、ablation studyを行なっている。VGG16とResNet101で実験。

コメント・リンク集

li ablation studyより、tableやsofaなどは提案手法によって結果が悪化しているのはなぜだろうか?

[#18]
2018.7.16 23:44:00
Self-Supervised Adversarial Hashing Networks for Cross-Modal Retrieval
Chao Li, Cheng Deng, Ning Li, Wei Liu, Xinbo Gao, Dacheng Tao
CVPR 2018
124
Kazuki Inoue

概要

画像とテキストのそれぞれから得られるハッシュを用いたクロスモダリティな検索において、中間的な情報である画像のラベルを自己教師として噛ませる手法を提案。DNNによって画像、ラベル、テキストのそれぞれから得られる特徴量をV、L、Tとすると、Lから得られるハッシュを自己教師とすることでVとTのそれぞれから得られるハッシュを同一のものにする。また特徴量分布を近づけるためにVとL、TとLそれぞれについてadversarial learningを行う。ハッシュ化するネットワークのロス関数としてハッシュ値の類似度、ラベルに対するclassificationのロスをとる。

Item3Image

新規性・結果・なぜ通ったか?

  • MIRFLICKR-25K、NUS-WIDE、MSCOCOを使用し、MAP、PR曲線、P@nの3つの指標で評価。既存手法としてshallow/deep structureと比較し、フェアな比較を行うために入力特徴量は全ての手法で統一。
  • ハッシュ値のビット数に関わらず、画像→テキスト、テキスト→画像の両方におけるMAP、PR曲線、Precision@top1000。
  • /adversarial learningを用いたクロスモーダル検索手法であるACMRに対しても優位に精度が高い。ただしACMRはハッシュを使用していないことに注意。

コメント・リンク集

  • ハッシュを自己教師とすることで、2つのモダリティをうまくつなげる方法。adversarial learningを使用しておりトレンドが反映されている。
  • 論文
[#19]
2018.7.16 23:40:21
The Perception-Distortion Tradeoff
Yochai Blau and Tomer Michaeli
CVPR 2018
2765
Kazuki Inoue

概要

画像復元手法に対する評価尺度であるdistortion quality(DQ、MSEなど)、peceptual quality(PQ、主観評価、KL-divergenceなど)は反比例関係(どちらの尺度も値が低いほうが良い結果であると設定)にあることを様々な実験により示した論文。DQは復元された画像とオリジナルの画像との類似度を表し、PQはオリジナルの画像とは関係なく復元された画像がいかに自然かを表す。

Item3Image

新規性・結果・なぜ通ったか?

  • DQとPQが反比例関係にあることは定性的には述べられてきたが、本論文ではこの関係を証明するために定量的な実験を行った。
  • 自然画像が二項分布などの単純な離散分布から生成されるとし、これに対してガウス分布から生成されるノイズをかけ、ノイズ画像に対してMSEが最小となるような分布を推定すると、自然画像の分布とは大きく異なる。つまりKL-divergenceは大きく異なるため、MSEとKL-divergenceが反比例にあることを示した。
  • WGANをL2ロスとWasserstein distanceを様々な比率の重みで学習させた際に、生成画像に対する両者のあたいは反比例関係にあった。
  • 16種類の超解像手法に対してPQとして超解像の評価に特化したMa et al.を、DQとして6種類の尺度を使用した結果は、やはり反比例関係となった。
  • 画像の復元手法は必ずdistortionとperceptionの両方で比較すべきである、と結論づけている。

コメント・リンク集

  • peceputual qualityとして実際の人間の評価を使用した例を見たかった。この場合も本当に反比例になるのだろうか?
  • 画像の見た目を再現できたところで、ドメインシフトが解消された訳ではなく、むしろ大きくなっていくというのは非常に興味深い。
  • 論文
  • Supplementary material
[#20]
2018.7.16 23:37:29
Probabilistic Joint Face-Skull Modelling for Facial Reconstruction
Dennis Madsen, Marcel Luthi, Andreas Schneider, Thomas Vetter
CVPR 2018
3236
Kazuki Inoue

概要

骨格のtissue-depth vector(ランドマークにおける皮膚と骨格のデプス)を用いてMCMCによって顔と骨格の統計的形状モデルの同時分布を推定する手法を提案。顔の統計的形状はPCAによって次元削減したものを使用し、求めるべき同時分布をベイズの定理によって骨格の統計的形状に対する事前分布と顔の事後分布に分ける。骨格の事前分布を30の骨格のCTスキャンを使用することで作成。tissu-depth vectorを用いてGTの骨格と推定された顔形状の交差、対応点の一致度を用いて顔に対する事後分布を推定する。

Item3Image

新規性・結果・なぜ通ったか?

  • MRI画像、3Dスキャンデータ、写真に対するverificationを行うことで精度を検証し、上位30%程度の精度だった。
  • 顔に対するPCAの次元数に対する考察を行い、50次元程度に圧縮した場合に最も精度が高くなった。

コメント・リンク集

[#21]
2018.7.16 23:34:25
A Prior-Less Method for Multi-Face Tracking in Unconstrained Videos
Chung-Ching Lin and Ying Hung
CVPR 2018
3502
Kazuki Inoue

概要

動画内の人数を指定することなく、動画内でメインで登場する人物のIDを保ったmulti-faceトラッキングを行う手法を提案。提案手法は三段階に別れている。まずショット内で顔、頭、胴体、全身の重心、幅、高さを算出しグラフ構造を用いることでショット内、間でIDを保ったトラッキングを行う。次に同一フレーム内のトラッキング軌道を繋げるためにVGG-face descriptorと既に存在する軌道の接続性を見て繋げる。最後にGaussian processによってVGGの特徴量を18次元まで削減した特徴量を使用することで、メインで登場していない人物に対する外れ値認定やトラッキングのリファインメントを行う。検証には人物の見た目の激しい動画やカメラモーションが激しい動画を使用する。

Item3Image

新規性・結果・なぜ通ったか?

  • 顔の見た目の変化や、任意のカメラ向き、ショット変化、早いカメラモーションなどが含まれているミュージックビデオ8本、激しいオクルージョンや多くの暗い画面や正面顔が含まれていないシーンが多く含む4本のBody-worn camera videoで検証。
  • WCPによってIDのクラスタリング結果を、CLEAR MOTによってトラッキングをそれぞれの評価指標とし、それぞれの既存手法と比較を行った。WCP、CLEAR MOT共にミュージックビデオでは7/8、Body-worn videoでは4/4においてSoTA。

コメント・リンク集

  • スリラーでマイケルジャクソンをトラッキングし続けることはできる・・?
  • 論文
[#22]
2018.7.16 23:30:48
Generate To Adapt: Aligning Domains using Generative Adversarial Networks
Swami Sankaranarayanan, Yogesh Balaji, Carlos D. Castillo, Rama Chellappa
CVPR 2018
2082
Kazuki Inoue

概要

Unsupervised domain adaptationにおいて、ソースドメイン(SD)とターゲットドメイン(TD)の識別に加えてAuxiliary Classifier GAN(AC-GAN)による画像生成を用いた手法を提案。F networkでドメインに普遍な特徴量を取得した後、GANによってドメインに固有な表現を獲得。Generatorによって生成された画像に対して、Discriminatorではドメインの識別とSDに対してはクラスの識別も行っている。

Item3Image

新規性・結果・なぜ通ったか?

  • ドメインシフトの困難さに応じて3つの設定でclassificationを行うことで検証。DIGITS(10クラス、3ドメイン)、OFFICE(31クラス、3ドメイン)、合成画像から実画像(CAD syntheticsデータセット、PASCAL VOCデータセットを使用、20クラス)
  • DIGITSデータセットでは3/4、OFFICEデータセットでは7/7の設定で、SoTA。合成画像と実画像の設定においてもSoTA。
  • ablation studyにより、GANによる生成、AC-GANによる識別のそれぞれが有効であることを確認。

コメント・リンク集

  • Supplementaryを見るとターゲットドメインで生成された画像はまだまだという印象。他の教師なしで画像を生成する手法やGANの知識と組み合わせることで、より高い精度を実現できる?少量データセット、教師無しで生成ができたらインパクトは大きい!
  • 論文
  • Supplementary material
  • GitHub
[#23]
2018.7.16 23:26:45
Efficient parametrization of multi-domain deep neural networks
Sylvestre-Alvise Rebuffi, Hakan Bilen, Andrea Vedaldi
CVPR 2018
3009
Kazuki Inoue

概要

マルチドメインな学習を行うために、少量のドメインに固有なDNNのパラメタを学習する手法を提案。既存手法のresidual adaptorと呼ばれるドメインに固有なパラメタを学習する機構を改良しており、提案手法ではドメインごとに学習すべきパラメタが普遍特徴量に対するバイアス項となっている。既存研究のモデルでは不変特徴量に対する係数となっているので、提案手法の方がより学習が容易になっている。

Item3Image

新規性・結果・なぜ通ったか?

  • 10の異なるデータセットからなるVisual Decathlonを用いて検証。ImageNetでプリトレーニングしたResNetに対し得てVisual Decathlonデータセットを学習する。
  • top-1 classification、decathlon scoreと呼ばれるマルチドメインに対する評価尺度においてSoTA。
  • 学習し直す際にかかる時間がファインチューニングの5分の1となった。
  • 他のデータセットに対する転移学習において、ターゲットとなるデータセットのデータ量が少ない場合にも既存手法と同等かつファインチューニングよりも良い精度を達成。
  • residual adaptorの位置、有効なregularizationについても検証。

コメント・リンク集

  • 具体的にパラメタ数はどれくらい減る?
  • 論文
  • GitHub
[#24]
2018.7.16 23:03:34
Dynamic-structured Semantic Propagation Network
Xiaodan Liang et al.
CVPR2018
1803.06067
TakumuIkeya

概要

  • セマンティックセグメンテーションの新たな手法としてDynamic-Structured Semantic Propagetion Network(DSSPN)を提案した.
  • DSSPNは意味的概念階層をネットワークと結合することでsemantic neuron graphを構築する
  • それぞれのneuronは食品などのスーパークラスまたはピザのような特定の種類の物体を認識するためのインスタンス化されたモジュールを表現している.

dynamic_graph.PNG

新規性・結果・なぜ通ったか?

  • 4つの公開されているセマンティックセグメンテーションデータセット(ADE20K、COCO-Stuff、Cityscape,Mapillary)を用いて評価実験を行い、最先端のセグメンテーションモデルと比較してDSSPNの優位性を実証した.
  • 意味的階層を持つネットワークモジュールを明示的に構築している点で新しい.

コメント・リンク集

[#25]
2018.7.17 22:19:17
Adversarial Data Programming: Using GANs to Relax the Bottleneck of Curated Labeled Data
Arghya Pal, Vineeth N. Balasubramanian
CVPR 2018

概要

弱いラベルを付与する関数から、出来る限り厳選したラベルを教師として与えるAdversarial Data Programming(ADP)を提案してデータを生成しながら識別器を学習する。マルチタスク学習と同様に、ドメイン変換についても効果的に行えるGANの学習とした。生成Gに相当するタスクではデータラベルの分布を生成して、識別Dに相当する部分では相対的精度の向上、ラベリングの依存性を考慮しながらラベルづけの正当性を確認する。

180717AdversarialDataProgramming

新規性・結果・なぜ通ったか?

従来のDPは最尤推定により条件付きモデルP(y|x)を推定する問題であったが、本論文で提案するADPは同時確率モデルP(x,y)を推定する問題(データとラベルのペアを評価すること)に相当し、GANにより最適化する。MNIST, Fashion MNIST, CIFAR10, SVHN datasetにて実験を行い、多くの比較手法を抑えてstate-of-the-artなモデルであることを確認。マルチタスク学習やドメイン変換にも有効である。

コメント・リンク集

データラベルを作り出すGANである。少量にラベルづけすればどんな場面でも高精度に識別可能である、ということを示したい。

[#26]
2018.7.17 09:55:11
Improving Landmark Localization With Semi-Supervised Learning
Sina Honari, Pavlo Molchanov, Stephen Tyree, Pascal Vincent, Christopher Pal, Jan Kautz
CVPR 2018

概要

部分的にのみアノテーションが手に入る比較的少量のデータにおいて、顔ランドマーク検出問題にてSemi-Supervised Learningの手法を提案。ラベルなしのデータに対してキーポイントを推定して、誤差逆伝播ができるように構築。さらに、教師なし学習の枠組みでもキーポイント推定ができるようにした。右図は顔キーポイント検出の枠組みであり、上から順に(S)ラベルありのデータにて学習、(M)顔キーポイントからの属性(Attribute)推定、マルチタスク学習により間接的にキーポイント検出を強化、(N)正解画像に対して画像変換を施してデータ拡張。

180716LandmarkLocalizationSSL

新規性・結果・なぜ通ったか?

半教師あり学習(Semi-Supervised Learning)の枠組みで顔キーポイント検出を実行することを可能にした。特に、AFLW datasetで5%のみのラベルありデータで従来法を超えてState-of-the-artを実現した。

コメント・リンク集

間接ラベルが効くというのは、キーポイント検出にかなり依存している顔表情や頭部位置推定が働いているから?それでも半教師あり学習によりState-of-the-artを実現したことはかなりすごい!間接ラベル、いろいろ使えると思うのでアイディアを出したい。

[#27]
2018.7.16 20:31:44
Recurrent Residual Module for Fast Inference in Videos
Bowen Pan, Wuwei Lin, Xiaolin Fang, Chaoqin Huang, Bolei Zhou, Cewu Lu
CVPR 2018

概要

高速に動画処理をできるようにするRecurrent Residual Module(RRM)を提案。計算時間を大幅に削減するために、連続するフレーム間で畳み込みによる特徴マップを共有。AlexNetやResNet等と比較すると約2倍は高速であり、ベースラインであるDenseModelと比較すると8--12倍は高速であった。それだけでなく、XNORNetsなどの圧縮モデルにしても9倍高速であることが判明。この枠組みを用いて姿勢推定や動画物体検出のタスクに適用。右図は提案であるRRMの構造を示している。DenseConvolutionは最初のフレームのみであり、後続のフレームは差分の把握とSparseConvolutionによりforwardを実行。

180716RecurrentResidualModule

新規性・結果・なぜ通ったか?

一番の新規性は動画の連続フレーム間でパラメータを共有して高速かを図るRecurrent Residual Module(RRM)である。同枠組みを姿勢推定や動画物体検出に使用して高精度な推論を実現した。動画物体検出ではYOLOv2+RRMにて61.1@Youtube-BB、姿勢推定ではrt-Pose+RRMにて46.2@MPII-Poseを達成し、ベースラインから精度をほぼ落とさずに高速な処理を実行。

コメント・リンク集

汎用的に高速化が狙える枠組みの提案は重要。構造に依存しないフレームワークという点がよい!

[#28]
2018.7.16 19:45:55
Global Versus Localized Generative Adversarial Nets
Guo-Jun Qi, Liheng Zhang, Hao Hu, Marzieh Edraki, Jingdong Wang, Xian-Sheng Hua
CVPR 2018

概要

実環境データの多様体を学習するための敵対的学習(GAN)を実現するLocalized GAN(LGAN)を提案。従来の多様体を表現するGANと比較して、LGANはいかに多様体間を変換するかの学習が効率よく行えている。同学習はMode Collapseを避けるためにも有効であることが確認され、さらにはロバストな識別器にもなることが実験により明らかとなった。図は任意の3次元空間に埋め込まれた多様体空間であり、Normal Vector(法線ベクトル)とTangent Vectors(タンジェントベクトル)が示されている。このTangent Vectorが多様体空間M内にて点xの位置の局所的変換を可能にする。

180716GlobalLocalizedGAN

新規性・結果・なぜ通ったか?

LGANの利点は主にふたつ、(1)多様体において、グローバルな点を参照することなくローカルな参照にて所望の結果を得ることができる。多様体であるが、局所的な探索で良い。(2)Local Tangentにて正規直交基底による事前情報を入れることができ、局所的なCollapseをケアできるという意味で有用である。GANのMode Collapse問題にも有効。また、提案する多様体空間構築は、画像識別においても有効であることが示された。

リンク集

[#29]
2018.7.16 19:24:02
Net2Vec: Quantifying and Explaining how Concepts are Encoded by Filters in Deep Neural Networks
Ruth Fong, Andrea Vedaldi
CVPR 2018
Yue Qiu

概要

  • 学習済みネットワークの中間層が学習したセマンティックコンセプトを可視化及び統計分析を行う.更にNetwork Dissectionと比較して,一つ一つのフィルタではなく,フィルタの線形コンバインが表せるセマンティックコンセプトを考察した.
  • CVPR2017論文Network Dissectionが学習済みモデルの各々の中間層フィルタが学習したセマンティックコンセプトについて可視化・統計考察を行った.その結果,各々のフィルタが習得したコンセプトが少ないことから,フィルタの線形コンバインがより豊かなセマンティックコンセプトを表していることを推定し,更にそれを用いてNetwork Dissectionより良い可視化・分析を行う.手法としては,セマンティックコンセプトをfilter responsesのvectorial embeddingにマッピングするネットワークNet2Vecを提案した.セマンティックセグメンテーションタスクによりNet2Vecを学習.

Net2Vec

新規性・結果・なぜ通ったか?

  • 提案手法によりmulti-filterの線形結合がNetwork Dissectionに提出したsingle filterより遥かにセマンティックコンセプトを表示できる(IoU).
  • いくつか面白い発見があった.①ほとんどの場合,single filterではなくコンセプトがmulti-filtersにより線形表示できる.② filterが一つのコンセプトだけではなく,いくつかのコンセプトを同時に表せることが多い.(いくつかのコンセプトの線形成分の一つに入る)③single filterよりmulti-filterの線形表示によりmeaningfulなコンセプトを表示でき,また異なるconcept間の関係も表示できる

コメント・リンク集

  • Network dissectionと比べ変動がかなり少ない(研究対象を学習済みモデルのfilter->multi filterの線形表示),行った実験もほとんど類似している.

  • 提案手法とNetwork dissectionを利用して,学習状態の確認分析が行いやすくなる.

  • 論文

  • コード

[#30]
2018.7.18 20:27:44
Reconstruction Network for Video Captioning
Bairui Wang, Lin Ma, Wei Zhang, Wei Liu
CVPR 2018
Yue Qiu

概要

  • Encoder-decoder-reconstructor構造のビデオキャプションネットワークRecNetを提案した.ビデオからのキャプション生成とキャプションからビデオrepresentationをreconstruction両方利用した.
  • 従来のビデオキャプション手法はencoder-decoderによりforwardでビデオからキャプションを生成.生成キャプションのセマンティック情報が利用されなかった.しかし,翻訳などの分野でdual情報がすでに利用されている.そのため,forwardのビデオカラのキャプション生成のencoder-decoder及びbackwardキャプションからのビデオrepresentation復元の-reconstructor構造を用いた手法を提案した.Encoderと類似したvideo representationを復元するのが-reconstructorの目標で,encoder-reconstructorのreconstruction lossesを用いてend-to-endで実現できる.
  • また,local, globalなvideo representationを生成できる2種類のreconstructor構造を提案した

ReconstructionNetwork-VideoCaptioning

新規性・結果・なぜ通ったか?

  • 新たなencoder-decoder-reconstructor構造のビデオキャプション手法の提案.Reconstructor-video encoder間のreconstruction lossを利用し,ネットワークをend-to-end可能にした.また,backwardキャプションからのビデオ特徴reconstructすることにより,更にinformativeなビデオ特徴抽出を可能にした.
  • MSR VTT, MSVDの2種類のデータセットで従来のencoder-decoder video captioning手法より良い性能を得られた.

コメント・リンク集

  • Dual-taskを利用して,精度向上を図る手法が多そう

  • 論文

[#31]
2018.7.18 20:21:11
Cascade R-CNN: Delving into High Quality Object Detection
Zhaowei Cai, Nuno Vasconcelos
CVPR 2018
Yue Qiu

概要

  • 高精度で物体検出を行えるMulti-stageな物体検出フレームワークCascade R-CNNを提案した.
  • 従来2-stage検出手法のIoUが学習段階均一に設定されている.著者達が実験によりIoUの閾値とbounding box regressorのIoUが近い場合最も良い精度を得られることを発見し,高精度検出器を得られるためにsingle IoUの設定が最優ではないと指摘した.これにより,学習段階でIoUが変化させることをベースとした手法を提案した.具体的に,R-CNNをmulti-stageに拡張し,学習段階でstageごとに序列的に学習を行い,一つのstageの出力で次のstageを訓練.

CascadeR-CNN

新規性・結果・なぜ通ったか?

  • 従来の固定IoU設定方法の2つの問題点:①閾値が大きい場合,学習段階でoverfittingしやすい②閾値が小さい場合,ノイズバウンディングボクスが出やすいを改善できる.
  • Cascade R-CNN構造が一般的な検出ネットワークに適応しやすい.また,COCO,VOCデータセットなどでの比較によりCascade R-CNNがよりあらゆる評価指標において良い精度を達成した.

コメント・リンク集

  • 構造的にほかのネットワークに適応しやすい.簡単な変化で驚くべき精度向上

  • 論文

  • コード

[#32]
2018.7.18 20:15:36
Revisiting Oxford and Paris: Large-Scale Image Retrieval Benchmarking
Filip Radenovic, Ahmet Iscen, Giorgos Tolias, Yannis Avrithis, Ondrej Chum
CVPR 2018
Yue Qiu

概要

  • 画像検索用benchmarks:Oxford 5k, Paris 6kに対し,修正・サイズ拡大・評価方法を加え,新たなbenchmarks: Roxford, Rparis, R1M を提案した.
  • 従来の画像検索用benchmarksが①アノテーションエラーが含め②データセットサイズが小さい③現在の方法がOxford 5k, Paris 6kに対し完璧な結果を得られるので,quantitative evaluationができないの3つの問題点を指摘した.それぞれに対し①gtの信頼度付きの新たなアノテーションを追加し②Oxford 100k distractor setなどのdistractor setを追加し,データセットのサイズ・難易度を大きくした③更に3種類の新たなevaluation protocolsを提案し(Easy,Medium,Hard),異なる手法にたい公平的な比較を可能にした.

LargeScale-ImageRetrievalBenchmarking

新規性・結果・なぜ通ったか?

  • 画像検索用benchmarksに対し徹底的な問題分析・再アノテーション・評価指標の増加などを行った.
  • 新たなbenchmarksに対し従来のfeature based, CNN basedな画像検索手法の評価を行った.評価結果により,CNN + feature basedな手法が最も良い精度を達成した.また,新たなbenchmarksに対し現在の画像検索方法はまた精度向上の余地があると指摘した.

コメント・リンク集

  • 大規模画像検索用データセットをほかのタスクにも用いられそう.

  • 論文

  • コード

[#33]
2018.7.18 20:09:31
MapNet: An Allocentric Spatial Memory for Mapping Environments
Joao Henriques, Andrea Vedaldi
CVPR 2018
Yue Qiu

概要

  • SLAM, mapping, agent navigationなどに用いられる新たなallocentricな(egocentricではない・観測視点に頼らない)3DスペースのDNN representation及びonlineで行うmapping-localizationネットワークの提案.
  • 提案手法がシーンmapを2.5Dに表示し,地面に対し垂直の軸の情報をdense 2D ground表示の特徴ベクトルにエンコーディングする.このような表示により,より効率よく地面に垂直する方向に分布しやすいあらゆる室内・室外シーンを表示できる.
  • 提案手法が2.5D spatial memoryをベースとしていて,移動カメラで撮影された画像に対し情報抽出を行い,更にground に射影し,動的にspatial memoryを更新する.
  • 提案手法のコアがallocentric spatial memory. RGB-D画像から抽出した特徴tensorをallocentric spatial memoryに入力し,memoryが更新され,outputとしてlocalizationが得られる.localization/registrationがこのメモリースペースのdual convolution/deconvolution pairにformulateされる.

MapNet

新規性・結果・なぜ通ったか?

  • Onlineで行える高精度mapping&localization. Egomotionと独立したallocentricマップ表示の提案.
  • 従来の複雑なmappingアルゴリズムより簡潔なrepresentationで良い精度・ロバスト性を得られた.また,リアル・CGの2種類のデータセットでbenchmark手法より良い精度を達成.

コメント・リンク集

  • 3Dシーンをgroundに射影し, 3Dシーンを2.5Dに表示する手法がある程度優位と感じた.

  • 論文

  • プロジェクト

[#34]
2018.7.17 14:43:31
Learning a Discriminative Prior for Blind Image Deblurring
Lerenhan Li, Jinshan Pan, Wei-Sheng Lai, Changxin Gao, Nong Sang, Ming-Hsuan Yang
CVPR 2018
Yue Qiu

概要

  • Blind Image Deblurringに用いられるdata-drivenなdiscriminative priorを提案した.また,提案したdiscriminative priorを用いた有効的なImage Deblurringアルゴリズムを提案した.
  • 提案手法がBlind Image Deblurring問題のImage priorをblur画像・clear画像の2クラス分類のCNNによりformulateする.FCの代わりに,Global Average Poolingを用いることで,異なるサイズの画像を対応できるようにする.また,multi-scale学習策を用いて,入力画像サイズに対しロバスト性を向上する. Learned image priorをcoarse-to-fineなMAPフレームワークにembedし, half-quadratic splitting algorithmによりblur kernel推定を行う.

DiscriminativePriorFor-BlindImageDeblurring

新規性・結果・なぜ通ったか?

  • 提案のCNNベースなdiscriminative priorがいくつか異なったタイプの画像に用いられる:自然画像,テキスト画像,顔画像及びローイルミネーション画像.また,提案手法がnon-uniform deblurringにも対応できる.
  • 従来のdeblurring手法の①エッジ検出精度に頼る②自然画像に良い性能を得られるが,ほかのspecificな場合が対応できずなどの問題点を有効的に対応できる.
  • 定量及び定性的実験により提案手法がSoTAなアルゴリズム(domain-specificな手法を含め)より良い性能を達成した.

コメント・リンク集

  • かなり良い精度でblurを除去できる.推定したblur kernalにより動画像生成するのができそう.

  • 論文

[#35]
2018.7.17 14:37:56
Language-Based Image Editing with Recurrent attentive Models
Yelong Shen, Jianbo Chen, Jianfeng Gao, JingJing Liu, Xiaodong Liu
CVPR 2018
Yue Qiu

概要

  • 新たなタスク:言語ベースな画像編集(Input descriptionによりInput画像を編集)を提案した.また,2種類のサブタスク:①画像セグメンテーション②画像colorizationを取り扱える通用的フレームワークを提案した.
  • 提案ネットワークのコアなところは:recurrent attentiveモデルにより画像と言語特徴をfuseし,fixed stepではなく画像リージョンごとにダイナミックで編集を続くかどうかを決めるtermination gateを用いる.また,2種類のサブタスクに対し同じフレームワークを用いられる.

IBIE

新規性・結果・なぜ通ったか?

  • 新規な問題設定LBIE(言語ベースな画像編集)及び新規なCGデータセットCoSaL(人工言語付き形状着色)の提案.
  • 3つのデータセットで提案手法の有効性を示した. CoSaLにより提案end-to-endのネットワークの有効性を示し,ReferItデータセットでSoTAな言語ベースな画像セグメンテーションの精度を達成し、Oxford 102 Flowersデータセットにおいて初めての言語ベースなcolorizationを実現した.

コメント・リンク集

  • Language-and-Visionには様々な応用分野がある.基本的なLanguage-and-Visionモデルを熟練したら,ほかの分野への応用もしやすいと感じた.

  • 論文

  • ポスター

[#36]
2018.7.17 14:31:13
PIXOR: Real-time 3D Object Detection from Point Clouds
Bin Yang, Wenjie Luo, Raquel Urtasun
CVPR 2018
Yue Qiu

概要

  • 自動運転に用いられるLIDARセンサーの点群に対して,リアルタイムで行える3D検出する手法PIXORの提案.
  • 新たな3Dデータのコンパクト2D representationを提案した.提案手法はBEV(Bird’s Eye View)視点の点群を用いてBEVでの高さを1つのchannelとして取り扱う.自動運転に対しての検出タスクでは主に地面上の物体を対象とするため,2D BEV representationが計算コストを節約できるほか,物体間のoverlapがほぼなし.
  • また, 2D BEV 表示からpixel wiseで検出するネットワーク構造PIXORを提案した.

PIXOR

新規性・結果・なぜ通ったか?

  • KITTIデータセット及びATG4DデータセットでSoTAな精度を達成した.
  • BEV視点で観測された点群を2次元CNNにより対応できる新たな3Dデータのrepresentation及びネットワークを提案.こういった構造を用いて,提案手法は高スピード(10FPS)で3D検出が行える.

コメント・リンク集

  • BEV視点の3次元表示が自動運転に使いやすいと感じた.

  • 論文

[#37]
2018.7.17 14:24:04
Indoor RGB-D Compass from a Single Line and Plane
Pyojin Kim, Brian Coltin, H. Jin Kim,
CVPR 2018
Yue Qiu

概要

  • Manhattan World(MW)の1つの直線及び平面からRGB-Dカメラの3自由度3DoFを推定する手法の提案.
  • 従来のカメラ3DoF推定手法は少ない平面しか観測されてないシーンに対して,推定がうまくできない場合が多い.このような問題点を対応するため,1つの平面(depth mapから推定)及び1つの線(RGBから推定)しか観測されていない場合でも3DoFを推定できる手法を提案した.
  • 具体的プロセス:①RGB,Depth画像から直線・平面を検出;②theoretical minimal samplingの線・平面により初期カメラ3DoFを推定;③直線グループのendpointsとMW axesまでの平均orthogonal距離を最小化することで,カメラ3DoFを精密化する.

RGBDCompass-SingleLinePlane

新規性・結果・なぜ通ったか?

  • 従来の3DoF推定手法はスパースな観測(少ない平面しか観測されない)などの場合でうまく行えない.提案手法は一つの平面及びRGBから観測できる直線だけで3DoF推定を行える.また,camera driftに対してロバストである.
  • ICLNUIM,TUM RGB-Dデータセットで提案手法はSoTAな精度を達成し,また従来手法よりロバストで安定した検出ができる.

コメント・リンク集

  • DNNを用いないカメラ姿勢推定の手法を紹介した.伝統的手法及びDNNを用いた手法のロバスト性の比較に関する実験が期待している.

  • 論文

[#38]
2018.7.17 14:19:17
A PID Controller Approach for Stochastic Optimization of Deep Networks
An Wangpeng , Haoqian Wang, Qingyun Sun, Jun Xu, QIonghai Dai, Lei Zhang
CVPR 2018
Yue Qiu

概要

  • SGD,SGD Momentumの代わりにautomatic control分野に広く用いられているPID optimizer(proportional integral derivative)をDNN optimizationに用いるアプローチの提案.
  • DNNの最適化過程(gradientsによりウェイトを調整)とPID (エラーによりデバイスの状態を調整)が本質的に共通していることを示した.また, SGD,SGD MomentumとPIDの共通点と異なる点を示した:①SGDが現在のgradientだけによりウェイトを更新し,P controllerと類似する.②SGD Momentumが現在と過去のgradientによりウェイトを更新し,PI controllerと類似.③PID controllerが過去,現在及び変化情報によりデバイスを更新するので,従来のSGD momentumのovershooting問題を大幅に抑制できる.

PID_Controller

新規性・結果・なぜ通ったか?

  • SGD momentumがovershootingのため,正しく収束できない場合がある.PIDを用いたら, overshootingを大幅に抑制できる.
  • MINIST,CIFAR,Tiny ImageNetなどのデータセットで検証した結果,PID optimizerがSGD momentumより低いエラー率を達成しながら,最適化スピードが30%~50%速い.

コメント・リンク集

  • ほかの分野で長年成功していた方法をうまくDNNに用いることがかっこいい!

  • 論文

  • コード

[#39]
2018.7.17 14:09:09
Optimal Structured Light à La Carte
P. Lei et al.,
CVPR 2018
Kensho Hara

概要

Structured Light方式の3次元計測で用いるプロジェクタの投影パターンの最適化を行う手法を提案. 従来は経験的なもので決められていることが多かったが, それに対して提案手法は目的関数を定義することで最適な投影パターンを求めることを可能にしている. 投影パターン数をK,エピポーラ線上の画素数をNとして, K×Nの行列であるCode Matrix Cを求める定式化をしている. Cを使ったときのステレオマッチングの誤差が目的関数.

新規性・結果・なぜ通ったか?

  • プロジェクタの投影パターンを最適化するための手法を提案
  • 計算的に投影パターンをその場で決定することを可能にした

コメント・リンク集

  • 論文
  • 馴染みのない分野なので具体的な中身はそこまでわかっていないです...
  • 目的関数の中に,画素qに対する真のステレオ対応の点が入っているけど,それが既知な情報になっているのがよくわからない
[#40]
2018.7.18 13:14:05
Dual Attention Matching Network for Context-Aware Feature Sequence based Person Re-Identification
Jianlou Si, Honggang Zhang, Chun-Guang Li, Jason Kuen, Xiangfei Kong, Alex C. Kot, Gang Wang
CVPR 2018
Takahiro Itazuri

概要

Person Re-Identification(ReID)をするためのEnd-to-Endなネットワーク(Dual ATtention Matching network: DuATM)を提案した論文。DuATMのコアとなる要素はdual attention mechanismであり、映像内と映像間のattentionを特徴量の補正とペアリングに用いる。また実験では、いくつかのベンチマークでSoTAを達成した。

DuATM

手法・新規性

DuATMは大きく2つの構成要素からなる。1つは動画内から特徴量を抽出する要素であり、もう1つはそれらの特徴量のマッチングを行う要素である。後者にdual attention mechanismが導入されており、1つはコンテキストに応じて映像内の特徴量を補正するものでありもう1つは映像間の割り当てを行うものである。DuATMの損失関数はtriplet lossに加えて、de-correlatoin lossとcross-entropy lossを用いており、これに対してsiamese networkを学習する。

コメント・リンク集

[#41]
2018.7.17 17:52:08
Tracking Multiple Objects Outside the Line of Sight Using Speckle Imaging
Brandon M. Smith, Matthew O'Toole, Mohit Gupta
CVPR 2018
Takahiro Itazuri

概要

スペックル・イメージングを利用して見えていない(non-line-of-sight: NLOS)複数の物体を追跡する手法を提案した論文。安価なコストで角付近に存在する複数の物体を10マイクロメートル程度の精度で追跡可能にした。拡散反射する壁を通して間接的にしかセンシングできない環境において、スペックル・イメージングの方法と動きのモデルを提案した。

手法・新規性

スペックルとはコヒーレント光が荒い表面で反射した際に発生する高周波なノイズのような画像である。提案手法では、このスペックルの動きと実際の物体の動きの関係をモデル化することで、拡散反射する壁から得られる情報から物体追跡を行う。実際には参照画像とそこから物体が移動したことで得られた画像の相関を取り、ピークを得ることで、物体の移動量を得る。

コメント・リンク集

[#42]
2018.7.17 17:12:19
Interactive Image Segmentation with Latent Diversity
Zhuwen Li, Qifeng Chen, Vladlen Koltun

概要

より少ないインタラクションで高精度なInteractive Image Segmentationを行う論文。インタラクションが少ない場合に発生する曖昧さ(multimodality)の問題に取り組んだ。また従来の手法と同様のインターフェースと互換性のあるシステムとなるような設計を行った。実験では、従来手法より少ないクリック回数で良い精度のセグメンテーションを得ることができるようになった。

新規性・結果・なぜ通ったか?

ネットワーク構造はユーザの入力を考慮した複数の異なるセグメンテーション結果を出力するネットワークとそれらから1つのセグメンテーション結果を選択するネットワークで構成される。複数のセグメンテーション結果をランク付けし、それに伴った重み付けを行った損失関数を用いる。

コメント・リンク集

[#43]
2018.7.16 17:34:28
RayNet: Learning Volumetric 3D Reconstruction With Ray Potentials
Despoina Paschalidou, Osman Ulusoy, Carolin Schmitt, Luc Van Gool, Andreas Geiger
CVPR 2108
Takahiro Itazuri

概要

異なる視点から撮影された映像から、CNNとMRFを用いて物理的制約を考慮可能な密な3次元復元を行った論文。CNNはタスクに対してネットワーク全体をデータから学習可能であるが、物理的制約を考慮することができない。一方でRay-Potentialを用いたMRFはモデルに陽な物理的制約を与えることができる一方で、大きな表面を上手く扱うことができない。本論文ではこの2つの手法の良いところをそれぞれ活かした手法であるRayNetを提案した。

RayNet

手法・新規性

構造としては、Multi-View CNNとMarkov Random Fieldから構成されている。Multi-View CNNは入力として複数の画像とそれに対応するカメラの姿勢を受け取り、視点による影響が小さい特徴量を抽出し、Rayごとにデプスの分布を出力する。Morkov Random Fieldは各視点からにおける遮蔽を考慮して、CNNから出力されたデプスの分布のノイズを除去する。

コメント・リンク集

[#44]
2018.7.16 18:14:40
Learning to Parse Wireframes in Images of Man-Made Environments
P. Lei et al.,
CVPR 2018
Kensho Hara

概要

環境の3次元構造を推定するのは局所特徴ベースがよく使われるけどテクスチャの少ない人工物の多い環境ではうまくいかない. そのような環境において有効な表現としてWireframe(図参照)という表現とその検出手法を提案. 人手で5000枚以上の画像に直線のアノテーションをさせたデータセットを用意してCNNベースの手法を学習することで, End-to-EndにWireframeを検出することを実現. 提案手法は直線検出と交差点検出をそれぞれ行ってから結合するという構造のCNN.

新規性・結果・なぜ通ったか?

  • Wireframeの検出という新しい問題設定を提案してデータセットも用意
  • Wireframe(直線と交差点)をEnd-to-Endで検出するためのCNN構造を提案

コメント・リンク集

[#45]
2018.7.17 10:41:34
Generative Adversarial Learning Towards Fast Weakly Supervised Detection
Yunhan Shen, Rongrong Ji, Shengchuan Zhang, Wangmeng Zuo and Yan Wang
CVPR2018
706

概要

オンラインの弱教師あり物体検出(WSD)に敵対的生成学習を用いて高速な検出を行う.Generator(G)は画像からb-boxを生成し,surrogator(F)はannotation情報からb-box分布を推定する.GおよびFからの検出結果はdiscriminator(D)に入力される.Dはb-boxおよび分布が真(Fからの出力)であるか偽(Gからの出力)であるか区別する.各モジュールを学習して,推論時は学習されたGのみを用いる.

20180716_GALfWSD1.jpg20180716_GALfWSD2.jpg

新規性・結果・なぜ通ったか?

作者らの知る限りでは,弱教師あり学習でYOLOやSSDのような1ステージ物体検出を用いる最初の手法である.VOCを用いて実験を行い,ほとんどのクラスでSOTAと同等またはそれ以上の性能を達成し,平均では47.5mAP,66.1CorLocを達成した.検出速度は入力画像サイズが300のとき8.48ms,512のとき19.93msとかなり高速(1080Ti, i7-6900K).

コメント・リンク集

学習時のみFを用いて推論時はGを用いることで高速化しているのは面白い.コードはすぐに公開されるとのこと.

[#46]
2018.7.16 15:01:34
Triplet-Center Loss for Multi-View 3D Object Retrieval
Xinwei He, Yang Zhou, Zhichao Zhou, Song Bai and Xiang Bai
CVPR2018

概要

多視点画像から3次元物体検索手法を提案。クラスの重心に近づくように最適化するcenter lossと、同一クラス同士の距離を小さくし他クラスとの距離を大きくするtriplet lossを組み合わせたcenter-triplet lossを導入した。 triplet-center lossにより、正解クラスの重心との距離を最小化しつつ、他クラスの重心との距離は最大化する。 triplet,centerそれぞれ単独よりtriplet-center+softmaxが一番いい。 他の手法よりも3d shape、sketchどちらにおいても精度がいい。

Item3Image

新規性・結果・なぜ通ったか?

triplet loss、center loss単独で最適化するよりcenter-triplet loss及びsoftmax lossを組み合わせたものがAUC及びmAPが最も良くなることを確認した。従来手法と比べ、generic 3D shape retrieval及びsketch-based 3D shape retrievalの2種類いずれのタスクにおいて、F1、mAP、NDCGの三つの指標が最も良いという結果が得られた。

コメント・リンク集

Future workとして書かれているが、手法自体は他のタスクにも試せそう。3D Object Retrievalに特化して構築された手法でないにも関わらず他のタスクが紹介されていないのは他のタスクがうまくいっていないということだろうか?

[#47]
2018.7.15 02:33:13
Thoracic Disease Identification and Localization with Limited Supervision
Zhe Li, Chong Wang, Mei Han, Yuan Xue, Wei Wei and Li Fei-Fei
CVPR2018

概要

医療画像から、病名の特定及び異常箇所の特定を行う手法を提案した。ResNetにより抽出した特徴を、パッチに分割し各パッチが異常箇所であるかを予測する。 予測したパッチ情報を用いて、病名の判定を行う。 学習時には、病名のみラベルがついていて異常箇所のラベルが付いていない場合がある。 そこで、病名のみしか存在しない場合は少なくとも1つのパッチが異常箇所であると仮定して学習を行う。

Item3Image

新規性・結果・なぜ通ったか?

病名診断については、14の病名のうち12の病名においてベースラインよりも精度が向上した。異常箇所の特定については、従来手法と比べ8つの病名全てにおいて精度が向上している。

コメント・リンク集

[#48]
2018.7.16 00:59:33
Occlusion-Aware Rolling Shutter Rectification of 3D Scenes
Subeesh Vasu, Mahesh Mohan M. R. and A. N. Rajagopalan
CVPR2018

概要

カメラモーションによって生じるdistortionをなくすための手法を提案。市販のカメラの多くは、撮影時に行ごとに処理を行うためカメラが動いている場合同じ画像であっても各行のカメラの位置は異なるため、distortionが生じてしまう。 そこで画像の各行が異なるカメラ位置として扱い、distortionのない状態への復元を行う。 具体的には、動画の各フレームからdepth mapを推定することで、backgroundの復元を行う。 続いて3次元空間をlayer分けして考え、background以外のlayerに対するマスクを作成することでocclusion領域を埋めていく。

Item3Image

新規性・結果・なぜ通ったか?

従来手法と比べ、ピクセルの推定値を評価するPSNR、カメラモーションの推定値を評価するAPMEどちらも向上した。特にカメラモーションの推定は従来手法と比べて格段に向上している。

コメント・リンク集

[#49]
2018.7.15 04:38:09
Joint Optimization Framework for Learning with Noisy Labels
Daiki Tanaka, Daiki Ikami, Toshihiko Yamasaki and Kiyoharu Aizawa
CVPR2018

概要

学習データのラベルにノイズが含まれている場合の学習方法を提案した。ネットワークのパラメータを求めるのみならず、ラベルそのものも更新していくことでラベルからノイズを取り除くことを可能とする。 ネットワークのパラメータとラベルの一方を固定した更新を繰り返すことにより最適化していく。

Item3Image

新規性・結果・なぜ通ったか?

CIFAR-10 dataset及びClothing1M datasetにより評価を行った。CIFAR-10の結果は、ノイズの割合に関わらず提案手法がベースラインと比べ精度が向上し、ノイズが50%含まれる場合でもTest Accuracy84.7%、Recovery Accuracy88.1%を記録した。 Clothing1M datasetもベースラインよりaccuracyが良く、72.23%を記録した。

コメント・リンク集

[#50]
2018.7.16 02:39:24
Geometry-aware Deep Network for Single-Image Novel View Synthesis
Miaomiao Liu, Xuming He and Mathieu Sapzmann
CVPR2018

概要

1枚画像から視点を変えた画像を生成する方法を提案した。有限の数の平面の存在を仮定し、各平面の組み合わせによって新たな視点の画像を生成する。 入力画像に対してピクセル単位でdepthとnormalを推定し、平面の数と同様のHomography変換を考える。 同時に入力画像からピクセル単位でどの平面を出力画像の生成に用いるか決定することで、出力画像を得る。

Item3Image

新規性・結果・なぜ通ったか?

従来手法が考慮していなかった3次元的な特徴を考慮することで、歪みなどが存在しない画像を出力することに成功した。数値評価においても、ground truthとのL1ノルムがベースラインと比べ小さくなっている。

コメント・リンク集

[#51]
2018.7.14 15:58:18
Compassionately Conservative Balanced Cuts for Image Segmentation
Nathan D. Cahill, Tyler L. Hayes, Renee T. Meinhold and John F. Hamilton
CVPR2018

概要

グラフカットの問題において、edgeの重みが他よりも小さい場合そのedgeで切断してしまいnodeが1つしかないクラスができてしまう。この問題を解決するために、Compassionately Conservative Balanced (CCB) Cut costsを提案した。 クラス間のnode数のバランスを取るための方法として、Compassionately Conservative Ratio CutやCompassionately Conservative Normalized Cutなどが提案されているが、CCBはこれらを一般化したcostとなる。

Item3Image

新規性・結果・なぜ通ったか?

従来手法が考慮していなかった3次元的な特徴を考慮することで、歪みなどが存在しない画像を出力することに成功した。数値評価においても、ground truthとのL1ノルムがベースラインと比べ小さくなっている。

コメント・リンク集

[#52]
2018.7.14 16:44:14
CLEAR: Cumulative LEARning for One-Shot One-Class Image Recognition
Jedrzej Kozerawski and Matthew Turk
CVPR2018

概要

Positiveデータが1枚のみであり、Negativeデータが存在しないOne-Shot One-Class(OSOC)問題を解く方法としてCulmulative LEARning(CLEAR)を提案した。人間が学習する際、同じことを何度も繰り返すこと、似たような技能を既に修得している場合はそうでない場合よりも上達が早いことに着目した。 学習済みの特徴抽出器から得られた画像特徴より、識別の境界を決定するネットワークによって識別器を構築する。 学習の際には、ImageNetから取って来た1枚の画像に対して境界を決定し、その画像が得られた境界によって正しく識別できているかを見ることで学習する。

Item3Image

新規性・結果・なぜ通ったか?

5種類のデータセット(Caltecb-256, Oxford Flowers, Caltech-UCSD Bird-200-2011, MIT Indoor scene recognition and SUN attribute database)で実験した。実験の結果、MAP及びF1の指標がランダム出力、One-ClassSVMと比べ精度が良いことを確認した。

コメント・リンク集

[#53]
2018.7.15 16:53:02
A Hierarchical Generative Model for Eye Image Synthesis and Eye Gaze Estimation
Kang Wang, Rui Zhao, Qiang Ji
CVPR2018
70
Hiroshi Fukui

概要

与えられた視線方向から視線画像を生成してくれるHierarchical Generative Model(HGM)を提案.HGMは2つのネットワークから構築されており,KnowledgeベースのHierarchical Generative Shape Model(HGSM)とData-drivenなconditional Bidirectional Generative Adversarial Network(c-BiGAN)から構成されている. ここで,入力する視線方向は,yaw, pitch, rollである. HGSMは,与えられた視線方向から目の形状のパラメータを推定する. c-BiGANでは,2種類の入力によりDiscriminatorを学習する. Generatorが出力したsynthesized imageとHGSMの出力と,real imageとEncoderで出力した目の形状パラメータであり,これらの入力を用いてDiscriminatorを学習する.

70_overview

新規性・結果・なぜ通ったか?

生成されたCGを用いて学習するアプローチ.SimGANではCGを作った後に学習しているが,この手法では視線方向等のサンプルパラメータのみで学習サンプルの生成&推定が可能である. この論文では,視線推定だけでなく,表情推定にも応用することができる.

コメント・リンク集

[#54]
2018.7.16 01:12:34
HydraNets: Specialized Dynamic Architectures for Efficient Inference
Ravi Teja Mullapudi, William R. Mark, Noam Shazeer, Kayvon Fatahalian
CVPR 2018
Takahiro Itazuri

概要

DNNの高い精度を保持したまま計算コストの削減が可能なHydraNetを提案した。HydraNetには推論時に入力に対して良い精度を出すようにネットワークアーキテクチャの部分集合を選択するsoft gating mechanismが組み込まれている。このような動的な構造を持たせることでaccuracy-per-unit-costを向上させた。実験では、画像分類タスクにおいてResNetやDenseNetと同等の精度をより少ない計算コストで出した。

手法・新規性

HydraNetは複数のbranchで構成され、各branchは特定のsubtask特化するように学習されている。その後、gating mechanismによって動的に適切なbranchを選択し、その選択されたbranchから来る特徴量を統合し、最終的な推論を行う。HydraNetでは、各branchは最後の推論までは行わず、subtaskに対応する特徴量だけを計算するような構造になっていることが計算効率の向上につながっている。

リンク集

[#55]
2018.7.15 20:53:13
Dual Skipping Networks
Changmao Cheng, Yanwei Fu, Yu-Gang Jiang, Wei Liu, Wenlian Lu, Jianfeng Feng, Xiangyang Xue
CVPR 2018
Takahiro Itazuri

概要

右脳と左脳で視覚情報を処理している解像度が異なるという人間の脳の仕組みを模倣したネットワークDual Skipping Networksを提案した。このネットワークは2つのサブネットワークで構成されており、それぞれ同様の構造を持つが、左右でスキップ可能な層のパラメータが異なっており、その結果、左右非対称なネットワークがそれぞれglobalな推論とlocalな推論をするようになっている。画像分類の問題において、既存のデータセットに加えて、小さな文字で他の文字を構成するsb-MNISTデータセットで実験を行い、可視化によってそれぞれがglobalな情報とlocalな情報を保持していることを確認し、また非常に良い精度を出した。

手法・新規性

Dual Skipping Networksのネットワーク構造は、右脳と左脳に対応する2つのサブネットワークとそれらが共有するCNNから構成される。共有されているCNNは脳におけるV1領域に対応しており、2つのサブネットワークはそれぞれ右脳と左脳に対応し、globalな推論とlocalな推論をするようになっている。各サブネットワークはSkip-Dense BlockとTransition Layerを交互に重ねた構造になっており、Skip-Dense Blockにおけるスキップ率の違いが2つのサブネットワークの差になっている。Skip-Dense BlockはDense LayerとGating Networkで構成され、Gating Networkがスキップをするか否かを司っている。またglobalな推論をするネットワークからlocalな推論を行うネットワークへの情報を伝達するGuideにより、coarse-to-fineな推論が可能になった。

リンク集

[#56]
2018.7.15 20:05:24
Zigzag Learning for Weakly Supervised Object Detection
Xiaopeng Zhang, Jiashi Feng, Hongkai Xiong and Qi Tian
CVPR2018
551

概要

物体検出の弱教師あり学習において,overfittingを防ぐためにretrain・relocalizeを繰り返すジグザグ学習を提案.特定の対象物を参照して学習画像の難しさを自動で測定する指標「mean Energy Accumulated Scores(mEAS,下図)」を導入し,これに基づいて検出ネットワークを学習する.また,学習中に特徴マップのマスキングを行い,細部に集中するだけでなく,ランダムにoccludeされたpositive-instanceを導入することでoverfittingを防ぎ,汎化性能を高める.

20180714_ZigZag1.jpg20180714_ZigZag2.jpg

新規性・結果・なぜ通ったか?

対象物体がわかりやすいかわかりにくいかの単純な戦略を用いて検出モデルを学習し,信頼性の高いインスタンスを検出することができる.弱教師あり学習の物体検出手法でSOTAを達成.VOCデータセットを用いた評価により,ほとんどの物体が他の手法よりも良い性能を達成し,総合のmAPは3~6%程度向上した.

コメント・リンク集

背景がmEASにもたらす影響が気になる.

[#57]
2018.7.14 21:10:38
Boundary Flow: A Siamese Network That Predicts Boundary Motion Without Training on Motion
P. Lei et al.,
CVPR 2018
Kensho Hara

概要

物体の境界の推定と隣接フレーム間での境界のモーションの推定を同時に行うBoundary Flow Estimationという問題の提案. これができるとMid-levelの表現として色々なタスクに利用できたりして嬉しい. 提案手法は,tフレームとt+1フレームの2入力を受け取るSiamese Net型の構造で,Encoder-Decoderにより両フレームのBoundaryを推定する. Boundaryのマッチングのために,Excitation Attentionのスコアでマッチングスコアが計算される. Siameseの2つのパスのモデルは同じ構造で重みは共有されているので,Boundaryのアノテーション付いている静止画データがあれば学習可能. Boundary Detection, Boundary Flow Estimation, Dense Optical Flow Estimationの3タスクで良い性能を達成.

新規性・結果・なぜ通ったか?

  • Boundary Flow Estimationという新しい問題設定を提案
  • Fully Convolutional Siamese Networkという構造の提案手法

コメント・リンク集

  • 論文
  • Excitation Attentionがよくわかってないからか,マッチングの話がよくわからず...
  • そこがわかってないからか,なぜBoundaryのマッチングの学習データがなくてもうまくいくのかよくわからず...
[#58]
2018.7.11 15:45:23
Graph-Cut RANSAC
D. Barath and J. Matas
CVPR2018
Ryota Suzuki

概要

RANSACのバリアントに,一番よく見えるモデルが見つかった時に局所最適化でリファインするLO-RANSACがあるが, この局所最適化の部分を2クラス分類の雄であるGraph-Cutに代替した. 従来法における,ただ最小二乗で局所最適化するより局所最適化の評価回数がかなり少なくなる(理論的にはlog(サンプル+検証の数))ようになっており,その結果,CPUでミリ秒単位で動く高速性がある. 実際には,空間的コヒーレンスが効いて理論値より評価回数が更に少ない模様.

ユーザ定義パラメータは少なく,連結とみなす距離r,局所最適化適用しきい値ε_confを決めればよい.これらは学習可能である.

Figure1

新規性・結果・なぜ通ったか?

特徴として,1.インライヤ・アウトライヤが空間的コヒーレント,2.パラメータは直感的かつ学習可能,4.計算効率がよい,3.収束性がよい.

タイムリミットを置いて比較したとき,ノイジーなデータにおいての正解数が他のLO-RANSAC系手法より優れていることを示した.

コメント・リンク集

シンプルで強力な手法に感じたので熟読したが,重複表現が多かったり誤植があったりして読解性が低く感じた.900本強あるCVPR論文の中, 時間を浪費するのでポスターといえど論文としてのクオリティは最低限維持してほしいと 完全読破チャレンジャーとしては思う.

[#59]
2018.7.11 09:14:45
Compressed Video Action Recognition
Chao-Yuan Wu, Manzil Zaheer, Hexiang Hu, R. Manmatha, Alexander J. Smola, Philipp Krahenbuhl
CVPR 2018
Takahiro Itazuri

概要

MPEG-4やH.264のようなコーデックによって圧縮された映像を直接入力として行動認識を行う論文。背景として、映像には時間方向の冗長性が多く含まれており、その事実はコーデックによって大幅に圧縮できることが挙げられる。圧縮された状態に含まれるmotion vectorとresidualを直接入力とするネットワークCoViARによって、高速かつ高精度な行動認識に成功した。

手法・新規性

提案手法の入力として、初期フレームにおいてはRGBの情報を持っており、後続するフレームには初期フレームに対するmotion vectorとresidualを持っている。通常のコーデックでは1つ前のフレームに対するmotion vectorとresidualが格納されているので、初期フレームから注目フレームまで累積することで、初期フレームと累積したmotion vectorとresidualを用いることで現在フレームを復元することできる。実際に推定する際には、初期フレームにおけるRGBから得られた特徴量と、各フレームのmotion vectorとresidualから得られた特徴量を統合して、各フレームの行動認識スコアを出力する。異なる動画間の入力ドメインでの分布を見ると、motion vectorとresidualは領域を共有しており、その結果効率的に学習することができる。

コメント・リンク集

[#60]
2018.7.12 17:00:50
Matryoshka Networks: Predicting 3D Geometry via Nested Shape Layers
Stephan R. Richter, Stefan Roth
CVPR 2018
Takahiro Itazuri

概要

2次元画像から3次元形状を復元する論文。DNNを使って3次元形状を推定する手法は、voxelを直接出力するようになっており、GPUのメモリ容量の制限から高解像度な3次元形状を復元することができなかった。本論文では、メモリ効率を良くするため、特定の方向へ延びるtubeが各ピクセルに対応する二次元表現voxel tubeを出力するshape layerを提案した。またネスト構造を持たせたshape layerを適用することで、自己遮蔽領域への対応したネットワークMatryoshka Networkを提案した。

手法・新規性

shape layerは6軸方向から見た深度画像を出力し、各軸に対応する2つの深度画像に挟まれた領域の共有部分を出力する。この場合、すべての軸から見ても遮蔽されている領域を復元することができないため、マトリョーシカのようなネスト構造を持つshape layerを出力するMatryoshka Networkを提案し、このネットワークは集合の差と和集合を交互に繰り返すネスト構造を持つ。

コメント・リンク集

[#61]
2018.7.12 15:12:46
Depth-Based 3D Hand Pose Estimate From Current Achievements to Future Goals
Shanxin Yuan et al.
CVPR 2018
Takahiro Itazuri

概要

3D Hand Pose Estimationのサーベイ的論文。主に以下の2つの点に主眼を置いている。

  • デプス画像からの3D Hand Pose Estimationの現状を明らかにする
  • 次に挑戦するべきである課題は何かを明らかにする

Hands In the Million Challenge (HIM2017)のトップ10の最新手法に関して、3つのタスク(単一画像からの姿勢推定、3次元トラッキング、物体とインタラクション中の姿勢推定)において調査を行った。

新規性・結果・なぜ通ったか?

DNNによる手法が混濁する中で、業界を整理するサーベイ的論文が評価されている(?)。最終的に、3D Hand Pose Estimationの現状において以下の7点の洞察を得た。

  • 3DCNNを用いた3次元表現は入力のデプス情報の空間的構造を捉えることができ、良い精度を出した。
  • 検出ベースの手法は回帰ベースの手法より良い精度を出した。しかし、回帰ベースの手法は明示的に空間的制約を加えることで良い精度を出すことができる。
  • 遮蔽された関節を推定することはほとんどの手法にとってチャレンジングであるが、明示的な構造の制約や関節間の空間的関係性をモデリングすることで、遮蔽なしとありの差を大きく狭めることができる。
  • 識別的手法はまだ見ぬ手の形に著しく脆弱であり、良い生成能力を持つ機構を組み合わせることで、今後良い方向に進みそう。
  • 70~120度の見え角では、非常に良い精度を出す一方で、極端な見え角ではエラーが大きくなる。
  • トラッキングでは、現在の識別的手法においては検出を姿勢推定の2つサブタスクに分けて問題を解いている。
  • 単一画像からの姿勢推定は100万程度のデータセット上で学習すると良い精度を出すが、物体とのインタラクションには一般化できていない。今後の方針として、より良いセグメンテーション方法をデザインするか、物体とのインタラクションを含む大規模データセットで学習することが挙げられる。

リンク集

[#62]
2018.7.12 08:03:19
Dimensionality's Blessing: Clustering Images by Underlying Distribution
Wen-Yan Lin, Siying Liu, Jian-Huang Lai, Yasuyuki Matsushita
CVPR 2018
Takahiro Itazuri

概要

画像分野では画像理解のために、画像を高次元の特徴ベクトルにして処理を行うことで大きな成功を収めてきた。しかしながら画像のクラスタリングは現在も非常に難しいタスクである。その理由として挙げられることは、クラス内分散がクラス間分散より大きいため、大部分が重複した分布を持っている点である。本論文では、高次元特徴量の場合、ほぼすべてのサンプルがある位置を中心に特定の半径の領域(hyper-shell)に分布することに着目し、新たなクラスタリング手法であるDistribution-Cluteringを提案した。これにより、従来のクラスタリング手法より良いクラスタリングが可能になった。

image

手法・新規性

高次元の球の体積がほとんど外側に集中していることはよく知られている事実であるが、それを掘り起こしてきて、クラスタリングに生かし、CVPRに通すところがすごい。具体的な手法の部分は正直なところ理解できなかったが、数学的にも妥当なクラスタリングができているようである。

コメント・リンク集

[#63]
2018.7.11 14:39:18
CNN based Learning using Reflection and Retinex Models for Intrinsic Image Decomposition
D. Xu et al.,
CVPR 2018
Kensho Hara

概要

Intrinsic Image Decomposition(画像を反射特性 (Reflectance) や影 (Shading) などの要素に分解)において, Deepベースの手法はブラックボックス過ぎるので画像生成 (Image Formation) の原理なども考慮するような手法を2つ提案. 1つ目のIntrinsicNetはEncoder-Decoderのモデルで,DecoderはReflectanceとShadingそれぞれを復元. 単なるReflectanceとShadingのLossに加えて,ReflectanceとShadingから復元した画像のLossも利用するのがポイント. 2つ目のRetiNetは従来手法のRetinex(画像の勾配の大きさからReflectanceとShadingに分解)のアイディアをDeep手法に導入. 勾配の分解をEncoder-Decoderでやった後に元の画像と合わせてReflectanceとShadingを推定する. 新しく提供する大規模データセットでモデルを学習して従来よりも高い性能を達成.

新規性・結果・なぜ通ったか?

  • Intrinsic Image DecompositionのDeepモデル学習のための大規模データセット(2万画像)を提供
  • 従来の物理特性を考慮した手法とブラックボックスなDeep手法の良いとこ取りを実現

コメント・リンク集

[#64]
2018.7.11 15:45:23
Structured Attention Guided Convolutional Neural Fields for Monocular Depth Estimation
D. Xu et al.,
CVPR 2018
Kensho Hara

概要

単眼カメラからのデプス推定のための新しい手法を提案. CNNにCRFを導入して,途中の層から得られるマルチスケール情報の統合を最適化できるようにしたのが提案手法のポイント. マルチスケールの統合のためにはアテンション機構を導入して,それをうまく実現している. 実行速度も速く精度も高いという結果が出ている.

新規性・結果・なぜ通ったか?

  • 単眼デプス推定で高い性能を達成 (NYU Depth V2でSOTA超え,KITTIでSOTA並み)
  • 単眼デプス推定 & CRFによるマルチスケール統合 & アテンション の合わせ技

コメント・リンク集

  • 論文
  • うまいこと流行りの要素を混ぜ合わせました,という感じがしてしまった
[#65]
2018.7.11 14:20:43
Single Image Reflection Separation with Perceptual Losses
Xuaner Zhang, Ren Ng, Qifeng Chen
CVPR 2018
Takahiro Itazuri

概要

本論文では、DNNで単一画像から反射成分と透過成分を分離するタスクを解いている。入力画像Iを反射成分Rと透過成分Tに分離する問題は本来ill-posedな問題であり、従来は様々な前提知識を利用してこの問題を解いていた。近年ではDNNが利用され始めているが、最新の手法であるCEILNetでは低レベルなセマンティクスのみを考慮しているため、十分な精度が出ていなかった。そこで提案手法は高レベルなセマンティクスを考慮することで非常に高品質な分離が可能となった。DNNを学習するにあたって、データセットを構築し、またSoTAの精度を実現した。

image

手法・新規性

提案手法におけるネットワークの損失はFeature Loss、Adversarial Loss、Exclusion Lossの3つからなる。Feature Lossは提案ネットワークによって分離した画像と正解画像を深い部分における特徴量の差であり、Adversarial LossはCGANを適用しておいリアルな分離を実現するように学習し、Exclusion Lossは基本的に透過部と反射部は1つのエッジを共有しないという観察を元に勾配空間で透過部と反射部をよりはっきりと分けるように学習する。これらの損失を組み合わせたEnd-to-Endのネットワークを用いることでSoTAを実現した。

コメント・リンク集

[#66]
2018.7.11 13:58:38
Attention-Aware Compositional Network for Person Re-identification
Jing Xu, Rui Zhao, Feng Zhu, Huaming Wang and Wanli Ouyang
CVPR2018

概要

Person Re-identificationにattentionを利用したAttention-Aware Compositional Network(AACN)を提案した。体の部位のocculusionや背景の影響を軽減するために、体のどの部分に注目すればいいかを考慮することで精度の向上を計る。 AACNは、Attentionを得るPose-guided Part Attention(PPA)と特徴を得るAttention-aware Feature Composition(AFC)の2つにより構築される。 PPAは、入力画像からnon-rigid part(腕など)、rigid part(頭など)、key pointの3つの観点からattentionを推定する。 AFCは、PPAにより得られたattentionを考慮した対象人物の特徴量を抽出する。

Item3Image

新規性・結果・なぜ通ったか?

従来の姿勢情報を用いた手法は注目領域に背景などを含んでしまったのに対し、より詳細なattentionを得ることを可能とした。これにより、従来手法と比べあらゆるPerson Re-identificationのデータセットにおいて精度の向上を確認した。

コメント・リンク集

この論文に限らずattentionを用いる論文をよく見る気がする

[#67]
2018.7.11 00:47:05
Weakly Supervised Instance Segmentation using Class Peak Response
Yanzhao Zhou, Yi Zhu, Qixiang Ye, Qiang Qiu, Jianbin Jiao
CVPR2018, arXive:1804.00880
399
Hiroshi Fukui

概要

弱教師あり学習に畳み込み層のレスポンスを使ってセグメンテーションを行う手法であるPeak Response Map(PRM)を提案.手法としては,Class Response Mapという各クラスの特徴マップ(Class Activation Mappingのクラス数枚の特徴マップと同意?)からピークを算出し,そのピーク周辺の勾配を各特徴マップから抽出する事でPeak Response Mapを求める. そして,このピーク等を用いる事でセグメンテーションを行う.Pascal VOCとCOCOにおいて高い性能を達成している.

399_oveerview.png

新規性・結果・なぜ通ったか?

特徴マップにおける特定のピークと勾配情報を用いる事で,セグメンテーションを可能にしている.また,弱教師あり学習(セグメンテーションラベルなし)によりセマンティックとインスタンスセグメンテーションをラベルなしに認識できるため,評価が高い.

[#68]
2018.7.10 17:23:41
V2V-PoseNet: Voxel-to-Voxel Prediction Network for Accurate 3D Hand and Human Pose Estimation from a Single Depth Map
Moon, Gyeongsik, Ju Yong Chang, and Kyoung Mu Lee
CVPR2018

概要

Depthマップから手の3次元key pointを検出する手法を提案した。従来手法はdepthマップを2次元画像として扱っているため、2次元への射影時にdistorionが生じる、2次元から3次元への推定は非線形 mappingであるという問題があった。 そこで3次元のボクセルデータから、各ボクセルが3次元のkey pointである確率を推定するV2V-PoseNetを提案した。 2次元のDepthマップをボクセル化することで、V2V-PoseNetによってkey pointを推定する。

Item3Image

新規性・結果・なぜ通ったか?

直接key pointの座標を求める手法と比べ、ボクセル毎の確立を求めることで精度が向上した。具体的には、正解値との誤差、mAPの2つの尺度において従来手法よりも数値的に向上したことを確認した。

コメント・リンク集

[#69]
2018.7.10 14:00:42
Image Collection Pop-up: 3D Reconstruction and Clustering of Rigid and Non-Rigid Categories
A. Agudo, M. Pijoan, F. Moreno-Noguer
CVPR2018
Ryota Suzuki

概要

部分的に2Dアノテーションされた複数インスタンスの画像データセットにおいて,3D形状,カメラ姿勢,物体,変形のタイプのクラスタリングを同時に行う. また,不明瞭(indistinctly)に剛体・非剛体カテゴリ分類を行う. これは,クラスタが事前知識であるような既存手法の拡張となる.

物体変形のモデリングを行う.小さい領域の動きを,複雑な変形へと橋渡しできるように, サブスペーススの複数ユニオンに基づく定式化を行う. このモデルのパラメータは拡張ラグランジュマルチプライヤーで学習する. 完全に教師無しで行え,学習データが不要である.

Figure1

新規性・結果・なぜ通ったか?

剛体,非剛体カテゴリ,小さい・大きい変形を含む合成データ,実データセットで検証し,3D復元においてSoTA.

コメント・リンク集

※拡張ラグランジュ関数は条件を満たすと真凸関数.

[#70]
2018.7.10 12:22:13
NeuralNetwork-Viterbi: A Framework for Weakly Supervised Video Learning
A. Richard, H. Kuehne, A. Iqbal and J. Gall
CVPR2018
Ryota Suzuki

概要

弱教師付き動画学習に,ビタビ復号を組み込んでみた話.タスクはアクションセグメンテーション. 用意するのは動画とそのアクションラベルだけ.

動画がネットワークに入力され,その出力された確率分布に対しビタビ復号を実行する.すると,フレームラベルがビタビ復号で生成される.そして,勾配計算時にフレームワイズのクロスエントロピー計算を行い,逆伝播する.

明示的なコンテキスト・長さのモデリングが,これがビデオセグメンテーション・ラベリングタスクの改善に大きく作用することも示す.

Figure1

新規性・結果・なぜ通ったか?

アクションセグメンテーションでSoTA.

コメント・リンク集

勉強していないと知らなそうなアルゴリズムの導入.だいぶ込み入った話をしに行かないと論文が通らなくなってきた?

[#71]
2018.7.10 11:10:38
Eliminating Background-bias for Robust Person Re-identification
M. Tian, S. Yi, H. Li, S. Li, X. Zhang, J. Shi, J. Yan and X. Wang
CVPR2018
Ryota Suzuki

概要

人物再同定の話.人の領域で丁寧にバウンディングボックスを切ったとしても,やはり背景は映り込んでいて,背景バイアスは免れない. この事実を,以前作成した人領域をピクセルレベルでセグメンテーションして作ったデータセットで検証した.

そして,背景バイアス問題を解決すべく,3つのパーツに分ける人パージングマップに基づき,人領域をガイドとしたプーリングを行うDNNを構成.

また,人画像とランダム背景を合成するという,トレーニングデータのオーギュメンテーション手法も提案.背景画像は監視カメラ映像のフレームから100枚選び,対象の人画像と同じ大きさの背景画像をランダムにオンラインでクロップし,人画像とマージ.

Figure1

新規性・結果・なぜ通ったか?

背景バイアスに関する調査と,それを低減できる人物再同定DNNの提案.

コメント・リンク集

人領域を自分たちで色塗りしたデータセットを作る力業ができるSensetime x CUHK.

Action recognition without humanは引用してくれなかった.

[#72]
2018.7.10 10:57:36
Weakly Supervised Facial Action Unit Recognition Through Adversarial Training
Guozhu Peng, Shangfei Wang
CVPR 2018

概要

顔表情の基本構成であるアクションユニット(AU; Action Unit)を弱教師により敵対的学習する論文である。最初に擬似ラベルによりAUを推定し、敵対的学習の枠組みにより高精度にAUを認識できるようにしていく。敵対的学習はAUの認識を行うRと、AUラベルかどうかを見分けるDから構成される(つまり認識した擬似ラベルが本物のラベルかどうか見間違うように学習を進めていく)。

180709WeaklySupervisedFacialActionUnit

新規性・結果・なぜ通ったか?

ラベルづけが困難なタスクである顔表情のアクションユニットに対して効果的なアルゴリズムを提案し、弱教師付き学習ができるようにした。GANの枠組みを改良し、擬似ラベルを正解として十分にするよう学習できたことが大きな貢献である。

コメント・リンク集

擬似ラベルでも使用可能なレベルに持っていく学習はSelf-Supervised Learningでも使われているし、最初は粗いラベルでも徐々に意味のある教師になっていく様子が確認できる。アイディアは世界で同時多発的に思いついて実装が行われるので、思いついたらすぐにやらないといけない。

[#73]
2018.7.9 12:40:17
A Causal And-Or Graph Model for Visibility Fluent Reasoning in Tracking Interacting Objects
Yuanlu Xu, Lei Qin, Xiaobai Liu, Jianwen Xie, Song-Chun Zhu
CVPR 2018

概要

与えられた人物トラッキングやアピアランス情報から人物/物体間のインタラクション認識(ここではVisibility Fluent Reasoningと呼ばれている)を行う。ここで、通常人物や物体のトラッキングは欠損を含むことが多く、途切れ途切れになっている状態からでも認識ができるようにCausal And-Or Graph(C-AOG)を適用して対応関係を学ぶようにする。

180709VisibilityFluentReasoning

新規性・結果・なぜ通ったか?

C-AOGを用いて時間軸に伴うイベントの変化を理解することに成功、物体トラッキングと変化の理由づけを同時に行なっている。オクルージョン時の対応(トラッキングが一部できなくなっている)が行われたデータセットも公開し、より複雑かつ情報の欠損を含む環境においてもFluent Reasoningができるようにした。

コメント・リンク集

「ビジョンの認識精度は完璧ではない」という前提でより上位のタスクを完結するデータは今後さらに重要!査読に対する理解(完璧でないなら減点するといったことをなくす)も広がってほしい。

[#74]
2018.7.9 11:33:11
Facial Expression Recognition by De-Expression Residue Learning
Huiyuan Yang, Umur Ciftci, Lijun Yin
CVPR 2018

概要

顔表情認識を行うために、De-expression(Happy=>Neutralのように顔表情を打ち消す)を学習することにより特徴表現能力を向上させる。De-expression Residue Learning(DeRL)とよばれる、生成的/識別的な誤差計算を同時に学習可能な枠組みを提案(右図)。DeRLではまずConditional GANによりある表情の顔を無表情の顔に生成するモデルを構築。従来ではピクセルレベル/特徴レベルの違いを見分けていたが、本論文では生成モデルにおける中間層レベルの違いを見分けることにより高精度な表情認識モデルが出来上がる。このうち、Encoder/Decorderの2,3,4,5層、最終識別結果においても誤差を計算。

180709DeexpressionResidueLearning

新規性・結果・なぜ通ったか?

顔表情認識に関して、表情を打ち消すための識別/生成的モデルから誤差を計算するDe-expression Residue Learning(DeRL)により学習を行なった。BU-4DFE/BP4D-spontaneousと2つのデータセットにより事前学習を行い、CK+/Oulu-CASIA/MMI/BU-3DFE/BP4D+にてテストを行なった結果、従来法を超える顔表情認識精度を達成した。

コメント・リンク集

生成的に顔表情を打ち消す(教師なし)学習が有効とは発想勝ちである。また、それでうまくいく実装力も評価できる。

[#75]
2018.7.9 09:52:16
3D Human Sensing, Action and Emotion Recognition in Robot Assisted Therapy of Children With Autism
Elisabeta Marinoiu, Mihai Zanfir, Vlad Olaru, Cristian Sminchisescu
CVPR 2018

概要

児童心理ケアのシーンにおいて3D次元姿勢推定、行動認識、感情推定を実施した。長期の動画撮影、多様な行動、部分的にしか身体が映っていない、児童の年齢が異なる、などの課題があるが、このような環境にて上記タスクを行なった。詳細行動/感情認識(fine-grained action, emotion recognition)を行うために3,700動画を撮影(各動画は10-15分の長さを保有)、37人の児童から19の頻出行動を分類。

180709PoseActionEmotion

新規性・結果・なぜ通ったか?

提案手法は姿勢推定においてKinectとcompetitiveな精度を実現するとともに、行動認識や感情推定では良好な精度を実現、Child-Robot Interactionに関する新しいタスクを定義した。

コメント・リンク集

Child-Robot Interaction、新しいタスクである。大人とは異なり、子供の行動/感情は年齢により大きく異なりそうである。

[#76]
2018.7.9 09:07:24
Monocular 3D Pose and Shape Estimation of Multiple People in Natural Scenes - The Importance of Multiple Scene Constraints
Andrei Zanfir, Elisabeta Marinoiu, Cristian Sminchisescu
CVPR 2018

概要

Deep Multi-task Neural Networksにより複数人物の3次元姿勢+形状を推定する。直接的に画像のアピアランスから人物姿勢を推定するのみならず、環境の拘束条件や推定された関節情報からコンセンサスを取るように文脈を把握しながら(2次元や)3次元の姿勢+形状を決定していく。ビデオに拡張することも可能で、さらに自然環境下における高精度な人物姿勢推定も実行した。右図は処理フローを示す。初期段階では単一人物の姿勢推定と推定結果のフィードバックを行い、次に複数人物同時最適化を行い、最終的な複数人物の3次元姿勢とその形状を取得する。

180709Mono3DPoseShapeEstimation

新規性・結果・なぜ通ったか?

高精度に複数人物の3次元姿勢を推定するとともにその形状も復元可能にした点が貢献点である。さらに、モデルにおいても単一人物/複数人物/環境に関する拘束条件など文脈を把握することにより3次元姿勢や形状を推定した点にも新規性が認められた。

コメント・リンク集

単眼カメラからのモーキャプまでもう少し?

[#77]
2018.7.9 08:46:45
Inferring Semantic Layout for Hierarchical Text-to-Image Synthesis
Seunghoon Hong, Dingdong Yang, Jongwook Choi, Honglak Lee
CVPR2018

概要

テキストからの画像生成において、テキストから画像への写像を直接学習するのではなく、layout generatorよりtextから中間表現としてsemantic layoutを生成するステップと、image generatorによりそれを画像へ変換するステップに分解して画像を生成する枠組みを提案。

Inferring_Semantic_Layout_for_Hierarchical_Text-to-Image_Synthesis_1.PNGInferring_Semantic_Layout_for_Hierarchical_Text-to-Image_Synthesis_2.PNG

新規性・結果・なぜ通ったか?

意味のある画像をsemantic layoutに基づき生成する点だけでなく、生成画像のアノテーションも自動で行われている点と生成されたsemantic layoutを修正することによるユーザーがコントロールできる生成も可能にしている点が新しく有用である。StackGANのような鳥や花といった特定対象ではなく、より複雑な一般シーンを想定し、Fine-grained semantic layoutが必要であるという問題設定が良い。

コメント・リンク集

評価の際に、生成された画像のcaptionを生成し、元の文章との類似度を比較しており、納得できる生成モデルの評価をしていた。StackGANでは行われていなかった気がするが、こういった評価は普通?また画像生成等の中間表現としてSemantic layoutを利用する研究が増えてきた。それゆえ物体の形状とインスタンス情報(この研究で言うところのBox generatorとshape generator)をよりスマートに取得または統合できればと感じる。

[#78]
2018.7.9 06:58:04
Referring Image Segmentation via Recurrent Refinement Networks
Ruiyu Li, Kaican Li, Yi-Chun Kuo, Michelle Shu, Xiaojuan Qi, Xiaoyong Shen, Jiaya Jia
CVPR2018

概要

自然言語に基づいてsegmentationするタスク(referring image segmentation)においてmulti-scaleなsemantic情報を取得するRecurrent Refinement Network(RRN)を提案。これは入力にPyramid特徴からの得られる情報を適応的に組み込み、segmentation maskを洗練する。実験では、ReferIt、UNC、UNC+、G-RefのデータセットでベースラインとSoTAより性能が優れていることを確認。

Referring_Image_Segmentation_via_Recurrent_Refinement_Networks.PNG

新規性・結果・なぜ通ったか?

Referring image segementationへmulti-scaleなsemantic情報を含むpyramid特徴を適用し、単純に利用するのではなく、ConvLSTMにより洗練化している点が新しい。そして4つのデータセットでSoTAの性能を達成。包括的な実験により、RRNの有効性を示している。

コメント・リンク集

ここでもPyramid特徴が利用され、有効性が示されている。Referring image segmentationにおいて、ConvLSTMにおいてtanhを利用すると大幅な精度改善がみられるのが不思議である。個人的な意見として、maskの生成のためのRefinementに再帰構造を利用するのは自然であり、加えて本論文の結果よりLSTMには、multi-scaleの特徴を適応的に追加・削除する機能があり、これがsegmentation maskに良い影響を与えている点がわかる。興味深い。

[#79]
2018.7.9 06:00:21
DenseASPP for Semantic Segmentation in Street Scenes
Maoke Yang, Kun Yu, Chi Zhang, Zhiwei Li, Kuiyuan Yang
CVPR2018

概要

自動走行のシーンで現れる物体はスケールの変動が大きく、multi-scaleな情報を適切にEncodeする必要がある。multi-scaleなsemantic情報を抽出するために、複数rateのAtrous ConvolutionによるAtrous Spatial Pyramid Pooling(ASPP)が提案されているが、このような自動走行のシーンではまだ十分ではない。そこで、よりスケールの変動に対応するために、Densely connected Atrous Spatial Pyramid Pooling(DenseASPP)を提案。

DenseASPP_for_Semantic_Segmentation_in_Street_Scenes.PNG

新規性・結果・なぜ通ったか?

ASPPのように、Dilation rateを上げると画素のsampling間隔が広がる。これは大きいストライドのconvolutionのようなもので、大きなrateのatrous convolutionは受容野を広げるが、その分情報の欠落が起こる(低密度化)。この問題を解決すべくStackしかつ密な結合をしたDenseASPPにより高密度化し、異なるdilation rateのlayerの多様なアンサンブルを可能とすることで、ASPPよりも多くのスケールを持つ特徴マップを効果的に得ることができる。これが新しい。

コメント・リンク集

Dense結合 + Pyramid特徴の単純な構造に思えるが、ASPPでのAtrous Convolutionの隙間に着目し、これを効果的に高密度化していることがおもしろい。semantic segmentationにおいて大小様々なスケールの変動への対応策は、最終段へ伝播できるパスが存在するかが重要?これって結局multi-scaleなpyramid特徴?

[#80]
2018.7.9 05:52:39
On the Importance of Label Quality for Semantic Segmentation
Aleksandar Zlateski, Ronnachai Jaroensri, Prafull Sharma, Frédo Durand
CVPR2018

概要

この論文ではcityscapeライクなcoarseラベルでの性能を人工データを使って、Semantic Segmentationでのラベルの品質とCNNの性能との関係を調査した研究。これにより、人間の労力を最小化しつつ、coarseラベルを作るべき時間を提案することができる。ラベル品質とあるが、domain adaptation等の手法によるラベル生成の品質検証というわけではなく、人間の労力は前提で、その上でのcoarseラベルの品質と性能を検証している。

On_the_Importance_of_Label_Quality_for_Semantic_Segmentation.PNG

新規性・結果・なぜ通ったか?

結果から、CNNの性能は人間のアノテーションコストに依存することがわかった。これつまり、大きなcoarseアノテーションデータセットは、小さなfineアノテーションデータセットの性能と同等で、coarseラベルでpretrainし、少ないfineアノテーションデータセットでfine-tuneした場合、大きなfineデータセットで学習した性能に匹敵またはそれ以上の性能を得ることができる可能性があることを示している。また様々なネットワーク構造や都市の様々なオブジェクトに対しても有効であることを証明。

ここではcoarseラベルを対象としていたが、ミスラベルの場合は?、汎化との関係は?、stuffクラスは?と異なる対象でさらなる検証がほしいと思わせる研究。これらについて検証した研究がもうすでにあったりする?

[#81]
2018.7.9 05:43:49
A Memory Network Approach for Story-based Temporal Summarization of 360◦ Videos
Sangho Lee, Jinyoung Sung, Youngjae Yu, Gunhee Kim
CVPR2018, arXive:1805.02838
170
Hiroshi Fukui

概要

360°カメラの動画を用いたビデオ要約を,Memory NetworkをベースとしたPast-Future Memory Networkにより実現した研究.はじめに,入力の360°の動画から81個の領域(normal field of view)を,RankNetベースの手法を用いて切り出す. 候補領域は,MemoryNetのMemoryへと記憶される. PFMNでは,これらの候補領域を過去と将来という形でMemoryに記憶しており,時刻tで最もスコアが高い記憶が過去のMemoryに残される. 印象の強い候補領域を残しつつMemoryをアップデートしていくことで,高性能なビデオ要約が可能となる.

170_overview.png

新規性・結果・なぜ通ったか?

この手法では,対象を360°カメラの動画としており,広大な情報量から効率的に印象的なシーンをMemory Networkを活用することで,高性能な成果を出している.Memory Networkをこのような問題設定に応用した事例はこの手法が初めてであり,この点が高い新規性となっている. また,このタスクを評価する指標として,新たなデータセット360◦ video summarization datasetを提案している.

[#82]
2018.7.9 02:14:01
BlockDrop: Dynamic Inference Paths in Residual Networks
Zuxuan Wu, Tushar Nagarajan, Abhishek Kumar, Steven Rennie, Larry S. Davis, Kristen Grauman, Rogerio Feris
CVPR2018, arXive:1711.08393
1213
Hiroshi Fukui

概要

強化学習を使い,推論時のResNetの不必要な層(ブロック)を取り除いて計算コストを削減するBlockDropを提案.この研究では,ResNetが特定の層を取り除いた際に性能があまり低下しない能力を利用しており,どのブロックを落とせるかをPolicy Networkにより判定させている. 報酬の設計では,画像認識時により少ないブロックで認識が成功できるほど報酬が高くなるように設計されている. BlockDropにより,ImageNetにおいてtop-1の性能を76%を保ちつつ,平均で20%の高速化(一部では36%高速化)を実現している.

1213_overview.png

新規性・結果・なぜ通ったか?

推論時のネットワーク構造を強化学習により最適化させる手法.強化学習によりネットワーク構造を削減する手法はあまり提案されていないため,新規性が高く評価されたと思われる. また,BlockDropでは速度を改善するだけでなく,場合によっては若干性能を向上させる事が可能である事を示している(CIFAR, ImageNetで検証).

コメント・リンク集

強化学習の新しい使い方で非常に面白い手法.今後,改善や応用が期待できそう.

[#83]
2018.7.9 02:18:31
CondenseNet: An Efficient DenseNet using Learned Group Convolutions
Gao Huang, Shichen Liu, Laurens van der Maaten, Kilian Q. Weinberger
CVPR2018, arXive:1711.09224
350
Hiroshi Fukui

概要

DenseNetをベースにコンパクトなネットワークを構築するCondenseNetを提案.このCondenseNetは,学習中は更新回数が増えるに連れて畳み込む特徴マップを減らしていく. そして,推論時は疎になった畳み込み層の特徴マップを入れ替え,Group Convolutionする. これにより,畳み込みに対する処理時間を大幅に削減する事が可能であり,推定時の計算コストを大幅に削減する事ができる.

350_overview.png

新規性・結果・なぜ通ったか?

コンパクトなネットワークを構築するために,学習では畳み込みをスパースにする処理を導入し,推論時には特定の特徴マップを畳み込むようにGroup Convolutionを導入している.このような畳み込みの最適化方法は提案されていないため,新規性として高い. また,DenseNetの構造も改良しており,複数種類のプーリングを使用する等の改良も導入している. 同会議で提案されているShuffleNetよりコンパクトにする事ができる.

コメント・リンク集

[#84]
2018.7.9 02:23:06
Cube Padding for Weakly-Supervised Saliency Prediction in 360◦ Videos
Hsien-Tzu Cheng, Chun-Hung Chao, Jin-Dong Dong, Hao-Kai Wen, Tyng-Luh Liu, Min Sun
CVPR2018, arXive:1806.01320v1
171
Hiroshi Fukui

概要

360°カメラの動画から弱教師あり学習でSailency mapを効率的に求める方法を提案.方法として,360°のシーンを6つのパネルに分割し,チャンネル方向に結合する事で,ネットワークに入力する. ここで,シーンをパネルに分割する際にCube Paddingという方法を提案しており,特定パネルの周囲のパネルの一部を,その特定パネルの両端に結合させる. これにより,パネル間の関連性をネットワークに学習させる事が可能である. また,360°シーンのデータセットを新たに提案している.

171_overview.png

新規性・結果・なぜ通ったか?

提案しているCube Paddingという広大なシーンに特化した入力方法は,解像度が高い場合においても処理速度の低下を抑制する事が可能である.また,パネルを分割する際にCube Paddingを導入する事で,パネル間の境界に対してロバストにする事ができる. 今回のタスクに対して新しいデータセット”Wide-360° Dataset”を提案している点も,評価が高い.

コメント・リンク集

新たな問題設定にチャレンジした研究.そして,結果の見せ方が凄く良い.(特にオフィシャルページの360°のYouTubeを使った動画デモ)

[#85]
2018.7.9 02:08:03
Finding beans in burgers: Deep semantic-visual embedding with localization
Martin Engilberge, Louis Chevallier, Patrick Pérez, Matthieu Cord
CVPR2018, arXive:1804.01720
522
Hiroshi Fukui

概要

マルチモーダルに任意の領域を高精度にローカライズする研究.この研究では画像 & テキストを対象としており,右図のように入力されたテキストに適合した領域をヒートマップで推定している. 画像特徴とテキスト特徴を同一空間に落とし込んでネットワークを学習する. そして,認識時にテキストの特徴ベクトルと画像の特徴マップを使ってヒートマップを出力する.

522_overview.png

新規性・結果・なぜ通ったか?

方法としては,画像と単語からResNetとRNNを用いて特徴マップ / 特徴ベクトルを抽出し,同一特徴空間にembeddingさせる.学習では,画像とテキストの特徴からTriplet Ranking Lossを用いて学習させる. ヒートマップは,画像の特徴マップと文章の特徴ベクトルの掛け合わせから求めることができる. このローカライゼーションは,非常に高い性能を達成している.また,Zero-shot Learningにも応用できる.

コメント・リンク集

[#86]
2018.5.20 19:39:22
Learning Answer Embeddings for Visual Question Answering
Hexiang Hu, Wei-Lun Chao and Fei Sha
CVPR2018

概要

VQAの質問と画像、答えそれぞれを表現するembeddingを学習する手法を提案。従来のVQAは、任意の文章を答えとして出すものと用意された選択肢の中から選択するものの2種類に分けることができる。 前者は答えが合っているか否かは主観的なものである、後者は選択肢に含まれない答えを出力できない、runningとjoggingのように似ている単語の区別が難しいといった問題がある。 そこで質問と画像のペア、答えそれぞれを表現するベクトルを学習することで答え同士の類似度の定義や未知の答えへの対応を可能にする。 具体的には、それぞれのベクトルを用いた確率モデルを構築し、最尤推定を行う。

Item3Image

新規性・結果・なぜ通ったか?

従来手法では学習の際に設定した答えのみしか出力できず、異なるデータセットに適用することが不可能であったが、提案手法により異なるデータセットなどデータセットに含まれていない答えにも適用可能となった。

コメント・リンク集

[#87]
2018.7.9 00:41:29
Structure Inference Net: Object Detection Using Scene-Level Context and Instance-Level Relationships
Yong Liu, Ruiping Wang, Shiguang Shan and Xilin Chen
CVPR2018
876

概要

画像のシーンコンテキストと,物体の関係の2種類のコンテキストを用いて物体検出を行うアルゴリズムを提案.物体検出をグラフ構造の推論問題として扱い,物体をノード,物体間の関係をエッジとしてモデル化する.これを実現するために,Faster R-CNNのような物体検出フレームワークに組み込む構造推論ネットワーク(Structure Inference Network;SIN)を設計した.SINは,特徴マップとしてプールされたRoIをノードとしてFC層にマッピングする.同様に画像全体の特徴をシーンとして抽出し,RoIを連結してエッジとする.グラフは反復的に更新され,最終状態は物体クラス予測の精度向上に貢献する.

20180708_SIN1.jpg20180708_SIN2.jpg

新規性・結果・なぜ通ったか?

物体検出の精度向上のためにコンテキスト(周辺環境,物体の位置関係など)の理解が重要となる.コンテキストをグラフ構造で表して推論する斬新な手法である.VOCとCOCOで評価を行い,一部のクラスはFaster R-CNNよりも高性能であり,全体では76.0mAP(VOC07),73.1mAP(VOC12)とFaster R-CNN(73.2,70.4)よりも高性能であることを示した.

コメント・リンク集

グラフ構造で物体検出を扱うものはいくつかあるが,エッジの情報と周辺環境のコンテキストも考慮したものは新しい.コンテキストを考慮した物体検出は,未知の物体を検出するためにも重要な要素となり得る?

[#88]
2018.7.8 11:15:43
Deep Ordinal Regression Network for Monocular Depth Estimation
Huan Fu, Mingming Gong, Chaohui Wang, Kayhan Batmanghelich and Dacheng Tao
CVPR2018
231

概要

DCNNを用いてdepth画像を推定するとき,depthを離散化して順序回帰問題として解くdeep ordinal regression network(DORN)を提案.Depthの離散化にはspacing-increasing discretization(SID)を導入した.SIDを用いてログスケールで離散化することで,遠い領域のdepth画像を粗く,手前の領域のdepth画像を細かく離散化してロスの減少に貢献する.ネットワークの構成は高解像度な特徴抽出部,マルチスケール特徴学習器(ASPP),フル画像エンコーダおよび順序回帰optimizerからなる.計算コストを削減するために,skip connectionではなくシンプルな構成を採用した.

20180708_DORN1.jpg20180708_DORN2.jpg

新規性・結果・なぜ通ったか?

DCNNを用いた高解像度なdepth画像推定は,通常skip connectionや複数のdeconv層が必要だったが,この問題を解決または低減した.KITTI,Make3D,NYU Depth v2などのベンチマークで他の手法を大きく上回りSOTAを達成した.

コメント・リンク集

単純なログスケールでの離散化だけでなく,depth値の出現頻度を考慮した離散化を行えばより高精度化できそう.

[#89]
2018.7.8 07:43:29
Translating and Segmentating Multimodal Medical Volumes with Cycle- and Shape-Consistency Generative Adversarial Network
Zizhao Zhang, Lin Yang, Yefeng Zheng
CVPR 2018
Takahiro Itazuri

概要

医療画像処理ではCTやMRIなどの異なった種類のデータが存在する。医療の現場において、CTとMRIはどちらも必要となる場面がある一方で、どちらか一方しかデータが存在しないことも多々発生している。そこで本論文では、CTとMRIという3D画像データ間のドメイン変換を行うタスクに取り組んだ。またCTとMRIのそれぞれからセグメンテーションを行うネットワークも学習させた。

img

新規性・結果・なぜ通ったか?

2D画像におけるImage-to-Image Translationに対応する、医療3D画像におけるVolume-to-Volume Translationに対して以下の点に取り組んだ。

  • 画像ペアがないデータセットにおける学習を行った点
  • 解剖学的構造に矛盾が出ないようにした点
  • 合成画像を利用して、セグメンテーションの精度を向上させた点

コメント・リンク集

[#90]
2018.7.6 18:22:51
“Learning-Compression” Algorithms for Neural Net Pruning
Miguel et al.
CVPR 2018

概要

Pruningを最適化問題として定式化し、交互最適化によって解くLC algorithmの提案。定式化としては0をとらないパラメータ数に対して制約を設けて解くConstrain formとそれを罰則項として損失関数に組み込むPenalty formの二つを提案。メジャーなPruning手法であるパラメータのmagnitudeの小さいものをナイーブにzeroingしていくものよりも、良い結果となった。提案する2つのformに関してはConstrain formの方が良かった。

Learning_Compression_Algorithms_for_Neural_Net_Pruning.png

詳細

補助パラメータのPruningを行うCompression(C) Stepと本パラメータを補助パラメータに近づけつつ本タスク(識別・回帰など)を学習するLearning Stepからなる。C Stepでは(制約 or 罰則項として) Lp正則をかけながら本パラメータとのMSEを最小化するような補助パラメータを探索する。L Stepでは損失関数における補助パラメータとのMSE項の係数を学習の進行に応じて大きくすることで(μ→∞)、最終的な解がスパースなものに近づく。また、Constrain formでは超パラメータ一つでNN全体において最適化できる。手法の新規性・妥当性が大きく評価されたと考えられる。

コメント・リンク集

magnitudeベースのものは「 magnitude が小さいものは推定への寄与率が低い」という仮定のみでPruningしていくが、この手法ではその仮定をベースにしつつ(C step)、本タスクの性能を担保しながらPruningしていく(L step)点で理にかなっているように思え、面白い。計算効率をモチベーションにされることが多いPruning研究だが、枝刈りの割合によってはLasso回帰のように汎化性能が向上するような地点がないかもきになる。

[#91]
DeLS-3D: Deep Localization and Segmentation with a 3D Semantic Map
Peng Wang, Ruigang Yang, Binbin Cao, Wei Xu, Yuanqing Lin
CVPR 2018
Yue Qiu

概要

  • GPS IMU,RGBビデオカメラ及び3Dセマンティックマップからカメラ姿勢・自己位置推定及びscene parsingを同時に行えるフレームワークの提案.
  • 提案フレームワークの概要は:①GPS/IMU及びrenderredセマンティックマップから初期なカメラ姿勢を推定する.② renderredセマンティックマップとRGB画像をpose推定ネットワークに入力し,精密なカメラ姿勢を推定する.またRNNにより更に姿勢推定を精密化する.③推定した精密なカメラ姿勢で新たなセマンティックマップをrenderし, renderredマップとRGB画像を更にsegment CNNによりピクセルレベル精度のセマンティックマップを推定する.

DeLS-3D

新規性・結果・なぜ通ったか?

  • GPS IMU,RGBカメラ,3Dセマンティックマップのマルチセンサーの情報をDNNにより有効的かつロバストでに融合できる.
  • カメラ姿勢推定とScene parsingの2つのタスクを同時に行うことにより,各々で行える場合より良い精度を得られることを実験に通して示した.
  • gtカメラ姿勢,denseなセマンティックラベル付きのポイントクラウド及びピクセルレベル精度のビデオカメラ画像の室外運転用データセットを提案した(リアルデータ).

コメント・リンク集

  • 入力に3Dセマンティックマップがあるので,ある意味ではscene parsingに対して提案手法は入力画像を手掛かりにレンダリングされたセマンティックマップをマイナー修正だけ?

  • 論文

[#92]
2018.7.6 16:26:27
Parallel Attention: A Unified Framework for Visual Object Discovery through Dialogs and Queries
Bohan Zhuang, Qi Wu, Chunhua Shen, Ian Reid, Anton Van den Hengel
CVPR 2018
Yue Qiu

概要

  • variable lengthな物体の言語descriptions (一つの単語からmulti-round会話まで)から正しく画像中に物体を参照できるネットワークPLANを提案した.
  • PLANネットワークは2種類のattentionを用いている:言語descriptionsのパーツと①画像のグローバルコンテンツ②画像の局所的領域ー物体candidatesを関連付けする.
  • recurrent attentionを用いて,異なる処理段階でのattentionを変更できる.更に, attentionを可視化することにより,システムが異なる処理段階で正しい物体領域をattentionしているかを確認できる.

parallel-attention

新規性・結果・なぜ通ったか?

  • 言語入力が異なるRefCOCO,RefCOCO+,GuessWhat?!などのデータセットでSoTAな精度を達成.
  • LSTMとattentionを用いているので,referringプロセスをビジュアライズできて,ネットワークの解釈可能性も高い.
  • 固定長ではなく長さが異なる言語入力(一つの単語からmulti-round会話まで)から正しく視覚attentionを得られる.

コメント・リンク集

  • LSTM+attentionもなかなか良さそう

  • 論文

[#93]
2018.7.6 16:14:24
DS*: Tighter Lifting-Free Convex Relaxations for Quadratic Matching Problems
F. Bernard et al.,
CVPR 2018
Kensho Hara

概要

画像間で対応関係を探すなどのマッチング問題の最適化を解くための新たな手法を提案. 二次計画問題として定式化された問題を効率的に解くための凸緩和手法. 提案手法はScalableでデータ数が増えても計算時間があまり増えないことに加えて, Tightな解を求めることが可能.

新規性・結果・なぜ通ったか?

  • ScalableかつTightな解を求められるアルゴリズムを提案

コメント・リンク集

  • 論文
  • 中身全然理解できてないです...
[#94]
2018.7.6 12:29:32
Robust Video Content Alignment and Compensation for Rain Removal in a CNN Framework
J. Chen, C. Tan, J. Hou, L. Chau and H. Li
CVPR2018
Ryota Suzuki

概要

動画像において,土砂降り的なはっきり見えている雨を除去する.高速に動くカメラの動きにも頑健.

スーパーピクセルセグメンテーションをし,デプスを含むユニットに分解.シーンコンテンツの位置合わせをスーパーピクセルレベルで実行する. 雨の線の場所や遮蔽された背景コンテンツに関する情報を抽出し, 雨除去の中間出力を得る. さらに,そこで使った情報を更にCNNの入力特徴として使い, 高周波成分の復元に使う.

Figure1

新規性・結果・なぜ通ったか?

土砂降り雨を合成した車載カメラ画像データに適用し,PSNRが改善,見た目もよくなった.

コメント・リンク集

合成データでしか評価してないのが気になる.

[#95]
2018.7.6 12:10:22
Self-calibrating Polarising Radiometric Calibration
D.T. Guangwei, B. Shi, Y. Zheng, S. Yeung
CVPR2018
Ryota Suzuki

概要

偏光放射特性のセルフキャリブレーション手法の提案.これまでには,カメラ応答だけ求めるものはあったが, 本研究では,未知のカメラ応答及び未知の偏光角を同時に復元する.

応答が線形とした場合,偏光フィルタを回転すれば偏光強度の変化は正弦波になるはずではる.この事実を使って,統合的に最適化を定式化する.

Figure1

新規性・結果・なぜ通ったか?

カメラ応答を偏光情報を使って,放射特性と偏光特性の両方を統合的に最適化するというやり方で,自己キャリブレーションを実現したものは初.

コメント・リンク集

[#96]
2018.7.6 11:16:24
Mining on Manifolds: Metric Learning without Labels
A. Iscen, G. Tolias, Y. Avrithis and O. Chum
CVPR2018
Ryota Suzuki

概要

教師なしマイニングの話.ハードポジティブ・ハードネガティブが分別しやすいマニフォールドにおける表現方法を考案. 本手法によれば, 正例たちは一つのマニフォールドに距離が離れて置かれ, 負例たちは複数のマニフォールドに距離が近い形で置かれる. ユークリッド的な近さとマニフォールド的な近さの不一致性によって,両者を分別可能になる.

Figure1

新規性・結果・なぜ通ったか?

学習済みネットワークの教師なしファインチューニングや,特定物体検索に適用させてみて,完全・部分教師ありと比較して性能超え.

コメント・リンク集

[#97]
2018.7.6 10:41:24
Polarimetric Dense Monocular SLAM
L. Yang, F. Tan, A. Li, Z. Cui, Y. Furukawa and P. Tan
CVPR2018
Ryota Suzuki

概要

通常のカメラとは違い,偏光カメラ画像からは,鏡面反射してしまっているようなところでも,物体表面の法線角度が窺い知れたりするので,組み合わせることで良いDense SLAMができるようになると思われる.ところが,偏光情報からの法線角度推定は,特に境界付近でエラーが載りやすい.従来手法では事前にセグメンテーションマスクを生成しており,オフラインアルゴリズムであった.

本研究では,・方位ベースデプス伝播・2視点デプス一貫性チェック・デプス最適化の 反復処理を完全自動化し, 注意深くGPU実装できるように設計, SLAMに組み込んだところでリアルタイムに動くようにした.

Figure1

新規性・結果・なぜ通ったか?

通常カメラ+偏光カメラでのSLAMは初.

コメント・リンク集

[#98]
2018.7.6 10:12:41
Left-Right Comparative Recurrent Model for Stereo Matching
Z. Jie, P. Wang, Y. Ling, B. Zhao, Y. Weio, J. Feng and W. Liu
CVPR2018
Ryota Suzuki

概要

左右一貫性チェックという,ステレオにおける視差情報を改善する手法がある.従来は,左右でのチェックはそれぞれ独立かつHand-Craftedであった. 本稿では,これを結合的に行えるようなリカレントモデルを提案する.

両眼の視差結果から,オンラインにミスマッチ領域を判別していく.ここで,ソフトアテンション機構を導入する. 学習したエラーマップを使い,次時間の処理において,信用できない領域に選択的に焦点を当てるという方法. これにより,視差結果を反復的に改善していく.

Figure1

新規性・結果・なぜ通ったか?

3つのベンチマークでSoTA性能を達成.

コメント・リンク集

[#99]
2018.7.5 11:32:39
Taskonomy: Disentangling Task Transfer Learning
Alexander Sax, William Shen, Amir Zamir, Jitendra Malik, Silvio Savarese, Leonidas J. Guibas
CVPR 2018
452
Yue Qiu

概要

  • CVPR2018のベストペーパー.視覚タスクの関連性に基づき高効率的に遷移学習を行えるtaskonomyの提案.
  • 問題設定:CVの究極的目標の1つとしては全世界の視覚問題を解く.現状では,視覚タスクはほぼ各々にネットワーク,データセットを定義,学習を行っていた.しかし,作者達が視覚タスクの間に関連性が高いと指摘し,究極的視覚タスクを解ける目標に向かう一歩としては①視覚タスクの間の関連性を導く.②そういった関連性に基づき目標タスクに対しより遷移学習を行うことで,少ないデータで高効率的に学習をする.
  • 概要:taskonomyを求めるのは主に2つのパーツから構成される.①タスクの関連性を量化し,その量化の結果はaffinity matrix.②目標タスクに対し,affinity matrixに基づき最適化を行い,効率的に遷移学習を行えるルートdirected graph(このグラフはtaskonomy)を求める.
  • ①タスク関連性を表すaffinity matrixを求めるプロセス:目標タスクグループをT,0から学習できる開始タスクグループをSと定義.ステップ1:Sタスクに対し,全部0から学習を行う.(全部encoder-decoderの構造)ステップ2:遷移学習を行う.「タスク間1次関連」s∈S, t∈T, tに対しsのencoderを使い,decoderを学習.(全部のs,tペアに対この学習を行う)「タスク間n次関連(n<=5)」1次関連の効果により,tに対し,効果上位n個のsのencoderのrepresentationを同時に用いてdecoderを学習.ステップ3:ステップ2の全部の遷移学習の最終ロスをベースにaffinity matrixを生成する. それぞれのタスクのロスは異なるロス関数を用いているため,線形的に遷移学習の効果を表せないために,Ordinal Normalizationをベースとした手法を用いてロスを関連度に表示した(この方法はAnalytic Hierachy Processを参考した).最終的に求めたAffinity matrixの(i,j)の意味はあるタスクに対しタスクiから遷移学習の効果がどれくらいの確率でjタスクから遷移学習の効果より良い.
  • ② affinity matrixを用いた効率的遷移学習:ある目標タスクtに対し,最適遷移学習ルートを求めるプロセスは「affinity matrixに対し,subgraph selection問題であり,そのsubgraphのスタートはsで,終点は目標タスクt」.具体的には条件1あらかじめ定義した開始タスクsの数を超えない;2タスクsに対し,遷移学習の回数上限は1回;3遷移学習の開始及び目標タスクはsubgraphに含める.の3つの拘束条件の元Binary Interger Programmingを用いて最適化を行う.

taskonomy

新規性・結果・なぜ通ったか?

  • 視覚タスクは各々でデータセット,方法を構築することから,視覚タスク間の関係を追究し,その関係を利用ことで,資源を有効的に利用できる.
  • 3000+ネットワークをトレーニング
  • ~50,000GPU時間
  • 120k画像0から学習,16k画像遷移学習
  • 400万枚画像,それぞれ26種類のタスクのアノテーション付き

コメント・リンク集

  • 今のそれぞれのタスクで解決しようとする研究より一歩先に立っている

  • 実行力とコストが想像できないくらい

  • 論文

  • プロジェクト

  • task bank

[#100]
2018.7.6 10:37:53
Single-Image Depth Estimation Based on Fourier Domain Analysis
Jae-Han Lee, Minhyeok Heo, Kyung-Rae Kim and Chang-Su Kim
CVPR2018
59

概要

フーリエ周波数領域解析をベースとしたCNNを用いて,単一のRGB画像から距離画像を推定する手法を提案.CNNはResNet-152ベースで,depthbalanced Euclidean lossと呼ばれる損失関数を設計し,広範囲の距離画像を推定できるように学習する.次に,入力画像を複数のアスペクト比で切り取って複数のデプスマップ候補を生成する.アスペクト比の小さい画像は,局所的に信頼できるデプスマップを生成するが,アスペクト比の大きい画像は,大域的なデプスマップを生成する.これらをお互いに補完するために,デプスマップ候補を周波数領域で結合する.

20180705_single-image_depth_estimation1.jpg

新規性・結果・なぜ通ったか?

距離画像推定にフーリエ周波数領域解析を使った(作者の知る限りで)初めての論文である.NYUv2 depth datasetの画像280,000枚を学習し,654枚で評価を行った.fully convolutional residual networksを用いた最新の手法と同等またはそれ以上の性能を得ることができた.

コメント・リンク集

損失関数やフーリエ周波数領域解析がしっかり構築されており説得力のある論文である.

[#101]
2018.7.5 14:32:07
FlipDial: A Generative Model for Two-Way Visual Dialogue
Daniela Massiceti, Siddharth Narayanaswamy, Puneet Kumar Dokania, Phil Torr
CVPR 2018
740
Yue Qiu

概要

  • 画像及びキャプションからConditional VAEをベースとした視覚会話(継続的な質問・回答を両方とも生成)を生成できるモデルFLIPDIALを提案した.
  • 従来の継続的な応答するタスクを1VDと継続的に応答及び質問両方行うタスクを2VDと定義し,構造的に変更を加え提案FLIPDIALが1VD,2VD 両方対応できる.
  • FLIPDIALの基本的な考えはCNNによりfull 会話をエンコードし,conditional VAEを用いて会話を生成する. 2VDタスクは画像・キャプション・会話履歴からlatent variableを通して答えをfull dialogueをモデリングし,予測したfull dialogueとgt dialogueのlatent空間においての類似性及び画像との関連性を元にロス関数を定義した.

FlipDial

新規性・結果・なぜ通ったか?

  • 提案FLIPDIALが1VDタスクにおいてVisDialデータセットに対し従来のVisual Dialog手法より良い精度を達成し,新規な2VDタスクのbaselineを建てて,新たな評価指標なども提案した.
  • 提案FLIPDIALが一つの質問に対し,多様な答えを生成できる.

コメント・リンク集

  • CNNによりfull 会話をエンコードする考えが大胆的

  • 論文

[#102]
2018.7.5 11:59:41
VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection
Yin Zhou, Oncel Tuzel
CVPR 2018
575
Yue Qiu

概要

  • LiDARなどのセンサーにより得られるポイントクラウドから3次元検出を行うend-to-endなネットワーク構造VoxelNetの提案.
  • VoxelNetの全体構造はまずスパースなポイントクラウドから4Dテンサーで特徴を表し,それに対して空間コンテキスト情報を集合する層により処理を行った後,RPN構造により3Dバウンディングボクスの予測を行う.
  • 提案したポイントクラウド情報抽出するの主なプロセスは①ポイントクラウドをスパース3Dボクセルに変換し②VFE(新規提案)層よりボクセル内のポイントワイズな特徴を集合し,更にVFE層をstackすることにより3D形状の複雑な特徴を抽出する

VoxelNet

新規性・結果・なぜ通ったか?

  • 提案手法はスパースなポイントクラウドを直接処理できる.LiDARポイントクラウド処理の手法の中最も良い性能が得られる.
  • KITTIデータセットにおいてSoTA.車・人・自転車を高い精度の検出できる.

コメント・リンク集

  • LiDARセンサーから有効的かつ高スピードで識別や検出する研究がまたまた研究の余地があると感じている.

  • 論文

[#103]
2018.7.5 11:52:56
Efficient Optimization for Rank-based Loss Functions
P. Mohapatra, M. Rolínek, C.V. Jawahar, V. Kolmogorov and M.P. Kumar
CVPR2018
Ryota Suzuki

概要

情報検索システムにおける精度は,平均精度(AP)や正規化減価累積利得(NDCG)のような複雑なランクベースロス関数で測られるが,このような関数の微分不可能性・分解不可能性は単純勾配最適化においては許されない.これの回避方法として,一般的には,構造化ヒンジロス上界の最適化をロス関数にする方法や,直接ロス最小化のような漸近的手法が使われる. それでも,loss-augmented inferenceの高い計算複雑性は残る.

本稿では,それを緩和する,新たなクイックソート・フレーバーな分割統治を導入したアルゴリズムを提案する.分解不可能ロス関数に適用可能である.

我々のアルゴリズムにも適用できるロス関数の特徴づけも提供する.これはAP,NDCGの両方を含む. 更に,我々の手法の計算複雑性の上では,漸近的に比較ベースアルゴリズムでは改善できないことを証明する.

あらゆるCVのタスクでの学習モデルでのAP,NDCGの構造化ヒンジロス上界の最適化の文脈において,我々の手法の効果をデモンストレーションする.

Figure1

新規性・結果・なぜ通ったか?

クイックソート的にランクを並べ替え・選択して,というのは面白いやり方に感じる.

コメント・リンク集

専門用語がわからないと読み下すのが難しいかもしれない.

[#104]
2018.7.3 11:34:08
Deep Learning of Graph Matching
A. Zanfir, C. Sminchisescu
CVPR2018
Ryota Suzuki

概要

グラフマッチングをDeepで扱えるようにしたという,大変汎用的な論文.

グラフマッチングにおける全パラメータのEnd-to-End学習を可能にした.これは深層特徴抽出階層により表現される.

モデルの異なる行列計算レイヤの定式化が肝である模様.勾配の一貫性ある効率的な伝播を行えるようにする, マッチング問題を解くにあたっての組み合わせ最適化レイヤと,特徴抽出階層を通じた, ロス関数からの完全なパイプラインを提案している.

Figure1

新規性・結果・なぜ通ったか?

グラフマッチングは,ノードとその間をつなぐエッジで構成されるグラフ(ノードの幾何学的位置は無意味)の等価性を検索するタスクで,コンピュータビジョンや機械学習のあらゆる方面で適用されるものである.これが深層学習で解けるようになれば,それは当然大きな進歩である. グラフマッチングを扱おうとする人の第一リファレンスになりえる論文と思われる.

キーポイント検出において試してみたところ,やはりSoTA性能.

コメント・リンク集

[#105]
2018.7.3 10:27:30
CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes
Yuhong Li, Xiaofan Zhang, Deming Chen
CVPR 2018

概要

混雑状況認識やカウンティング、密度推定のためのネットワークCongested Scene Recognition Network (CSRNet)を提案し、データドリブンで学習する。畳み込みによる特徴抽出とDilated Convにより広範領域から特徴を評価する(ここにおいてプーリング層を置き換えると記述され、純粋に畳み込みそうのみで構成されている)。図はDilated ConvとPoolingの有無によるヒートマップの比較。

180704CSRNet

新規性・結果・なぜ通ったか?

データセットはShanghaiTech, UCF_CC_50, WorldEXPO'10, UCSDを用いて検証した。特にShanghaiTechデータセットではMean Absolute Error (MAE)が47.3%も下がった。

コメント・リンク集

[#106]
2018.7.4 08:54:53
Stacked Latent Attention for Multimodal Reasoning
Haoqi Fan, Jiatong Zhou
CVPR 2018

概要

アテンションモデルの改善を行い、VQAに適用する。現在のアテンションに関する弱点は(1)中間層では対応関係といった理由づけに関する情報を除去してしまう(2)StackedAttentionでは局所最適解に陥ってしまうことを挙げた。本論文ではこの問題を解決するため、明示的に中間的な理由づけに関する構造を加えたStacked Latent Attention Modelを提案。マルチモーダルのReasoningに有効であることがわかり、VQAにおいても効果的な手法となった。

180704StackedLatentAttentionModel

新規性・結果・なぜ通ったか?

構造をスタックしてより良好なアテンションにしていくモデルを構築した。空間的な理由づけ(Reasoning)を潜在的に行うモデルであり、マルチモーダルであるVQAや画像説明文にも効果的である。

コメント・リンク集

アテンションは論文数増加していて、各方面に広がってきた。

[#107]
2018.7.4 08:35:08
CarFusion: Combining Point Tracking and Part Detection for Dynamic 3D Reconstruction of Vehicles
N Dinesh Reddy, Minh Vo and Srinivasa G. Narasimhan
CVPR2018
221

概要

カメラキャリブレーションされていない複数の視点から車の3次元データをパーツ単位で再構成しトラッキングも行うパイプライン「CarFusion」を提案.強いオクルージョンがある場合でも移動車両の検出,localize,再構成を行うことができる.構造化された点(検出された車両のパーツ)と構造化されていない特徴点(Harrisのコーナー検出)を融合して車の正確な再構成と検出を行う.複数視点からの車の再構成にはCar centric RANSAC(cRANSAC)を提案している.通常のRANSACと比較して,左右対称を前提として車の形状を考慮したマッチングを行う.

20180703_CarFusion1.jpg20180703_CarFusion2.jpg

新規性・結果・なぜ通ったか?

キャリブレーションされていない非同期のカメラからダイナミックに剛体を再構成するという,3D Vision分野で重要だが困難な研究を行った.In the wildでの高精度な検出としても新規性がある.cRANSACのみ用いた場合とCarFusion全体パイプラインを用いた場合で,トラッキングの誤差を4倍削減することができた.再構成時のキーポイント検出も従来手法より優れている.さらに,車の半分程度が隠れてしまう強いオクルージョンがある場合でも3D構成を検出することができた.

コメント・リンク集

車に特化した手法だが,いくつかの剛体に対しては似たアルゴリズムを用いることができそう.検証実験も詳細で一見の価値はある.

[#108]
2018.7.3 22:58:23
Human Semantic Parsing for Person Re-Identification
Mahdi M. Kalayeh, Emrah Basaran, Muhittin Gökmen, Mustafa E. Kamasak, Mubarak Shah
CVPR 2018

概要

人物に関して、主に姿勢に関するパーツベースのセマンティック情報を導入することにより人物再同定(Person Re-identification)の精度を向上させる。提案のSPReIDはInception-v3やResNet-152をベースアーキテクチャにしていて、各種データセットに対して向上が見られた。

180703PersonSemanticReID

新規性・結果・なぜ通ったか?

各種データセットにて次の通り向上した。セマンティック情報を人物再同定に使うのは有効であることが判明した。Market-1501 (参考文献48) by ∼17% in mAP、∼6% in rank-1, CUHK03 (参考文献24) by ∼4% in rank-1、DukeMTMC-reID (参考文献50) by∼24% in mAP ∼10% in rank-1。

コメント・リンク集

セマンティック情報を使えば想像通りよくなるが、実際にデータセットに対してアノテーションしてCVPRに通す根性がすごい!見習おう。

[#109]
2018.7.3 10:29:10
Monocular Relative Depth Perception With Web Stereo Data Supervision
Ke Xian, Chunhua Shen, Zhiguo Cao, Hao Lu, Yang Xiao, Ruibo Li, Zhenbo Luo
CVPR 2018

概要

Web画像により相対的なステレオ視に関するデータセットを作成した。RankingLossを改善した誤差関数によりデータセット内のステレオ視を学習、ペアリングが困難なものについての対応付けを行なった。作成したデータセットに対してState-of-the-artであるのみならず、他のピクセルベースの密な推定(距離推定、セマンティックセグメンテーション)についても有効性を示した。

180703RelativeDepthPerception

新規性・結果・なぜ通ったか?

Web画像により密なステレオ視を推定する枠組みを考案、Relative Depth from Web(ReDWeb)の概念を提唱。RankingLossの改善版によりペアリングが困難な対応付についても行った。DIW/NYUDv2データセットにて評価、State-of-the-artな性能を達成した。

コメント・リンク集

Web x StereoVisionという掛け合わせがよい。さらに、アノテーションの枠組みも参考になる。

[#110]
2018.7.3 01:52:59
Depth and Transient Imaging With Compressive SPAD Array Cameras
Qilin Sun, Xiong Dun, Yifan Peng, Wolfgang Heidrich
CVPR 2018

概要

イメージング技術において、Time-of-flight(ToF)やTransient Imagingに関する研究である。これらの技術は研究の関心に反して解像度が上がらず、低コスト化も進んでいない。本論文ではセンサの設計を変更し、Arrays of Single Photon Avalanche Diodes (SPADs)を改善することでこの問題に取り組む。DMDを用い、光学系をカスタマイズすることでSPADの解像度を800x400まで向上。時系列ヒストグラムを調整するモデルでは効果的にノイズ除去できることも示した。

180703DepthTransient

新規性・結果・なぜ通ったか?

右図は提案のイメージング技術であり、SPADsの高解像度化を実現した。

コメント・リンク集

[#111]
2018.7.3 01:19:46
GVCNN: Group-View Convolutional Neural Networks for 3D Shape Recognition
Yifan Feng, Zizhao Zhang, Xibin Zhao, Rongrong Ji, Yue Gao
CVPR 2018

概要

3次元形状認識のためにGroup-View Convolutional Neural Netowrk (GVCNN)を提案し、形状に関するビュー不変な内的かつ階層的な相関関係を記述する。識別性が高くなるようGroupingModuleによりビューポイントのグルーピングを行い、途中の層でViewPoolingやGroupFusionを行い、3次元形状認識を行う。右図はGVCNNのアーキテクチャである。

180703GVCNN

新規性・結果・なぜ通ったか?

ビューポイントに不変な認識を実施可能なEnd-to-Endな学習フレームワークであるGVCNNを提案した。MVCNNとの比較により有効性を示した。

コメント・リンク集

ビューポイントに不変は学習可能。

[#112]
2018.7.3 00:56:48
Deflecting Adversarial Attacks with Pixel Deflection
Aaditya Prakash et al.
CVPR 2018

概要

対象ピクセルを近傍のピクセルと入れ替えるPixel Deflectionを利用した敵対的摂動に対しての防御手法。NNは敵対的摂動ノイズに対しては弱いのに対し、ランダムノイズには強いという経験的な傾向から、敵対的摂動が加わっていないサンプルへの性能をできるだけ保持した状態でノイズを加えるためにPixel Deflection+ Wavelet Denoisingを行う。既存手法よりも良い防御性能を示した。

Deflecting_Adversarial_Attacks_with_Pixel_Deflection.png

詳細・なぜ通ったか?

Pixel Deflectionはある対象ピクセルをその近傍からランダムにサンプルされたピクセル値に置き換える。対象ピクセルを決める際には、正しい識別を行う際に重要となる領域以外からサンプリングする。具体的には敵対的摂動による影響が少ないsaliencyであるRobust CAMを定義し、そのsaliencyが低い領域からサンプル。この背景には敵対的摂動は画像に対して大域的に(物体に関係せず)現れる傾向があるので、できるだけ正しい識別に影響を与えない領域にPixel Deflectionを行いたいという考えがある。

コメント・リンク集

NNのパラメータに関する変更はせずに入力への変更を行うことで敵対的摂動の種類にかかわらず汎用的に防御できるという点が面白い。手法の裏付けとして敵対的摂動とランダムノイズの識別精度への影響比較も行っており、面白かった。

[#113]
OATM: Occlusion Aware Template Matching by Consensus Set Maximization
S. Korman, M. Milam and S. Soatto
CVPR2018
Ryota Suzuki

概要

本稿の手法により,60%のピクセルがノイズに侵されている(occluded)テンプレートでもマッチングできる.しかも結果の証明が可能.

N高次元ベクトルの最近傍探索をsqrt(N)次元ベクトルにおける2つのセットの間の最近傍探索 の変換を行う. これで探索効率が二乗でよくなる.

また,コンセンサスセット最大化(cf. RANSAC)による,ハッシング手法も提案.これにより,遮蔽を扱うことができる.

これらのスキームは,高い確率で最適解を得るのに求められるイタレーション数を考慮する,ランダム化仮説&テストアルゴリズムとみなすことができる.

Figure1

新規性・結果・なぜ通ったか?

SoTAなロバスト性・高速性・精度を達成.

コメント・リンク集

やはりエレガントさを求める勢力が台頭してきているように感じる.

[#114]
2018.7.2 18:18:37
Context Contrasted Feature and Gated Multi-scale Aggregation for Scene Segmentation
H. Ding, X. Jiang, B. Shuai, A.Q. Liu, G. Wang
CVPR2018
Ryota Suzuki

概要

セマンティックセグメンテーションにおいて,FCNの中に2つの機構を取り入れた.

  • Context Contrasted Local feature
    コンテキストを見るには広く見るべきだが,ローカルな特徴も実際必要なので, そういう構造のカーネルを採用したフィルタを定義.
  • Gated sum
    それぞれの場所におけるスケールごとに対応したスケールの特徴を選択的に集計.

Figure1

新規性・結果・なぜ通ったか?

3つのセマンティックセグメンテーションのデータベースでSoTA.

コメント・リンク集

[#115]
2018.7.2 17:44:27
Now You Shake Me: Towards Automatic 4D Cinema
Yuhao Zhou, Makarand Tapaswi, Sanja Fidler
CVPR2018
Kazuho Kito

概要

4D映画を自動で作成するための研究。63本の映画に9286のエフェクトのアノテーションをしたデータセットであるMOVIE4dを提案。エフェクトは、揺れ、天候、風、水しぶきなど。また、人の形のみでなく、視聴覚情報をまとめるニューラルネットワークとしてConditional Random Field modelを提案。

Now_You_Shake_Me_Towards_Automatic_4D_Cinema.PNG

新規性・結果・なぜ通ったか?

映画のスレッドだけでなく、クリップ内でのキャラクター間のエフェクトの相関関係を利用。

コメント・リンク集

[#116]
2018.6.23 02:05:00
Objects as context for detecting their semantic parts
Abel Gonzalez-Garcia, Davide Modolo and Vittorio Ferrari
CVPR2018
Kazuho Kito

概要

物体の情報に効果的な影響があるセマンティックパーツの検出アプローチを提案。どのパーツを予想するべきかという指標として、オブジェクトの見た目とクラスを用い、その見た目を基に物体の中でのそのパーツに期待される相対的な位置をモデル化。OffsetNetという新しいネットワークモジュールで所定の物体の中の一部の場所を効果的に予測することを達成。

Objects_as_context_for_detecting_their_semantic_parts_1.PNGObjects_as_context_for_detecting_their_semantic_parts_2.PNG

新規性・結果・なぜ通ったか?

the PASCAL-Part datasetにおいて+5mAPの改善。PASCAL-PartとCUB200-2011において他のパーツ検出手法より優れた成果を達成。

コメント・リンク集

[#117]
2018.6.23 01:42:55
Solving the Perspective-2-Point Problem for Flying-Camera Photo Composition
Ziquan Lan, David Hsu and Gim Hee Lee
CVPR2018

概要

ドローンのような飛行体にユーザーが指定した2つの被写体を含んだ画像を撮影させる手法の提案。ユーザーは希望の2つの被写体を指定し、それぞれどのように配置したいかを指定する。 ここでは、n=2の場合のPnP問題を考えることでドローンの撮影位置を決定する。 カメラの姿勢を求める6自由度の問題として考えるが、P2P問題は解が一意に定まらないので移動距離が最小となる撮影位置を解とする。 ワールド座標系とカメラ座標系間の直接の変換を考えるのではなく、2つの被写体がx軸上に配置される座標系を考えることで、計算を簡略化する。

Item3Image

新規性・結果・なぜ通ったか?

仮想環境によって実験を実施し、被写体の位置情報にノイズが含まれている場合でも頑健なことを確認した。実環境における実験は、SLAMにより得られた自己位置を使用して行ったが、推定誤差があるような場合においても高い精度で撮影位置を求めることに成功した。 撮影位置の最適化は、1つの物体を先に最適化した後にもう一方の物体の位置を調整するという実験結果が得られた。

コメント・リンク集

幾何学的な計算が中心である論文であり、数少ない機械学習が全く登場しない論文である。

[#118]
2018.7.2 01:32:33
3D Pose Estimation and 3D Model Retrieval for Objects in the Wild
Alexander Grabner et al.
CVPR 2018
Pavel A. Savkin

概要

RGB画像から6DOF姿勢推定+3Dモデル検索を同時に行えるようにする手法。厳密な中身は画像から6DOF姿勢するパートと、その姿勢とRGB画像情報から最適な3Dモデルを検索して見つけてくるパートに分けられる。三次元姿勢推定については既存手法からInspireされ、認識された物体を内包するProjected 3D Bounding Box(16 Parameters)及び3D Scale(3 Parameters)をResNetやVGGをベースとしたCNNで推定し、PnP問題を解いた。これによりモデル既知でないにもかかわらず、Pascal3D+データセットでState of the artな6DOF姿勢推定精度を実現。3Dモデル検索パートでは、RGB特徴量とDepthImage特徴量の取得を異なるのCNNで定義し、RGB特徴量、対応するDepth特徴量、間違ったDepth特徴量をそれぞれAnchor, Positive, Negativeと扱いTripletLossを計算することで学習。これによりRGB画像とDepth画像という全く異なるドメイン間での特徴量マッチングを実現し、テクスチャレスな3DモデルであったりRGB画像の照明環境不明であっても最適な3Dモデルの検索を行えるようになった。同カテゴリでは似たような形状のモデルが多数存在するにもかかわらず、画像に対する人間のAnnotationに対して約50%の精度での検索結果を実現した。

fukuhara-3D_Pose_Estimation_and_3D_Model_Retrieval_for_Objects_in_the_Wild.png

新規性・結果・なぜ通ったか?

Projected 3D Bounding Box を用いた6DOF 姿勢推定ではモデル既知でしか解けなかったところをモデル既知でState of the art、モデルなしでもCompatibleな結果を出した点。検索パートではハイコストな3D畳み込みや既知DepthImageを要することなくRGBとDepthImage間の共通記述特徴量の学習・その有効性を示した点。結果については姿勢推定においてはState of the art、検索においては人間のAnnotationに対して50%の精度を実現。6DOF姿勢の高精度推定と、RGB・Depth間の共通記述子を学習することにより画像から3Dモデル検索までを行うシステムを実現したことが通った理由と思われる。

コメント・リンク集

[#119]
2018.6.30 23:18:55
Neural Sign Language Translation
Necati Cihan Camgoz, Simon Hadfield, Oscar Koller, Hermann Ney and Richard Bowden
CVPR2018

概要

手話動画を言語に翻訳する手法を提案。手話の各フレーム及び文章中の各単語を表現する特徴ベクトルを取得し、RNNによりそれぞれのsequenceを取得する。 手話動画から得られるsequenceを文章のsequenceに変換することで翻訳を実現する。 その際、手話動画のフレーム数は文章中の単語数と比べて圧倒的に多いため対応付けが難しい。 そこで、Attentionを導入することで手話動画中の重要なフレームに対して重み付けを行う。

Item3Image

新規性・結果・なぜ通ったか?

従来のデータセットは機械学習に用いるには数が少ないため、手話動画、手話の単語、対応するドイツ語の文章を含んだRWTH-PHOENIX=Weather 2014Tというデータセットを提案した。従来の手話に関する研究は、Recognitionの問題として考えていたのに対して、Sequence間の変換と考えることにより文章を出力することを可能とした。

コメント・リンク集

[#120]
2018.6.30 21:07:35
4DFAB: A Large Scale 4D Facial Expression Database for Biometric Applications
Shiyang Cheng, Irene Kotsia, Maja Pantic and Stefanos Zafeiriou1
CVPR2018
Kazuho Kito

概要

180万枚以上の3Dのメッシュを含んだダイナミックで高解像度な3Dの顔のデータベースである4DFABを提案。このデータベースには、5年以上かけて異なる4つの期間で撮られた180のサブジェクトの記録を含んでいる。サブジェクトには、自然な表情とそうでない表情の両方の4Dビデオが含まれており、行動に関するバイオミメティクスだけでなく、顔と表情の認識に使うことができる。また、表情をパラメータ化させるためのパワフルなblendshapeを学習することに使うこともできる。

4DFAB.PNG

新規性・結果・なぜ通ったか?

自然な表情と笑顔,泣き笑い,混乱している表情などの自然でない表情が含まれている.

コメント・リンク集

[#121]
2018.6.20 19:36:05
Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning
D. Mascharka et al.,
CVPR 2018
Kensho Hara

概要

モデルの挙動を解釈しやすい,かつ高精度なVQAモデルの提案. Neural Module Networkは結果の解釈がしやすいが,複雑なタスクだと精度が落ちる. それを改善した手法はあるが,解釈性を犠牲にしている. ということで,性能と解釈性のGapを埋めよう,というモチベーション. Moduleに分解するのは従来と同じアイディアなものの, モジュール設計のデザインを工夫することで改善を図っている. なお,Transparencyは途中経過を可視化できるという意味で使っている.

新規性・結果・なぜ通ったか?

  • VQAのタスクにおいて解釈しやすいモデルでありながらSOTAを達成

コメント・リンク集

  • 論文
  • ざっと読んだだけだとなぜこの論文のモジュール構成が優れているのかわかりにくい
[#122]
2018.6.29 18:30:49
PoTion: Pose MoTion Representation for Action Recognition
V. Choutas et al.,
CVPR 2018
Kensho Hara

概要

行動認識のためのPoseベース特徴表現の提案. まず姿勢推定手法を適用して各Jointのヒートマップを計算. 各時刻のヒートマップを時間情報を色で表現してTemporal Aggregationすることで, 各動画でJointごとに1枚のヒートマップ表現を得る. これをチャンネルにスタッキングしたのがPoTionという提案特徴表現. PoTionをCNNに入力して識別するのが提案手法. 従来手法と組み合わせることで相補的に働き精度の向上が可能.

新規性・結果・なぜ通ったか?

  • Pose情報を利用した新しい特徴表現を提案
  • 時間情報を含めて画像1枚に落とせるので入力時間長に依存せずCNNで扱いやすい
  • 元々のSOTAのI3Dと組み合わせて更に高い精度を達成

コメント・リンク集

  • 論文
  • 姿勢推定がかなり良くできるようになってきた時代の手法という感じ
  • 色を使って時間情報をAggregationしてるのが面白い
[#123]
2018.6.29 18:10:57
Deep Learning under Privileged Information Using Heteroscedastic Dropout
John Lambert et al.
CVPR 2018

概要

テスト時に入力できる情報に対して、学習時にはより強い情報が使用できる場合にその+αの情報(特権情報)を学習時にうまく活用する研究。テスト時には特権情報が得られないので、特権情報に対して周辺化したものを出力とする方針をとるが、一般にその値を求めるのは難しい。そこで特権情報をGaussian Dropoutの分散の中に埋め込み学習することでテスト時に特別な計算をせずに周辺化することができる。画像認識・機械翻訳で実験し、学習サンプルが少ない状況下で特に効果を発揮する。

Deep_Learning_under_Privileged_Information_Using_Heteroscedastic_Dropout.png

詳細・なぜ通ったか?

Gaussian Dropout部分での逆伝搬ではVAEなどで用いられるreparameterization trickを利用している。画像認識においては特権情報として物体のbounding boxを与えている。SGDでのNNの最適化が理想的に完了する条件下でデータ効率が上がるという理論的な保証と、実験結果による精度向上が評価されたと考えられる。

コメント・リンク集

マルチタスクでの学習よりもしっかり良い結果となっていて興味ふかい。理論的保証はあるものの、Gaussian noiseが具体的にどのようなサンプルに対してどのように作用しているのかを確認する実験なども欲しかった。

[#124]
Motion-Guided Cascaded Refinement Network for Video Object Segmentation
Ping Hu, Gang Wang, Xiangfei Kong, Jason Kuen, Yap-Peng Tan
CVPR 2018

概要

通常、物体のモーションは背景(カメラ)モーションとは異なることを事前知識として動画に対する物体セグメンテーションを実行した。提案モデルであるCascaded Refinement Network(CRN)は最初にオプティカルフローにより荒くセグメントしてから高解像なセグメンテーションをCNNにより実施する(ここらへんがMotion-Guidedと呼ばれる理由)。CRN構造に対してSingle-channel Residual Attention Moduleも提案して学習/推論時間を効率化。

180629MotionGuidedCRN

新規性・結果・なぜ通ったか?

疎密探索の枠組みを採用しており、まずはオプティカルフローを抽出、Active Contourにより荒くセグメント。次にCRNによりセグメンテーションを実施した。動画に対して84.4%@mIOU, 0.73 sec/frame(semi-supervision)を達成した。

コメント・リンク集

Old-fashionな手法を組み合わせて弱教師にする方法を提案。また、DAVISは少量教師や教師なしが当たり前のように出てくる。コンペで教師なしを用いる設定はうまいと思った。

[#125]
2018.6.29 07:51:28
Multi-Content GAN for Few-Shot Font Style Transfer
Samaneh Azadi et al.
CVPR 2018

概要

26のアルファベットのうちfewな種類しかデータがない状況で、そのフォントで書かれた他種類のアルファベットを生成する研究。アルファベットの形状をグレースケールで生成するGlyph Netとそれらにカラーで装飾を行うOrnamentation Netの二つからなる。単純にpix2pixのようにsingle-shotな構造で生成するよりも形状生成と装飾を多段に行う方がはるかに実際に近いアルファベットが生成できた。

Multi_Content_GAN_for_Few_Shot_Font_Style_Transfer.png

詳細・なぜ通ったか?

Glyph Netではチャネル方向に配列されたアルファベットを入力する。ないアルファベットは0埋めし、敵対的損失を用いて26×H×Wのグレースケールアルファベットを生成する。 Glyph Netはデータベースのあらゆるフォントサンプルに対して同一のモデルを学習する。 Ornamentation Netは上記のグレースケール画像に対し正解サンプルに近づくよう敵対的損失とMSEによって学習。ここで、正解はfewな種類しかないためそれらにのみ損失を計算。 Ornamentation Netはフォントごとに逐一異なるモデルを学習する。問題設定の面白さ、実際の完成度の高さが評価されたと考えられる。

コメント・リンク集

画像生成において今回の「形状」と「色(装飾)」のように相関が薄いと考えられるものに関しては多段に生成を行った方が良い結果が得られるのだろうと考えられた。

[#126]
Self-Supervised Feature Learning by Learning to Spot Artifacts
Simon Jenni et al.
CVPR 2018
Tomoyuki Suzuki

概要

画像情報の欠損を検出することによる表現獲得手法。encoder-decoder modelの特徴マップ上の領域をランダムに欠損させて、decodeされた画像が欠損されたものがどうかを識別する。

Self_Supervised_Feature_Learning_by_Learning_to_Spot_Artifacts.png

詳細・なぜ通ったか?

学習はdecoder内の補完レイヤーと識別器間で敵対的に行う。識別器は欠損された部分を示すマスクも出力する。encoder-decoderモデルをreal/fake問わず最初にかませる理由としては、CNNに入力することによるartifactによって識別器が判断しないようにするため、 また高次な特徴マップ上での欠損を行うことで高次な情報が欠損した画像の生成を行うためである。SoTAに近い精度が出ていることが評価されたと考えられる。

コメント・リンク集

生成された画像を見る限り高次な情報が欠損しているかどうかがよく分からない。また、pretrainを終了するタイミングを含め全体的に学習が難しそうであると感じた。

[#127]
Weakly-Supervised Semantic Segmentation by Iteratively Mining Common Object Features
Xiang Wang, Shaodi You, Xi Li, Huimin Ma
CVPR 2018

概要

弱教師付き学習に対してボトムアップ(物体レベルで似ている特徴量をマイニング)とトップダウン(リファインされた領域をセグメンテーションの教師として学習)のアプローチを組み合わせる手法を考案。右図の(1)RegionNetによる出力/リファイン結果とPixelNetによる出力との比較によりセグメンテーションの誤差を比較、(2)PixelNetによ出力とマイニングした物体マスクと(Class Activation Mappingにより領域抽出された)RegionNetの出力を比較して領域に対する識別の誤差を計算する。

180623WSSegmentMining

新規性・結果・なぜ通ったか?

識別ベースによる物体領域抽出とセグメンテーションの誤差を繰り返し最適化することにより弱教師付きセマンティックセグメンテーションを実行する。SuperPixelの導入、類似物体マイニング、領域のリファインなどが徐々にセグメンテーション結果をよくしていく。

コメント・リンク集

弱教師付き学習はうまくいくときとうまくいかない時がありそう?なんどもやればランダムで良い結果が得られる?

[#128]
2018.6.23 22:07:14
MAttNet: Modular Attention Network for Referring Expression Comprehension
Licheng Yu, Zhe Lin, Xiaohui Shen, Jimei Yang, Xin Lu, Mohit Bansal, Tamara L. Berg
CVPR 2018

概要

言語の入力から画像中の領域を指定するネットワークModular Attention Network (MAttNet)を提案する。本論文では2種類のアテンション(言語ベースのアテンションと視覚ベースのアテンション)を導入した。言語ベースのアテンションではどこに着目して良いかを学習、視覚ベースのアテンションではサブジェクトとその関係性を記述することができる。それぞれのスコアは統合され、最終的には文章を入力すると対応する領域がbboxの形式で出力される。右図はMAttNetの枠組みを示す。文章の入力から言語ベースのアテンションによりワードが厳選され、画像中から探索される。画像ではSubject-/Location-/Relationship-Moduleが働き、最後は統合して総合的に判断、画像中の物体相互関係を考慮した検出が可能になった。

180623MAttNet

新規性・結果・なぜ通ったか?

従来の枠組みと比較して、提案手法は(bboxレベルでもpixelレベルでも)高い精度を達成。

コメント・リンク集

Language and Visionの一例。最近はやっている。

[#129]
2018.6.23 21:37:17
HashGAN: Deep Learning to Hash with Pair Conditional Wasserstein GAN
Yue Cao, Bin Liu, Mingsheng Long, Jianmin Wang
CVPR 2018

概要

Wasserstein GAN (WGAN)の枠組みでハッシング技術を行うHashGANを実装する。主となるアイディアはハッシングのためのデータ拡張を行うためにGANの枠組みを導入。通常は画像生成のみに用いられる仕組み自体を、データバリエーションの拡張のために用いて識別器を強くする。さらに、画像ペアの類似度を計測しながら画像生成を行う枠組みであるPair Conditional WGAN(PC-WGAN)を提案した。図はPC-WGANのアーキテクチャを示し、主に2つの構造から構成される。ひとつは画像生成部Gと識別部Dであり、ランダムノイズuと類似特徴vの連結から画像を生成してリアルな画像を生成。もうひとつはベイジアン学習によりコンパクトなバイナリハッシュを生成するハッシュエンコーダFである。

180623HashGAN

新規性・結果・なぜ通ったか?

GANの枠組みにより高品質なバイナリコードを生成。生成器Gと識別器DのみならずハッシュエンコーダFを同時に学習する枠組みを考案。NUS-WIDE/CIFAR-10/MS-COCOにおいてSoTA。

コメント・リンク集

戦いの中で強くなるGAN、ですね。

[#130]
2018.6.23 21:20:15
Clinical Skin Lesion Diagnosis using Representations Inspired by Dermatologist Criteria
Jufeng Yang, Xiaoxiao Sun, Jie Liang, Paul L. Rosin
CVPR 2018

概要

肌疾患(Sin Disease)の診断を医師が行いながら、同時にデータ/モデルをIterativeに蓄積・構築する枠組みを考案。従来はComputer Aided Diagnosis(CAD)が肌疾患を判断するために役立ってきたが、2次元画像による判断は(ほぼ)行われていなかった。本論文ではデータの蓄積を行うと同時に、医師の判断材料をベースにした表現方法を学習することで、診断するモデルを構築する。診断の特徴としては、テクスチャの分布(複数箇所に渡り対称性が見られる領域が存在するかどうか)や色の表現(ここでは参考文献39,40のColorNameを適用)、形状を用いる。

180623ClinicalSkinLesionDiagnosis

新規性・結果・なぜ通ったか?

医師による診察の目を実装したこと、データを繰り返し実装する枠組みを構築できたことが分野(特に医用画像処理)に貢献した。

コメント・リンク集

この枠組みはうまいと思う。さらにお医者さんと連携してデータ収集/アルゴリズム強化の枠組みが整えば、より病気を判断するための手助けをする技術が発達する。

[#131]
2018.6.23 21:00:26
Deep Cauchy Hashing for Hamming Space Retrieval
Yue Cao, Mingsheng Long, Bin Liu, Jianmin Wang
CVPR 2018

概要

効率的かつ効果的なDeep Hash ModelであるDeep Cauchy Hashing(DCH)を提案する。主たるアイディアはCauchy分布によるPairwise Cross-Entropy Lossを提案することであり、類似する画像に対してHamming距離により誤差の重み付けを行う。図はDCHの構造を示しており、畳み込みにより表現を学習、全結合を通り抜けFully-Connected Hash Layer(FCH)によりK-bitのハッシュコードを生成、Cauchy Cross-Entropyにより類似度により誤差を計算して誤差を伝播させる。

180623DeepCauchyHashing

新規性・結果・なぜ通ったか?

画像検索において3種のデータ(NUS-WIDE/CIFAR-10/MS-COCO)に対してSoTA。

コメント・リンク集

Deep Hashingの研究、データセットをより大きくしてハード面での実装も含めて評価する枠組みが必要?Hashingなので、FCC100Mのように1億枚くらいの画像検索をやってほしい(し、日本でも取り組んでいる人はいる)。

[#132]
2018.6.23 17:49:41
Blazingly Fast Video Object Segmentation with Pixel-Wise Metric Learning
Yuhua Chen, Jordi Pont-Tuset, Alberto Montes, Luc Van Gool
CVPR 2018

概要

ユーザインタラクティブに動画セマンティックセグメンテーションのための距離学習(Metric Learning)を行い、特徴空間を最適化する。入力画像から任意のモデルに対してセグメンテーションを実施、ユーザが良いと判断したセグメント領域を正解値として特徴空間を設定、一方でテスト(バリデーション?)画像を参照して動画セマンティックセグメンテーションを実行して学習する。

180623PixelWiseMetricLearning

新規性・結果・なぜ通ったか?

ユーザインタラクティブというところが良い。セグメンテーションに対するアノテーションはコストがかかる(かかりすぎる)が、これをコンピュータによる推論と、ユーザのクリックのみにして特徴空間を学習していく方がコストが最小化される。精度も出るのでCVPRにアクセプトされている。

コメント・リンク集

セマンティックセグメンテーションに対するアノテーションは一枚あたり$10~12であると言われる。アノテーションコストを下げる方向に研究は進んでいて、特に動画セマンティックセグメンテーションは低コスト/弱教師学習/ドメイン変換等により進められると考えられる。

[#133]
2018.6.23 17:26:13
Mask-guided Contrastive Attention Model for Person Re-Identification
Chunfeng Song, Yan Huang, Wanli Ouyang, Liang Wang
CVPR 2018

概要

人物再同定のための特徴表現学習のためにTriplet学習を行う。オリジナルの全体画像(Anchor Image)、マスクされた人物領域(Positive Image)と背景領域(Negative Image)を用いて学習する。ここで、Triplet学習ではAnchor/Positiveをできる限り近く、Anchor/Negativeをできる限り遠くの特徴空間に置くことでよりよく対象となる物体を見ることができ、良好な特徴量を生成することができる。

180623MaskguidedContrastiveAttention

新規性・結果・なぜ通ったか?

前景/背景を別々に学習し、背景ではなくできる限り前景に対してアテンションを置いて識別することで、人物再同定において良好な精度での識別を確認した。前景抽出のマスク画像に関するアノテーション(Mars/Market-1501/CUHK03)も公開することで、人物再同定の分野に貢献する。

コメント・リンク集

マスクを全部作成した、ということで膨大な労力がかかっている研究。

[#134]
2018.6.23 17:04:57
Video Person Re-identification with Competitive Snippet-similarity Aggregation and Co-attentive Snippet Embedding
Dapeng Chen, Hongsheng Li, Tong Xiao, Shuai Yi, Xiaogang Wang
CVPR 2018

概要

適切な長さの動画分割(Video Snippet; ビデオスニペット)とCo-Attention機構による人物再同定の研究である。動画からの人物再同定では長いフレーム長をそのまま入力するよりもスニペットに分割して、さらには分割動画間のCo-Attentionに着目することで特徴表現を学習する方が認識に有利であることを実証した。スニペット間で類似度が計算され、ランク付が行われる。

180623SnippetSimilarityCoAttention

新規性・結果・なぜ通ったか?

動画スニペットごとに類似度を計算し、それぞれに対してCo-Attentionを求めて特徴量を学習する方法で複数のデータセットにてSoTA。iLIDS-VIDにてTOP1が85.4、TOP5が96.7(上位に正解が含まれているかどうかであり、TOP5は5人中1人が正解であればよい)であり強い手法が構築できた。PRID2011においてもそれぞれ93.0/99.3、Marsにおいても86.3/94.7である。

コメント・リンク集

人物再同定は数年前までTOP5(〜TOP20)が高い精度であれば許される時代だったがTOP5で95+%(驚くべきは99%も出ているデータセットがあるということ)という数値である。中国の事情もあり、その解決のためにSenseTimeがその役を買っているというわけである。今後はさらなるデータ作成と社会実装の推進が進むと思われる。SenseTime/CUHKの連携ラボの枠組みも整った(CUHK-SenseTime Joint Lab.と著者リストにある)ことで、さらに研究が大規模に進められる。

[#135]
2018.6.23 16:51:25
Recognizing Human Actions as the Evolution of Pose Estimation Maps
Mengyuan Liu, Junsong Yuan
CVPR 2018

概要

動画に対する姿勢+ヒートマップからの行動認識を解く問題である。通常、動画中の姿勢推定は不安定なものであるが、動画内での平均化や連続する姿勢、ヒートマップから補完的に改善して行動を認識する枠組みを提案。ヒートマップのスパース性を考慮、Spatial Rank Poolingを実装してEvolutionImageを作成しヒートマップや姿勢の変動に対応できるようにした。この枠組みはNTU RGBD/UTD-MHAD/PennActionに対して有効であることを示した。

180623EvolutionPoseMap

新規性・結果・なぜ通ったか?

不安定な姿勢変動に対応するためにSpatial Rank Poolingを実装した。位置づけ的にはDynamicImage/VideoDarwinがTwo-Stream ConvNetsに対する改善なのに対して本論文は姿勢に対してこれらの枠組みを試行。この枠組みを用いてNTU RGBD/UTD-MHAD/PennActionに対してSoTA。

コメント・リンク集

直感的に言うと、テスト動画に対する中間特徴(中間値)みたいのを作成して、外れ値を防ぐことで精度向上?

[#136]
2018.6.23 16:25:14
Video Representation Learning Using Discriminative Pooling
Jue Wang, Anoop Cherian, Fatih Porikli, Stephen Gould
CVPR 2018

概要

行動認識における特徴は独立ではなく、動画を通して共通する部分が多い。これら共通特徴を捉えるためのプーリング(Pooling)手法を確立すると共に特徴表現を学習する。戦略としてはMultiple Instance Learning(MIL)により未知だが識別性に優れた非線形の識別境界(Hyperplane)を求めるようにPooling自体をDNNの中で学習する。右図は従来法のDynamicImages(参考文献2; 図中(iii))と提案手法であるSVM Pooling(図中(iv))の比較である。SVM Poolingは動画像全体の動きを捉える特徴量が抽出しやすくなり、精度向上に寄与した。識別決定境界を学習、動画レベルの識別を最適化することから、SVM Poolingと呼ぶ。

180623DiscriminativePooling

新規性・結果・なぜ通ったか?

3種類の公開データセット(HMDB51/Charades/NTU-RGBD)にてSoTA。

コメント・リンク集

Pooling/Conv自体のパラメータを固定ではなく、学習可能にしてしまう、というアイディアは多くなってきた。構造自体を学習するNAS(Neural Architecture Search)なんかにも使うことでさらなる精度向上ができないか?

[#137]
2018.6.23 16:05:37
SGPN: Similarity Group Proposal Network for 3D Point Cloud Instance Segmentation
Weiyue Wang, Ronald Yu, Qiangui Huang, Ulrich Neumann
CVPR 2018
335
Yue Qiu

概要

  • ポイントクラウドを対象としたインスタンスセグメンテーションネットワークSGPNを提案した.
  • SGPNが入力されたポイントクラウドに対してまずpointnet++などを用いて特徴抽出を行い,抽出特徴に対し類似性を評価することによってグルーピングを行う.グルーピングと同時にセマンティックを予測する.グループの結果をインスタンスセグメンテーションに用いる

SGPN

新規性・結果・なぜ通ったか?

  • 初めてのポイントクラウドに対しインスタンスセグメンテーションを行うネットワークの提案と指摘した.
  • SGPNがflexibleに2D CNN特徴を導入でき,これによって更なる良い性能を得られる.
  • 3次元Shape及び実三次元シーンのセグメンテーション用データセットShapeNetとStanford Indoor Semantic Dataset及びNYUV2においてSoTAなインスタンスセグメンテーション結果を得られた.

コメント・リンク集

  • ネットワークの説明が簡潔で,結果も良いのでつかってみたい

  • 論文

[#138]
2018.6.26 13:56:20
Recurrent Slice Networks for 3D Segmentation of Point Clouds
Qiangui Huang, Weiyue Wang, Ulrich Neumann
CVPR 2018
341
Yue Qiu

概要

  • 有効的にポイントクラウドの局所的構造をモデリングできるポイントクラウドを直接処理する3D セグメンテーションフレームワークRSNetを提案した.
  • RSNetは主に3つの部分から構成され:①slice pooling layerが入力ポイントクラウドをslicesスにグループし, sliceごとにポイントの特徴をaggregateすることによりグローバル特徴を抽出する②RNNsにより特徴を抽出する③slide unpooling layerにより抽出特徴をポイントに戻す.

RecurrentSliceNetworks

新規性・結果・なぜ通ったか?

  • S3DIS, ScanNet, ShapeNetの3つのデータセットにおいて最も高いセグメンテーション精度を達成した.
  • RSNetは従来の3DCNNと比べ精度が高いほか,時間とメモリー消耗がより少ない.

コメント・リンク集

  • RNN構造をポイントクラウドの情報抽出に用いるのが良い精度を達成した原因だと思う

  • 論文

  • コード

[#139]
2018.6.26 13:51:24
3D Object Detection with Latent Support Surfaces
Zhile Ren, Erik Sudderth
CVPR 2018
121
Yue Qiu

概要

  • 点群密度,3次元法線方向ヒストグラム,COG特徴などの3つの特徴に基づいた3次元検出手法の提案.
  • RGB-D画像にoriented cuboidsをアラインして,更にcanonical座標フレームに変換する.ボクセルごとに点群密度特徴,3次元法線方向ヒストグラム及びCOG特徴(Latent Support Surfaces特徴)を抽出し,SVMにより識別及びバウンディングボクスの検出を行う.提案するCOG特徴は555ボクセルでボクセルごとに主要法線方向の表示をベースとしたdescriptor.

3D-detection-latentsupportsurfaces

新規性・結果・なぜ通ったか?

  • 従来の3次元検出手法は局所的形状及び表現から物体カテゴリを決定し,異なる視覚スタイル・スケールの物体を検出するロバスト性が低い.提案手法は異なるスケールの物体検出を行える.特に小さい物体の検出が従来より強い.
  • SUN RGB-D DatasetにおいてSOTAな精度を達成.

コメント・リンク集

[#140]
2018.6.26 13:46:17
Learning 3D Shape Completion From Laser Scan Data With Weak Supervision
David Stutz, Andreas Geiger
CVPR 2018
226
Yue Qiu

概要

  • 弱監督なラーニングベースな3次元形状補完手法を提案した.3次元CGモデルデータにより形状priorを学習し,形状予測学習に対しmaximum likelihoodロスを用いて弱監督学習を行う.
  • 具体的に,2段階で学習を行う.段階①で三次元CGモデルによりfull監督でリコンストラクションロスを用いてauto-encoder(VAE)をトレーニングし,段階②では欠損した実三次元モデルからencoderを行い,段階①で学習済みのdecoderにより形状補完を行い,復元した形状と入力形状間のmaximum likelihood lossにより学習を行う.

3DshapeCompletion-laser-weak

新規性・結果・なぜ通ったか?

  • Data-driven型な3次元形状補完手法と比べ,実行時間が短く,full supervised的な手法と比べリアルデータに対し監督信号がなくても行える.
  • ShapeNet, ModelNetにおいてData-driven型な手法と同レベルな精度.

コメント・リンク集

  • 弱監督・無監督がホットスポット.

  • 論文

[#141]
2018.6.26 13:40:50
SurfConv: Bridging 3D and 2D Convolution for RGBD Images
Hang Chu, Wei-Chiu Ma, Kaustav Kundu, Raquel Urtasun, Sanja Fidler
CVPR 2018
378
Yue Qiu

概要

  • 3次元サーフェスに沿って,2次元畳み込みフィルタリング処理を行う新たな畳み込み処理方法SurfConvを提案した.
  • 従来の2次元畳み込み操作は空間スケールの変化に弱い,3次元畳み込み操作はデータのスパース性により効率が良くないなどの問題点から,3次元空間中のサーフェスに沿って畳み処理を行う手法を提案した.提案するdepth-guided畳み込み操作は,デプス値によりreceptive fieldのサイズをコントロールし, receptive fieldごとの幾何情報をHHAにより表示する.

SurfConv

新規性・結果・なぜ通ったか?

  • SurfConvを用いて連続なデプス情報を離散的に取り扱い,一つのreceptive field内でx,yはfull解像度で同時にzの解像度は従来の3次元畳み込みより低いので効率が良い.
  • 従来の3DCNN手法と比べ良い精度を得られるほか,モデルのサイズが小さい.
  • KITTI,NYUv2データセットにおいてSOTAな精度を達成した

コメント・リンク集

  • 考え方が新しい

  • 調整する必要があるhyper parameterが多いので,訓練しにくいかもしれない

  • 論文

  • コード

[#142]
2018.6.26 13:34:49
Unsupervised Learning of Monocular Depth Estimation and Visual Odometry with Deep Feature Reconstruction
Huangying Zhan, Ravi Garg, Chamara Weerasekera, Kejie Li, Harsh Agarwal, Ian Reid
CVPR 2018
60
Yue Qiu

概要

  • デプス推定及びビジュアルodometryを同時に行える無監督学習フレームワークの提案.
  • デプス推定及びodometry推定の結果をそれぞれ互いにwarpingし比較することをベースとしたimageリコンストラクション及びfeatureリコンストラクションロスを提案し,従来の従来のphotometricベースなロス関数と比べ良い精度を得られた.またデプス推定及びodometry推定をwarping,比較することにより,自己監督を得て,監督データなしで学習を行える

unsupervised-depthvo

新規性・結果・なぜ通ったか?

  • デプス推定及びvisual odometryを同時に行う方が良い精度を得られると宣言した.
  • KITTIデータセットにおいて,デプス推定及びvisual odometryがトップ1の精度を達成した.

コメント・リンク集

  • 2017年及び2018年のCVPRでの左右視,自己監督などを用いたデプス推定の手法が多い

  • 論文

  • コード

[#143]
2018.6.26 13:23:06
Divide and Grow: Capturing Huge Diversity in Crowd Images with Incrementally Growing CNN
Deepak Babu Sam, Neeraj N Sajjan, R. Venkatesh Babu, Mukundhan Srinivasan
CVPR 2018
Shusuke Shigenaka

概要

訓練データの複雑さに基づいてモデル容量を反復的に拡張するIG-CNNの提案。CNNは個人の検出だけでなく群衆の特徴を学び群衆密度マップを生成することができる。 しかし、多くのデータセットは群衆が一様ではないため疎の画像を高密度と予測してしまう。 提案したIG-CNNは、データセット全体で訓練されたベースのCNN密度回帰分析から始まり、 訓練データに応じて階層的なCNNツリーを作成していくことで細かく分類していくことである。 提案手法は群衆データセットで高いカウント精度を達成している。

Divide_and_Grow_Capturing_Huge_Diversity_in_Crowd_Images_with_Incrementally_Growing_CNN_1Divide_and_Grow_Capturing_Huge_Diversity_in_Crowd_Images_with_Incrementally_Growing_CNN_2

新規性・結果・なぜ通ったか?

  • CNNを階層的に成長させるモデルであるが、手動で指定された基準なしに作成することができる
  • 階層を作った後はIG-CNNを廃棄させ、CNNツリーのリーフノードのネットワークだけで選択が可能になる
  • UCF-CC_50とWorldExpo'10のデータセットにおいて高い精度を誇る

コメント・リンク集

群衆のデータセットは通常高密度のデータばかりに目を向けがちだが、疎なデータに目を向けているのが良いと思った。

[#144]
2018.6.26 11:39:43
Trapping Light for Time of Flight
R. Xu, M. Gupta, S.K. Nayar
CVPR2018
Ryota Suzuki

概要

一回のスキャンだけで,かなり複雑な形状の物体を全周囲計測し,復元する3D復元システムの提案.

Light trapと名付けた,Time-of-Flight(ToF)式3Dスキャナの光を反射しまくる鏡部屋を使うのがキーアイデア.Trapの形状を入射光が複数回trapの中で跳ね返るように選択することで, 対象物体に対し,あらゆる位置・あらゆる方向から複数回数光が注ぐことになる. ToFセンサはそれぞれの光の移動距離を入手でき,Trapの形状は既知(予め計測しておく)なので, 全ての完全なパスが再現可能である. そのためのアルゴリズムを提案する.

通常すごく遮蔽する,球格子をかなり複雑な形状物体の例としたときに,シミュレーションによって99.9%の表面に光を当てられることを示す. また,ハードウェアプロトタイプを実装し, 様々な物体の大きさ,反射特性の物体に対し試してみた.

Figure1
Figure2
Figure3

新規性・結果・なぜ通ったか?

この手のシステムは反射屈折式(Catadioptric)で通っているようだが,問題となるのは一貫性,ラベリング問題(どの受容光が発射光だったのか)を解決しなければならないという困難さがある.

このシステムでは,ToF(パスの長さが分かる)を使っているので,ラベリング問題を解く必要がない.

コメント・リンク集

  • カオス感(パイ捏ね変換).カオスは複雑さと単純さを仲立ちできる点が面白いので,問題を簡単にするのに使えるという好例の一つに感じる.DNNも複雑ネットワークという点では同様である.
  • 物体形状の周期性などの条件がたまたま合ってしまうと,全然見えなくなる可能性はないだろうか.
  • システムとして工夫している点が複数あり,制約もあるので,各々論文を確認いただきたい.
[#145]
2018.6.26 11:26:50
Separating Style and Content for Generalized Style Transfer
Yexun Zhang, Ya Zhang, Wenbin Cai
CVPR2018

概要

StyleとContent、それぞれを抽出するEncoderにより得られた特徴を結合することによりStyle Transferを実現するEMDモデルを提案。学習の際、Style Encoderの学習にはStyleが一緒だがContentが違う画像を、Content Encoderの学習にはContentが一緒だがStyleが異なる画像のセットを用いて学習する。

Item3Image

新規性・結果・なぜ通ったか?

Styleとして漢字のフォント、Contentとして漢字の種類を考え検証を行った。Style及びContentのセットは、枚数が多いほど精度がよくなるが増えていくと飽和して変わらなくなる。 ベースラインと比べるときれいな文字が生成されている。

コメント・リンク集

Style Transferの一般化と書いてある割に、漢字という一部の地域でしか用いられていない文字でしか実験がされておらず他の対象に適用可能であるかが不明。(ロスの設計も漢字を前提とした重み付けがされている)そもそも学習画像のセットにStyleとContentが一緒であるという仮定が必要であり、これらが明らかであるという理由で漢字で実験したとあるように、漢字以外でやる場合StyleとContentとは何かを考えなければならない。

[#146]
2018.6.25 14:11:55
Learning Globally Optimized Object Detector via Policy Gradient
Yongming Rao et al.
CVPR 2018
Yoshihiro Fukuhara

概要

強化学習(Policy Gradient)を応用して大域最適化された物体検出器の学習を行う end-to-end なフレームワークの提案. 既存の物体検出器の学習に RoI 間の相互関係が用いられていないことに着目し, 検出された物体の mAP の総和を最大にする様な学習を行うために強化学習を用いている. 提案手法はネットワークの構造には依存しないので既存の多くの手法に適用が可能. 評価実験では, COCO-style mPA で Faster R-CNN を 2.0%, Faster R-CNN with Feature Pyramid Networks を 1.8% 向上させた.

fukuhara-Learning-Globally-Optimized-Object-Detector-via-Policy-Gradient.png

新規性・結果・なぜ通ったか?

  • 強化学習を応用して大域最適化された物体検出器の学習を行う end-to-end なフレームワークの提案(厳密には強化学習では無い)
  • 検出された物体の mAP の総和を最大にする様に学習するため, 大域最適化が可能 (既存手法は multi-task loss で個々を独立して学習)
  • 提案手法はネットワークの構造には依存しないので既存の手法に適用が可能(汎用性). 計算のオーバーヘッドも無い(高速). 通常の Cross-Entropy Gradient に簡単な修正を加えるだけで適用可能(単純)
  • 強化学習の reward は mAP の総和を使用, action は Bounding Box の選択
  • action が膨大になってしまうのを防ぐため, 物体のカテゴリーは既存の手法で適当に選択されていると仮定(学習済みのモデルに追加で学習), それでも action が膨大なので, 強化学習の各イテレーションでサンプリングをして行動を決定
  • 評価実験では, COCO minival set において COCO-style mPA で評価して, Faster R-CNN を 2.0%, Faster R-CNN with Feature Pyramid Networks を 1.8% 向上

コメント・リンク集

  • [論文] Learning Globally Optimized Object Detector via Policy Gradient
  • 強化学習の手法をCVのタスクに応用した例. 既存手法に提案手法を上乗せすることで精度を向上させているところが上手い.(強化学習の際の action の数が多くなり過ぎてしまう問題も, 事前学習済みの検出器に追加で学習を行うことで回避している.)
  • Policy Gradient の式を上手く Cross-Entropy Loss の特殊な場合となる様に変形することで"単純"で効果的な手法となっている.
[#147]
2018.6.23 20:33:55
Through-Wall Human Pose Estimation Using Radio Signals
Mingmin Zha,et al
CVPR2018
Masaki Miyamoto

概要

この研究では,壁や閉塞空間を通した正確な人間の姿勢推定を説明している.これはWiFiの電波が,壁を通り抜け人体に反射する現象を利用している.このとき,人間は無線信号に対してアノテーションを行うことができないため,最先端のビジョンモデルを用いる.具体的には,訓練中に同期された無線信号と視覚情報を用いてビジュアルストリームから姿勢情報を抽出し、それを使用して訓練プロセスを誘導する.いったん訓練されると,このシステムは姿勢推定のために無線信号のみを使用する.人が視認できる状態でテストすると、信号ベースのシステムは、それを訓練するために使用された視覚情報ベースのシステムとほぼ同じ精度であることがわかる.

Through-Wall_pose.PNG

新規性・結果・なぜ通ったか?

コンピュータビジョンにおいてはキーポイントから姿勢を推定する際にこれまでのカメラなどのセンサから情報を得るのではなく,高周波信号を用いている.モデリング面においては教師 - 学生ネットワークを用いている.そのため,このネットワークは具体的な信頼できるキーポイントのマップに関するより豊かな知識を伝達する.ワイヤレス面においては,時間の異なる時点で検出された複数の身体部分を費えることによって、壁の後ろの姿勢の不鮮明な説明を作成するRF-Captureと呼ばれるシステムとなっている.

コメント・リンク集

  • 論文
  • デモ動画
  • [#148]
    2018.6.23 16:41:59
    DiverseNet: When One Right Answer is not Enough
    Michael Firman et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    教師あり学習において, test 時に同じ入力から異なる結果を出力可能にする Loss と学習方法 (DiverseNet) を提案. 提案手法はあらゆる教師あり学習の手法に対して適用が可能であり, 提案された Loss は GAN などで報告されている mode-collapse を起こしにくい. 複数のタスクに対して評価実験を行い有効性を確認した.

    fukuhara-DiverseNet-When-One-Right-Answer-is-not-Enough.png

    新規性・結果・なぜ通ったか?

    • 学習の画像と一緒に制御変数(整数)を入力する, 制御変数を変更することで test 時に同じ画像から異なる結果を得られる
    • 複数の正解ラベルについて Loss の和をとると mode-collapse を起こしやすいため, 提案された Loss では各ラベルについてそれぞれ Loss を計算し, 最小の値を取ったものを Loss として使用  
    • 提案手法はあらゆる教師あり学習の手法に対して適用が可能. また, 正解ラベルが1つしか無いタスクにおいても, 最もらしい結果を複数生成可能
    • 評価実験では提案手法を 2D image completion, 3D volume estimation, flow prediction などの複数のタスクにおける手法に適用し, 特に小さなネットワークのモデルに対して良い結果となった
    [#149]
    2018.5.17 12:19:55
    Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification
    Kiang Long et al.
    CVPR2018
    1711.09550
    TakumuIkeya

    概要

    • 動画のクラス分類タスクにおいて時系列の情報,特に長期間のパターンは必要な情報ではないことを示し,純粋にattentionに基づいた局所特徴の統合フレームワークを提案をした研究である.
    • 提案したフレームワークを用いて動画分類タスクを実行することで評価した.

    Attension_Clusters.PNG

    新規性・結果・なぜ通ったか?

    • 提案したフレームワークはKineticsデータセットにおいてtop-1で79.4%,top-5で94.0%の精度を達成した.
    • 提案したフレームワークではシフト操作を伴うMultimodal Attention Clustersを導入することでフレームの類似性が高い動画に対しても良好な結果が得られる

    コメント・リンク集

    [#150]
    2018.6.22 22:56:48
    CVM-Net: Cross-View Matching Network for Image-Based Ground-to-Aerial Geo-Localization
    Sixing Hu et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    Ground-to-Aerial Geolocalization の研究. CNNを用いて局所特徴量を抽出した後, NetVLAD によって局所特徴量から大域特徴量を生成してマッチングを行う. また, 新しい Loss を提案し学習時間を短縮した. CVUSA dataset 等を用いて行った評価実験では既存手法に大差で優位な結果を達成した.

    fukuhara-CVM-Net-Cross-View-Matching-Network-for-Image-Based-Ground-to-Aerial-Geo-Localization.png

    新規性・結果・なぜ通ったか?

    • 地上で撮影された写真から, 衛星写真上のどの位置で撮影されたかを推定する(Ground-to-Aerial Geolocalization)
    • 両方の写真からCNNを用いて局所特徴量を抽出した後, NetVLAD によって局所特徴量から大域特徴量を生成, 後述の weighted soft margin ranking loss を用いて学習を行う
    • 新しく提案した weighted soft margin ranking loss は従来の soft-margin triplet loss よりも学習の収束の速度を早めると共に, ネットワークの精度を向上させた
    • CVUSA dataset と Vo and Hays dataset を用いて行った評価実験では既存手法に大差で優位な結果を示した(評価基準は上位 1% の recall). 特にパノラマ写真を入力とした場合は90%以上の精度を達成
    [#151]
    2018.6.22 6:22:55
    Cross-Domain Self-supervised Multi-task Feature Learning using Synthetic Imagery
    Zhongzheng Ren and Yong Jae Lee
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    人手によるアノテーションを使用しない本当の意味での自己教師学習を行うために、合成画像の法線マップ、デプス、物体輪郭と実画像とのadversarial trainingを行う手法を提案。実画像に対して汎用的な特徴量が取得できたことを主張している。 輪郭線はキャニーフィルタによるエッジだが、これによって人がつける曖昧なアノテーションを緩和することができる。 デプスを推定することで高次元のセマンティックな情報やオブジェクトの相対的な位置を得ることが可能。 既存研究により法線マップとデプスのそれぞれの推定が良い影響を与えることがわかっているため、法線マップの推定も行う。 GANの学習において、ディスクリミネータの更新は実画像、合成画像に対するGANのロス、ジェネレータの更新は合成画像に対するGANロス、 3つのタスクの推定におけるロスを使用している。ドメインに不変な特徴料を得るために実画像を用いたジェネレータの学習も行ったが、 精度が良くなかった。

    新規性・結果・なぜ通ったか?

    • 人手によるアノテーションを使用せずに自己教師学習を行うために合成画像の法線マップ、デプス、オブジェクトの輪郭を推定するネットワークを構築し、さらに実画像に対して汎用的な特徴量を得るために実画像とのadversarial trainingを行う。
    • PASCAL VOCを用いた最近傍によるリトリーバルを行った。トレーニングデータにはバスや車などの区別しづらい画像が含まれているにも関わらず、車を入力した際には車のりトリーバルに成功。
    • conv1ですでにガボールフィルタのような特徴量を取得できていることを確認。これはImageNetをただ学習させるだけでは得ることができないことを確認している。
    • Pascal VOCを用いたクラシフィケーション、ディテクションにおいてSoTAと同等の精度を達成。
    • クラシフィケーションとディテクションに対して3つのタスクのうちどれが効果的なのか、どの層の特徴量が効果的なのか、domain adaptaionを行う際にどの層の特徴量が効果的なのかを検証。
    • NYUDデータセットを用いた法線推定において、既存の自己教師学習と比べてSoTAを達成。

    コメント・リンク集

    [#152]
    Dynamic Feature Learning for Partial Face Recognition
    Lingxiao He, Haiqing Li, Qi Zhang, Zhenan Sun
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    マスクなどから見えている顔領域のみを検出するPartial face recognition(PFR)をFCNで高速かつ高精度に行う手法を提案。トレーニング時には顔全体と顔が見えているパッチのそれぞれに対してパラメタを共有したFCNをで特徴量マップを適用し、 パッチ領域から得られる特徴量マップと同サイズのマップを顔全体からえられた特徴量マップからスライディングウィンドウによって複数個切り出し、 パッチから得られた特徴量マップとの比較を行う。 この比較のことをDynamic Feature Matching(DFM)と読んでいる。 DFMを行う際の工夫として、パッチから得られた特徴量マップを顔全体から得られた特徴量ウィンドウの線形和で表す際の重み、 パッチから得られた特徴量マップと特に類似している特徴量ウィンドウに対する重みの学習を行っている。

    新規性・結果・なぜ通ったか?

    • PFMを行う際に顔全体から得られた特徴量マップを切り出した複数の特徴量ウィンドウと顔パッチ部分から得られた、特徴量ウィンドウと同サイズの特徴量マップを比較するDFMを行う手法を提案。
    • 既存手法であるMR-CNNの20倍の速度で実行可能。
    • CASIA-WebFace 1万枚を用いて学習。LFWなどのデータセットでテストを行う。face recognition, verificationにおいてSoTA。
    • 切り取るサイズや、パラメタに対する考察も行っている。

    コメント・リンク集

    • FCNを用いることで任意のサイズの入力を扱えることに着目したことが根幹となるアイディア。
    • 論文
    [#153]
    Mean-Variance Loss for Deep Age Estimation from a Face
    Hongyu Pan, Hu Han, Shiguang Shan, Xilin Chen
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    顔画像から年齢を推定する際に正確に年齢を推定するのではなく、ガウス分布を用いてある程度幅のある推定を行う手法を提案。大きなコントリビューションはロス関数としてガウス分布の平均値と分散に関するロスをとったことであり、 平均値はGTの年齢との差分をとり、分散は分布がよりシャープになるようにロス関数を設計する。 学習の際には上記2つのロス関数の他に1歳刻みの年齢をそれぞれクラスと見立てソフトマックスロスを取る。 分布を学習する既存手法と異なる点は、提案手法ではGTの平均値、分散を使用しない点である。

    新規性・結果・なぜ通ったか?

    • 人間の年齢は正確に推定することは難しいが、ある程度の範囲内であれば推定は容易、という観察に基づいてロス関数を設計。
    • FG-NET, MORPH Album Ⅱ, CLAP2016, AADBデータセットにおいてMAE、CSを評価指標として使用し多くのテストプロトコルにおいてSoTA。
    • 照明環境に依存し、顔が赤い光で照らされているなどの特殊な照明環境では推定誤差が大きい。

    コメント・リンク集

    • 年齢推定だけでなく、同様の性質を持つタスクならば適用可能。
    • 論文
    [#154]
    Anatomical Priors in Convolutional Networks for Unsupervised Biomedical Segmentation
    Adrian V. Dalca, John Guttag, Mert R. Sabuncu
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    MRIのスキャンデータに対するセグメンテーションを、MRIのソース画像とセグメント画像のペアを使用せずに行う手法を提案。はじめにセグメント画像のみを用いてVAEを学習。 次に教師無しでセグメンテーションを行うためにdecoderの重みを固定してソース画像に対するセグメンテーションの推定を行う。

    新規性・結果・なぜ通ったか?

    • 医療用画像に対する教師無しのセグメンテーション手法を初めて提案。
    • T1w scanデータセットのうち、5000枚のセグメンテーション画像を使用してauto-encoderをプリトレーニング。残りの9000枚のスキャンデータを用いて教師無し学習。
    • T1wデータセットよりも解像度が低く、スライス間隔も広いT2-FLAIR scanデータセットでもテストを実行。ただしアノテーションが存在しないのでセグメンテーションの見た目で良し悪しを判断。
    • 評価尺度はGTとの領域の重なりを評価するDice。Dice、セグメンテーションの結果の見た目として良好な結果が得られていると主張。

    コメント・リンク集

    • Diceを使って定量的に評価しているため、境界線の引き方などの細かい部分のセグメンテーション結果を詳細に評価していないが、実用上は問題無いのだろうか?
    • 論文
    • Supplementary material
    • GitHub
    [#155]
    GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose
    Author
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    単視点動画に映っている物体を静的物体と動的物体に分離することで教師なしでデプス、オプティカルフロー、カメラ向きを推定する手法を提案。フレームワークは二段階で構成されており、 まずはじめにデプスとカメラ向きをそれぞれ独立に推定することで道路や街路樹などの静的物体のモーション情報を得る。 続いて静的物体との差分情報を使用することで歩行者などの動的物体のモーション情報を得る。教師無しの推定を行うため、 参照フレームから推定されたモーション情報の逆変換をターゲットフレームに適用し参照フレームを推定することで consistency lossをとることで精度が向上。

    新規性・結果・なぜ通ったか?

    • consistency lossによってオクルージョンに対する精度の向上も確認。
    • 同じネットワークを持つ既存研究に対して、ロス関数の優位性を確認

    コメント・リンク集

    [#156]
    CSGNet: Neural Shape Parser for Constructive Solid Geometry
    Gopal Sharma et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    Shape Parsing の研究. 2次元画像, 3次元ボクセルから同じ形状を生成するプログラムを推定する. 学習のための2次元や3次元のLogoやCADモデルなどを含む synthetic dataset を作成・公開した. また, 教師データが無い場合でも強化学習を用いた学習が可能.

    fukuhara-CSGNet_Neural_Shape_Parser_for_Constructive_Solid_Geometry.png

    新規性・結果・なぜ通ったか?

    • 入力された形状からCNNで特徴量を抽出し, RNN(GRUs) によって形状を生成する一連のプログラムを生成
    • Ground Truth が無い場合は強化学習(Policy Gradient)で学習可能(評価実験では教師ありと強化学習を組み合わせたものが一番高精度)
    • 2次元や3次元の形状とそれを生成するプログラムのデータセット(2D and 3D synthetic dataset)を作成・公開
    • 評価実験では, 2次元と3次元のいずれの場合も Nearest Neighbor を用いた手法よりも高精度を達成
    • また, Primitive detection のタスクにおいては Faster R-CNN よりも高い Mean Average Precision を達成
    [#157]
    2018.6.22 19:37:55
    Context Embedding Networks
    Kun Ho Kim, Oisin Mac Aodha and Pietro Perona
    CVPR2018

    概要

    ラベル付けする人の評価尺度やcontextを考慮して画像の類似度を求めるContext Embedding Networksを提案した。クラウドワーカーによるアノテーションは、個人独自の評価尺度やコンテキストに影響される。 例えば、人物顔画像をクラスタリングする際にはある人は性別によってクラスタリングするが、別の人は表情によってクラスタリングしてしまうと考えられる。 そこで、workerと見せた画像(context)それぞれから、画像のどのような点に注目するかを表すattributeをAttribute Encoderにより求める。 画像の類似度は、2枚の画像それぞれに対してImage Encoderから得られる画像特徴を、attributeによる重みつきの類似度によって求める。

    Item3Image

    新規性・結果・なぜ通ったか?

    クラウドワーカーに応じた類似度の算出が可能になった。各クラウドワーカーがどのattributeに基づいて画像クラスタリングをしているかを予測することに成功した。

    コメント・リンク集

    クラウドソーシングによるアノテーションにおいて、クラウドワーカーの個人差は避けては通れないので重要な問題になりそう。

    [#158]
    2018.6.22 18:15:24
    Visual Feature Attribution using Wasserstein Gans
    Christian F. Baumgartner, Lisa M. Koch, Kerem Can Tezcan and Jia Xi Ang
    CVPR2018

    概要

    画像中のどの箇所がクラス分類に寄与するかを可視化する手法を提案。多くの手法は、クラス分類のタスクを学習することで重要な特徴を調べている。 しかし、識別への寄与が強い特徴が存在する場合ネットワークは強い特徴のみに注目してしまい、他の特徴は無視されてしまう。 医療画像からの病気の診断では、病気のステージを見極める、複数の要因が絡む病気を発見するなど無視されてしまう特徴を探すことは極めて重要である。 本研究では、Wasserstein GANを用いてある病気を発見する上で重要な領域を示したマップMを生成する。 病気のラベルがついた入力画像xに対して、x+Mが病気でないと判定されるMを生成するGeneratorを学習する。 その際、患者の個人性による画像の違いを考慮するためにL1正則化項をロスに加える。

    Item3Image

    新規性・結果・なぜ通ったか?

    合成画像と実際の医療画像の2種類により評価した。従来の特徴を可視化する手法は、病気の際に見られる特徴のうち一部しか取れない、エッジなどの高周波情報が取れないという結果に対して、提案手法はこれら2つを改善した。 Normalized Cross Correlation(NCC)による数値評価では、ベースラインと比べ提案手法が最も良い数値を記録した。

    コメント・リンク集

    [#159]
    2018.6.22 17:18:25
    Learning to Estimate 3D Human Pose and Shape from a Single Color Image
    Georgios Pavlakos, Luyang Zhu, Xiaowei Zhou and Kostas Daniilidis
    CVPR2018

    概要

    1枚のRGB画像から人間の全身の3次元モデルを推定するEnd-to-Endのネットワークを提案した。DNNを用いた3次元モデルの推定は、膨大なアノテーションが必要となり現実的ではない。 そこで、画像からの2次元特徴の抽出と2次元特徴から3次元モデルの推定の2段階に分けることによりDNNベースの手法を実現する。 始めに、Human2DというRGB画像から2次元の特徴点及び人物のシルエットを推定する。 2次元特徴点及びシルエットから3次元モデルの推定には、SMPLという統計モデルを用いて作成した学習データにより学習を行う。 加えて、得られた三次元モデルから2次元特徴点とシルエットを取得し、画像から得られた情報と一致するかをロスに加える。

    Item3Image

    新規性・結果・なぜ通ったか?

    推定した3次元モデルの誤差を評価したところ、提案手法が最もground truthに近づいたことを確認した。1枚の画像に対して50msという従来研究と比べ大幅に高速化することができた。

    コメント・リンク集

    データ作成の問題をCGを駆使して解決しており、同様のアイデアを活用できないだろうか?

    [#160]
    2018.6.22 16:05:18
    Zero shot Kernel Learning
    Hongguang Zhang and Piotr Koniusz
    CVPR2018
    TengaWakamiya

    概要

    ゼロショット学習のオープンな問題に取り組む上で,カーネルを利用したゼロショット学習の手法を提案する.

    zeroshot_1.pngzeroshot_2.png

    新規性・結果・なぜ通ったか?

    提案する手法は,回転とスケーリングが組み込まれているため,制約のないモデルでは,より自由度が高いために過学習を防止することができる.1枚目の画像はゼロショットカーネルの配置. 2枚目の画像は一般化ゼロショット学習プロトコルと新たに提案されたデータ集合についての評価. (tr)はtrain + testクラス,(ts)はテストクラスの平均トップ1精度,(H)はハーモナイズされたスコア,(Better than SOA)は提案手法が他の最先端の方法(表の上部)よりも優れているデータセットの数を示す.

    コメント・リンク集

    [#161]
    2018.6.20 19:56:59
    VITAL: VIsual Tracking via Adversarial Learning
    Yibing Song, Chao Ma, Xiaohe Wu, Lijun Gong, Linchao Bao, Wangmeng Zuo, Chunhua Shen, Rynson Lau, Ming-Hsuan Yang
    CVPR 2018

    概要

    tracking-by-detectionベースの手法は、(1)各フレームにおけるpositive sampleが空間的に重なった領域を取りやすいため、十分な見た目のばらつきを学習できない点と(2)positive sampleとnegative sampleの不均等さ(class imbalance)が顕著に出てしまうという点が問題である。本論文では、positive sampleのデータ拡張を行うため、GANを用いて長い時間のスパンで頑健な特徴を学習可能なVITALアルゴリズムを提案した。またclass imbalanceを解決するため、識別が容易なnegative sampleを取り除くためのhigh-order cost sensitive lossを提案した。

    VITAL

    新規性・結果

    提案手法はCNNで抽出した特徴量に適用するマスクを複数(論文では9個)用意し、マスクを通じて重み付けられた特徴量に対して識別器Dが対象物体か背景かの二値分類を行う。学習時には識別器Dに最も悪い識別性能を出させたマスクを学習させる。テスト時には生成器Gは取り除いておく。また識別が簡単すぎる大量のnegative sampleのロスが合計されて大きくなってしまう現象であるclass imbalanceを、あまり学習に寄与しないようにする。

    [#162]
    SINT++: Robust Visual Tracking via Adversarial Positive Instance Generation
    Xiao Wang, Chenglong Li, Bin Luo, Jin Tang
    CVPR 2018

    概要

    物体追跡タスクでは追跡対象の画像を1フレーム目においてのみ与えられるため、トレーニングデータの多様性が不足していることがDNNを適用する際の障壁となっている。そこで変形や遮蔽といった困難な環境下における正解サンプルを生成する手法(SINT++)を提案した。提案手法は他の物体追跡手法に取り入れることが可能である点も非常に重要である。

    SINT++

    新規性・結果

    VAEを用いて追跡対象の多様体を生成し、その多様体局面上を移動させることで正解サンプルを増やすネットワーク(PSGN)と識別器の認識性能にクリティカルな領域を探すように遮蔽領域を決定する強化学習ネットワーク(HPTN)を用いて、正解サンプルの多様性を増幅させる。追跡器はSINTを用いているため、与えられた追跡対象の画像に対するオフライン学習も、追跡中のオンライン学習も行わない。

    [#163]
    Occlusion Aware Unsupervised Learning of Optical Flow
    Yang Wang, Yi Yang, Zhenheng Yang, Liang Zhao, Peng Wang, Wei Xu
    CVPR 2018

    概要

    オプティカルフローのアノテーションが困難であることから、教師なし学習ベースのオプティカルフロー推定手法が提案されているが、十分な精度が出ていない。そこで問題とされている遮蔽と大きな動きに対応したネットワークを提案。教師なし学習ベースの手法では最も良い精度を出し、教師あり学習ベースの手法とのギャップを埋めた。

    Occlusion_Aware_Unsupervised_Learning_of_Optical_Flow

    新規性・結果

    2枚の画像に対して、1枚目から2枚目へのオプティカルフローと、2枚目から1枚目のオプティカルフローを推定する。2枚目の画像と前者のオプティカルフローを用いて、1枚目の画像を復元する。復元した1枚目の画像のうち遮蔽が発生していない部分に対して、本物の1枚目の画像との差を損失として用いる。

    リンク集

    [#164]
    Learning Attentions: Residual Attentional Siamese Network for High Performance Online Visual Tracking
    Qiang Wang, Zhu Teng, Junliang Xing, Jin Gao, Weiming Hu, Steve Maybank
    CVPR 2018

    概要

    物体追跡のためのオフライン学習ベースの手法は精度とスピードにおいて高いポテンシャルがあるが、追跡対象に適応させることは困難である。一方で、オンライン学習ベースの手法は計算コストとオーバーフィッティングが問題になっている。本論文では、Siamese NetworkにおけるCross CorrelationをAttentionで重み付けしたRASNet(Residual Attentional Siamese Network)を提案し、リアルタイムを超える速度(83fps)とSOTAを実現した。

    RASNet

    新規性・結果

    Siamese NetworkにAttention Mechanismを導入した。Attention MechanismにはResidual AttentionとGeneral Attentionを含むDual Attentionと、Channel Attentionを導入した。Resiual Attentionは追跡対象に特化させるようにオンライン学習をし、Channel Attentionはチャンネルごとの特徴量の質を示している。

    リンク集

    [#165]
    Im2Flow: Motion Hallucination from Static Images for Action Recognition
    Ruohan Gao, Bo Xiong, Kristen Grauman
    CVPR 2018

    概要

    人間が一枚の静止画から動き情報を推定可能であることを受け、一枚の静止画から動き情報(フロー)の事前知識を得る手法を提案。具体的には動き情報の表現方法とU-Netの構造を変形させたエンコーダ・デコーダネットワークを提案。提案手法で得たフロー情報を利用することで、行動認識の精度が向上した。

    Im2Flow

    新規性・結果

    動き情報を動きの大きさと角度(角度はコサインとサインに分解)の計3チャンネルで表現する。角度は周期的な構造であるが、三角関数を用いることでこれを避けることができる。損失関数は(1)フロー自体の損失と(2)動き情報のコンテンツの損失の和で構成される。動き情報のコンテンツは、ResNetをUCF-101データセット上で行動認識にfine-tuningさせたものから取得し、推定したフローと正解のフローから得られたコンテンツの差から損失を得る。

    リンク集

    [#166]
    High-Speed Tracking With Multi-Kernel Correlation Filters
    Ming Tang, Bin Yu, Fan Zhang, Jinqiao Wang
    CVPR 2018

    概要

    物体追跡タスクにおいて、Multi-Kernel Correlation Filter (MKCF)はKernelized Correlation Filter (KCF)のカーネルを複数にすることで識別性能を向上させているが、計算量がボトルネックとなっていた。そこで目的関数の上界を目的関数として再設定し、上から押さえるように最適化問題を解くことで、MKCFより高速(150fps)かつ高識別性能な物体追跡手法 (MKCFup)を提案した。

    MKCFup

    新規性・結果

    MKCFupは従来のMKCFの最適化問題における目的関数の上界を最適化する。上界を最適化する問題に再定式化することで高速かつ高精度な追跡を実現しており、DNNを使っていない数少ない論文の1つ。Correlation FilterがDNNベースの物体追跡に利用されているように、今後DNNベースの物体追跡手法が使用する可能性がある。

    リンク集

    [#167]
    High Performance Visual Tracking With Siamese Region Proposal Network
    Bo Li, Junjie Yan, Wei Wu, Zheng Zhu, Xiaolin Hu
    CVPR 2018

    概要

    オフラインで学習させたDNNで得た特徴量を使用した物体追跡手法は、ターゲットの動画に特有の情報を使用していないことから、相関フィルタベースの手法より良い精度が出ていなかった。提案手法は大規模な画像ペアデータを用いて学習し、同じ特徴量抽出器を2つの入力に適応させて得た特徴量の類似度を比較するSiamese NetworkとFaster R-CNNで提案されているRegion Proposal Network(RPN)を組み合わせた上で、物体追跡をlocal one-shot detectionとして定式化することで、高速かつ高精度な追跡を実現した。

    Siamese-RPN

    新規性・結果

    従来のSiamese Networkを利用した手法とは異なり、RPNを用いることで物体の変形に合わせた矩形領域を提示することによって高い精度を出すことが可能である。また物体追跡をlocal one-shot detectionとして定式化する。

    リンク集

    [#168]
    End-to-End Learning of Motion Representation for Video Understanding
    Lijie Fan, Wenbing Huang, Chuang Gan, Stefano Ermon, Boqing Gong, Junzhou Huang
    CVPR 2018

    概要

    深層学習の成功に反して映像解析では未だに手作りのオプティカルフローが使用されている。通常のオプティカルフローは、それを利用したCNNと独立してしまっている点と時間的・空間的計算コストが非常に大きい点が問題である。本論文では、オプティカルフローに代わる特徴をEnd-to-Endに学習可能なネットワーク(TVNet)を提案した。End-to-Endに学習可能になることで、特定のタスクに特化した動き特徴量を学習できる。

    TVNet

    新規性・結果

    オプティカルフロー抽出手法の1つであるTV-L1をDNNにカスタマイズさせた。End-to-Endのネットワークにすることで、フロー抽出後のタスクから得られた誤差を伝搬することができるため、特定のタスクに特化した動き情報の抽出が可能となっている。

    リンク集

    [#169]
    End-to-End Flow Correlation Tracking with Spatial-temporal Attention
    Zheng Zhu, Wei Wu, Wei Zou, Junjie Yan
    CVPR 2018

    概要

    従来のCorrelation Filterベースの物体追跡手法は現在のフレームの見た目しか考慮できておらず、フレーム間の情報や動きの情報を考慮していなかった。本論文ではフロー情報を直接的に考慮することで時間変化に関する情報を考慮することが可能な物体追跡手法を提案した。

    FlowTrack

    新規性・結果

    通常のネットワークに対してフロー情報を追加しただけではなく、Spatial AttentionとTemporal Attentionも提案した。これにより空間情報と時間情報を効率的に考慮することが可能となった。

    リンク集

    [#170]
    Efficient Diverse Ensemble for Discriminative Co-Tracking
    Kourosh Meshgi, Shigeyuki Oba, Shin Ishii
    CVPR 2018

    概要

    tracking-by-detectionベースの物体追跡手法は識別器の不完全性からオンライン自己学習するため、自己学習のループでドリフト問題が発生する。そこで学習する識別器に対する教師が必要であるという発想から、相補的に教師になるアンサンブル学習ベースの手法が提案されている。しかし、アンサンブル学習ベースの手法は、各識別器が互いに重複した領域を対象にする冗長性が発生する。本論文ではその冗長性を軽減することが可能なリアルタイム物体追跡手法(DEDT: Diversified Ensemble Discriminative Tracker)を提案する。

    DEDT

    新規性・結果

    DEDTは高い適応性と多様性を持つ識別器群であるCommitteeモデルと長期記憶を持つAuxiliaryモデルからなり、Committeeモデルが不明確な回答を出した入力に対しては、Auxiliaryモデルが代わりに回答する。Committeeモデルは自身が不明確な回答をしたデータを用いて学習する。またこれまでのデータから不明確な回答になるようなデータを人工的に生成し、そのデータにおけるエラー率が、推定時に冗長な結果が得られたデータのエラー率より小さくなるまで繰り返し、更新することで、冗長性を回避する。一方でAuxiliaryモデルはCommitteeモデルより更新頻度が低くすることで長記憶性を持つ。

    リンク集

    [#171]
    Correlation Tracking via Joint Discrimination and Realiability Learning
    Chong Sun, Dong Wang, Huchuan Lu, Ming-Hsuan Yang
    CVPR 2018

    概要

    Correlation Filterベースの物体追跡手法は識別性と信頼性を学習するべきであるが、従来手法は識別性に着目したものが多く、Bounding Box内の予期されない顕著な領域に影響を受ける可能性がある。本論文では信頼性の高い領域に特に着目して物体追跡を行う手法(DRT)を提案した。

    DRT

    新規性・結果

    提案手法は識別性を保持するbase filterと信頼性を保持するreliability termのアダマール積を取ることで、より信頼性の高い領域に着目する。目的関数には学習サンプルの分類誤差に関する項と、局所応答に一貫性を持たせる制約項、L2ノルム正則化項からなる。

    リンク集

    [#172]
    Context-aware Deep Feature Compression for High-speed Visual Tracking
    Jongwon Choi, Hyung Jin Chang, Tobias Fischer, Sangdoo Yun, Kyuewang Lee, Jiyeoup Jeong, Yiannis Demiris, Jin Young Choi
    CVPR 2018

    概要

    コンテキストを考慮したCorrelation Filterによる物体追跡手法を提案した。カテゴリごとに事前学習したオートエンコーダーのエキスパートを複数用意し、その中からコンテキストネットワークが1つ選択する。

    TRACA

    新規性・結果

    リアルタイム性が重要である物体追跡タスクでは、リアルタイムにDNNを学習することは困難である。本論文では事前に各物体のカテゴリ別に学習したオートエンコーダーを用意し、その中から1つを選択することで、ある程度既に特定の物体に特化したネットワークを使用できるため、再学習の必要性を軽減することができる。

    リンク集

    [#173]
    A Twofold Siamese Network for Real-Time Object Tracking
    Anfeng He, Chong Luo, Xinmei Tian, Wenjun Zeng
    CVPR 2018

    概要

    物体追跡手法の1つであるSiamFCは効率的なオフライン学習を行うことで、非常に高い識別性能を持つが、追跡対象の見た目の変化に弱かった。そこで、見た目特徴量とセマンティックな情報を別々に抽出する2つのSiamese Networkを利用することで、追跡対象の見た目変化にも強い物体追跡手法を提案した。セマンティックな情報を抽出するネットワークは画像分類タスクで学習させることで、見た目の変化に頑健な特徴量を抽出することが可能となる。

    SA-Siam

    新規性・結果

    推論フェーズでは、それぞれのネットワークで別々に追跡対象画像と探索画像の類似度を計算し、それを統合する。セマンティックな情報を抽出するネットワークは、見た目変化には頑健ではあるが、識別性能は不十分であるため、与えれた追跡対象に反応するチャンネルの重要度を増やすChennel Attentionを追加する。これによって追跡対象に適応する最低限の機能を追加している。

    リンク集

    [#174]
    GroupCap: Group-based Image Captioning with Structured Relevance and Diversity Constraints
    Fuhai Chen, et al.
    CVPR 2018
    Munetaka Minoguchi

    概要

    画像グループ内での関連性や相関関係などを考慮し、キャプションを出力するGroupCapの提案。まず、個々の画像でvisual tree parser(VP-Tree)を構成し、文字ベースで意味の相関を構築。次にツリーの関係から、画像間での関連性と多様性をモデル化。この制約関係をもとにLSTMでキャプション生成。これらをトリプレットロスとしてend-to-endで学習する。

    20180622GroupCap.jpg

    新規性

    従来のイメージキャプショニングでは、単一画像に対して説明文を生成している場合がほとんど。これらはオフラインで学習し、画像間での視覚的構造関係を無視して推定している。本手法のグループベースの手法によって、グループ画像内での構造的関連性や多様性を協調して学習することでキャプションの正確性を向上させる。

    結果・リンク集

    MSCOCOをもとに作成した2グループキャプションデータセットを使用して評価し、優れていることを示唆。

    [#175]
    MoNet: Deep Motion Exploitation for Video Object Segmentation
    Huaxin Xiao, et al.
    CVPR 2018
    Munetaka Minoguchi

    概要

    動画中の物体にセグメンテーションを行うタスクにおいて、フレーム間処理をモーションキューによって改善するMoNetの提案。オプティカルフローを利用し、その近傍の表現を統合することにより、ターゲットフレームでの表現を強化する。これにより、時間変化におけるコンテキスト情報を活用することができ、外観変動やモーションブラー、物体の変形に頑健となる。また、動作の一致性を考慮することで、ノイズの大きいモーションキューを前景または背景に変換し、精度を向上させている。

    20180622MoNet.jpg

    新規性

    セグメンテーションの改良と、フレームごとの学習を行うという観点からモーションキュー(オプティカルフロー)を利用している。これによって、前景と背景の分離する制度を向上。 また、distance transform layerを提案し、動作が一致しないインスタンスと領域をフィルタリングすることができる。

    結果・リンク集

    実験において、モーションキュー利用の有効性と、 distance transform layerの有効性を示している。

    [#176]
    DeepMVS: Learning Multi-view Stereopsis
    Po-Han Huang et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    Learning-based Multi-View Stereo の研究. 任意の枚数の画像から, 視差 Map の推定を行う(推定結果は入力の順番に依存しない). また, ネットワークの学習のため, 新しい synthetic datasets (MVS-SYNTH dataset) を作成・公開した. ETH3D を用いた評価実験では DeMoN を上回り, COLMAP と同等の結果を達成した.

    fukuhara-DeepMVS-Learning-Multi-view-Stereopsis.png

    新規性・結果・なぜ通ったか?

    • 複数枚の画像(1枚の参照画像と複数枚の近傍画像)を入力とする, Learning-based Multi-View Stereo(MVS)の手法を提案
    • 入力画像に対して通常の SfM(COLMAP) を用いてポーズの推定を行った後, D段階の離散的な視差の大きさ毎に近傍画像を参照画像に Warp した画像群 (plane-sweep volume) を生成
    • 参照画像と各 plane-sweep volume に対して Patch matching を行って抽出された特徴量を encoder-decoder 型のネットワークで統合した特徴量を用いて視差 Map を推定
    • ネットワークを上手く学習させるためには real と synthetic の両方のデータセットが重要であるとし, 新しい synthetic datasets (MVS-SYNTH dataset) を作成・公開した
    • ETH3D を用いた評価実験で COLMAP[Schonberger+16] と DeMoN[Ummenhofer+17] と比較した結果, ETH3D で最も精度の高い COLMAPと同等の Photometric error と Geometric error を達成
    • 特に複雑で復元が難しいような環境に対しては, COLMAP がノイズの多い復元結果となる一方で, 提案手法は妥当な推定をする傾向が確認された
    • Limitation は植物の多い領域で視差 Map の推定に失敗やすいという点や, plane-sweep volumes の計算に時間がかかる点
    [#177]
    2018.6.22 5:55:55
    Learning Compact Recurrent Neural Networks with Block-Term Tensor Decomposition
    Jinmian Ye et al.
    CVPR 2018
    Kazuma Matsui

    概要

    RNNは強力なシーケンスモデリングツールであるが,高次元の入力を扱う場合,RNNのトレーニングはモデルパラメータが大きくなるため計算に時間がかかるという問題がある.これは,RNNがビデオや画像キャプションのアクションレコグニションなど,多くの重要なコンピュータビジョンのタスクを行うことを妨げる.この問題を解決するためにRNNのパラメータを大幅削減し,トレーニング効率を向上させるコンパクトで柔軟な構造「Block-Termテンソル分解(BTD)」を提案し,これをBlock-Term RNN (BT-RNN)と名付ける.テンポトレインRNN (TT-RNN)のような他の低ランク近似とBT-RNNを比較すると,同じランクを使用する場合,より簡潔でより良い近似が可能であり,より少ないパラメータで元のRNNに戻すことが可能である.ビデオ,画像キャプション,画像生成のアクションレコグニションを含む3つの困難なタスクに対し,BT-RNNは予測精度と収束速度の両方でTT-RNNや標準のRNNより優れていると言える.この研究において,BT-LSTMはUCF11データセットのアクションレコグニションのタスクで15.6%以上の精度向上を達成するために,標準LSTMより17,388回少ないパラメータを使用した.

    Learning_Compact_Recurrent_Neural_Networks_with_Block-Term_Tensor_Decomposition.jpg

    新規性・結果・なぜ通ったか?

    BTDは最適なTT-rankの設定を見つけることを困難にする代わりに次のような利点がある.・Tucker分解は異なる次元間の相関関係を表し,より良い重み分担を達成するためにコアテンソルを導入している。 ・コアテンソルのランクを等しくすることができ,異なる次元での不均衡な重みの共有を避けることができ,かつ入力データの異なる順列に対して頑強なモデルを導くことができる. ・BTDは,複数のTuckerモデルの合計を使用して高次テンソルを近似し,大きなTucker分解をいくつかのより小さいモデルに分割し,ネットワークを広げ,表現能力を高めることができる. 一方で複数のTuckerモデルは、,ノイズの多い入力データに対してより堅牢なRNNモデルを導く. 結果として,BTDを使用してRNNの入力非表示重み行列の接続をプルーニングすることにより,パラメータの数が少なく,フィーチャディメンション間の相関モデリングが強化された新しいRNNモデルが提供され,モデルトレーニングが容易になり,パフォーマンスが向上した.ビデオ行動認識データセットの実験結果は,BT-RNNアーキテクチャが数オーダのパラメータを消費するだけでなく,標準的な従来のLSTMおよびTT-LSTMよりもモデル性能を向上させることを示していると言える.

    コメント・リンク集

    [#178]
    2018.6.21 18:48:30
    End-to-End Dense Video Captioning with Masked Transformer
    Luowei Zhou, Yingbo Zhou, Jason J. Corso, Richard Socher, Caiming Xiong
    CVPR 2018
    Okayasu

    概要

    動画内のいつ行動が行われたかのTemporal Action Proposals(TAP)とどのような行動が行われたかのキャプションを行うタスクにおいて,self-attentionを用いて既存手法を改善する.

    End-to-End_Dense_Video_Captioning_with_Masked_Transformer_1

    新規性・結果・なぜ通ったか?

    ActivityNet CaptionsとYouCookIIでキャプションの評価を行い,METEORスコアが10.12と6.58であった.

    SoTAではないが,時間的なイベントの検出とイベントのキャプショニングをEnd-to-Endに行う手法であること.また,このようなタスクで初めてのRNN-basedでは無い手法を提案したこというところが新規性.

    コメント・リンク集

    [#179]
    Modulated Convolutional Networks
    Xiaodi wang , Baochang Zhang
    Kazuki Tsubura

    概要

    ・CNNは画像処理の様々なタスクをこなすうえでとても有効だが,ネットワークのストレージにかなりのコストを要求するため,展開が制限される.2値化フィルタを用いたCNNの移植性向上のための新しい変調畳み込みネットワーク(MCNs)を提案する.MCNでは,end-to-endフレームワークにおけるフィルタ損失,中心損失,ソフトマックス損失を考慮した新しい損失関数であるM-フィルタを提案する.

    Modulated_Convolutional_Networks.png

    新規性・差分

    ・非二項フィルタを復元するために,M-フィルタを導入しネットワークモデルを計算するための新しいアーキテクチャを導出する.MCNは完全精度モデルとは対照的に,畳み込みフィルタの必要な記憶スペースのサイズを32倍に縮小することができ,最先端の2値化モデルよりもはるかに優れた性能を達成した.また,MCNは完全精度のResentsおよびWideResentsと同等のパフォーマンスを達成した.

    [#180]
    2018.6.20 19:49:11
    Ordinal Depth Supervision for 3D Human Pose Estimation
    Georgios Pavlakos, Xiaowei Zhou, Kostas Daniilidis
    CVPR 2018
    Shusuke Shigenaka

    概要

    3D ground truthの存在しないデータに対し人間の関節の奥行きデータの監視信号を使用することを提案。人体関節の奥行きを用いて3Dの姿勢推定をConvNetsで学習すると正確な関節座標で学習結果を得ることができる。 通常の深さ注釈をもつ2Dポーズデータセット(LSPとMPII)はConvNetsの学習に容易に組み込むことができるため、 ポーズデータセットを拡張させることにより3Dの姿勢に対する序数の深さ正確なものにし、 標準のベンチマークでstate-of-the-artを達成した。

    Ordinal_Depth_Supervision_for_3D_Human_Pose_Estimation

    新規性・結果・なぜ通ったか?

    • 3D ground truthを必要としない
    • 2Dポーズデータセットを使うことで、スタジオ以外の条件での3Dポーズ推定でも高い精度を得ることができる
    • Human3.6Mのデータセットではこれまで誤差が47.7だったのに対し41.8を達成しており、HumanEva-Iデータセットにおいてはこれまで誤差が24.6だったのに対し18.3と大幅に更新をしている

    リンク集

    [#181]
    2018.6.21 18:00:49
    A Weighted Sparse Sampling and Smoothing Frame Transition Approach for Semantic Fast-Forward First-Person Videos
    M. Silva, W. Ramos, J. Ferreira, F. Chamone, M. Campos
    CVPR2018
    Ryota Suzuki

    なめらかに早送りするという,ビデオ要約の新たな形を提案.

    新しい適応的なフレーム選択手法を提案.重み付き最小値再構築問題として定式化. そこに,スムーズなフレーム遷移の手法を組み合わせる. 通しで見るとなめらかに見えるようにフレームを落とす.

    Figure1

    新規性・結果・なぜ通ったか?

    問題設定が面白い.流行りのビデオ要約の流れを汲みつつ,意識的に新しい枠組みを提案している. しかも十分実行可能と思われる問題である.想定される成果の見栄えもよい. 解き方もちゃんとしている.

    [#182]
    2018.6.21 17:42:48
    Weakly Supervised Coupled Networks for Visual Sentiment Analysis
    J. Yang, D. She, Y. Lai, P.L. Rosin, M. Yang
    CVPR2018
    Ryota Suzuki

    画像で感情分析を行う研究.従来法は全体的な画像特徴からセンチメント表現を学習していたが, 本研究では局所特徴もとらえるようにした.

    弱教師付き二つ組CNNによる.(1)感情に特定的にソフトマップを検出するFCNN. 画像レベルのラベルだけ必要にしたので,画素レベルアノテーションのようなアノテーション負荷が低くて済む. (2)ロバストなクラス分類のために,深層特徴を使い,感情マップを2つ組することによって,全体・局所情報の両方を活用. そして,これら2つを統合してEnd-to-Endで最適化できるようにする.

    Figure1

    新規性・結果・なぜ通ったか?

    より詳細に画像を見るように設計した.その結果,6つのベンチマークで評価を行い,SOTA性能を達成.

    コメント・リンク集

    [#183]
    2018.6.21 16:46:09
    A Low Power, High Throughput, Fully Event-Based Stereo System
    A. Andreopoulos, H.J. Kashyap, T.K. Nayak, A. Amir and M.D. Flickner
    CVPR2018
    Ryota Suzuki

    著者らIBMが開発した100万個のノードが伝達しあうニューラルネットワークを模倣したプロセッサ「TrueNorth」を使った, 新しいカメラ「Dynamic Vision Sensor」を使ってステレオしてみた論文.

    Dynamic Vision Sensorは,通常カメラのフレーム撮影方式ではなく,イベントベースに,各画素が非同期で撮影するという新たな撮影方式のセンサである. これにTrueNorthを組み合わせれば,完全にグラフベースで,配列などのあらゆるデータ構造無しに フォン・ノイマン型計算モデルの計算が可能である.

    これにより,2000fpsの視差マップ生成を達成.通常のカメラではとらえられない急激な変化をとらえることが可能. しかも200倍省エネ.

    Figure1

    新規性・結果・なぜ通ったか?

    上記参照.

    コメント・リンク集

    新製品の宣伝的論文っぽい.確かに面白いカメラシステムなので,今後これを軸に新たな枠組みが発生するかもしれない?

    [#184]
    2018.6.21 16:19:51
    M3: Multimodal Memory Modelling for Video Captioning
    J. Wang, W. Wang, Y. Huang, L. Wang, T. Tan
    CVPR2018
    Ryota Suzuki

    ビデオキャプショニングの話題.Long-Termのマルチモーダルな依存性のモデリングと 文脈的ミスアラインメントがあるのに対し, (1)メモリモデリングするのは Long-Term系列的問題に対して 潜在的な利点がある (なにそれ), (2)視覚的アテンションにおいてワーキングメモリは主要素, という二点の事実を考慮した, Multimodal Memory Modelling(M3)を提案. LSTMの外部に視覚-テキスト間共有メモリを持ち,Long-Termな視覚-テキスト間依存性をモデル化する.

    Figure1

    新規性・結果・なぜ通ったか?

    MSVD,MSR-VTTで評価し,BLEU,METEORにおいてSOTA性能.

    コメント・リンク集

    HMMのように見える.

    [#185]
    2018.6.21 15:30:05
    Going from Image to Video Saliency: Augmenting Image Salience with Dynamic Attentional Push
    S. Gorji and J.J. Clark
    CVPR2018
    Ryota Suzuki

    画像における静的なSaliency Modelを,動的なビデオのSaliencyの予測に使う手法.この著者らは,前回に写真内に写っている人の注視(Attention)をCNNのAttentionと組み合わせるというShared Attentionに関する論文を出していたが, 今度は写真を撮る人・シーンに映っている人のShared Attentionについて取り組んだ.

    マルチストリームCNN-LSTM構造を提案.これはSoTAなSaliencyをDynamic Attentional Pushに拡張する.

    4つのステージからなる.Saliencyステージと,3つのAttentional Pushステージ.この複数ステージ構造は,Augmenting ConvNetに従っている. ConvLSTMの補足(complementary)と時間変化出力組み合わせで学習. 拡張したSaliencyと,ビデオにおける「見ている人」修正パターンの間のRelative Entropyの最小化を行う.

    Figure1

    新規性・結果・なぜ通ったか?

    動画データセットHOLLYWOOD2,UCF-Sport,DIEMにおいて,SoTAな時空間Saliency推定性能を達成.

    コメント・リンク集

    発展ネタを自分で出して,しかもCVPR連続当選.

    [#186]
    2018.6.21 12:24:09
    Jointly Localizing and Describing Events for Dense Video Captioning
    Y. Li, T. Yao, Y. Pan, H. Chao and T. Mei
    CVPR2018
    Ryota Suzuki

    Dense Video Captioningの話.イベントの発生時間のプロポーザルと,それぞれのイベントにおける文章生成の両者を結合的にEnd-to-Endで学習する, Descriptiveness Regressionを提案. シングルショット検出に組み込む.これは文章生成を経由したプロポーザル時間ごとの説明的複雑性を推論する. これが時間定位の調節につながるらしい. キャプショニングと検出の結合・汎用最適化をするところが他手法と異なるらしい.

    Figure1

    新規性・結果・なぜ通ったか?

    動画データセットActivityNetにおいてSoTAを達成.著者らはMETEORで12.96%出たのがすごいと言っている.

    コメント・リンク集

    Dense Video Captioning: イベントの時間的定位と説明文を付けるタスク.

    [#187]
    2018.6.21 11:51:21
    Audio to Body Dynamics
    E. Shlizerman, L. Dery, H. Schoen and I. Kemelmacher-Shlizerman
    CVPR2018
    Ryota Suzuki

    「音から手の動きは生成可能か?」バイオリンやピアノ演奏の音声を入力すると,アバターが演奏しているかのようにアニメーションするようなスケルトンの推定を行う手法を提案. 結論:できる.

    実際ちゃんとやるにはいくつかアドホックな工夫が必要なようで,詳細はおのおの論文を確認してもらいたい.学習時に使うスケルトンデータはYouTubeのリサイタル動画からOpenPoseやMaskRCNNを駆使して生成する. 入力音声からこの手法で 13次元ベクトルに変換し,さらにその時間差分や音量エネルギーを足した28次元ベクトルにする. これから上半身のスケルトンの時系列を生成するLSTMを作り, スケルトンにアバターを着せてアニメーションを作成する.

    Figure1

    新規性・結果・なぜ通ったか?

    アプリケーション枠らしく,見た目の良さがあり,また実装上の困難と解決についてちゃんと書いているのが評価されたものと思われる. アプリケーションとして利用するに当たって,どれだけうまくいけるのかが窺い知れる資料として 貴重に思われる.

    コメント・リンク集

    1ページ目が既に他の論文と一線を画そうとしている.Fun to readという点で参考になるので,一度読んでみることを勧める.

    [#188]
    2018.6.21 11:28:41
    Separating Self-Expression and Visual Content in Hashtag Supervision
    A. Veit, M. Nickel, S. Belongie, L. Maaten
    CVPR2018
    Ryota Suzuki

    Facebookでの研究.ユーザのこれまでのハッシュタグから,一意に同定できない意味の単語のハッシュタグでもユーザが意図した画像検索ができるようにした. 画像のDeCAFを取り,ユーザの履歴特徴,ハッシュタグ特徴を埋め込んだ3次テンソルを構成,多クラスロジスティック関数などで評価する.

    Figure1

    新規性・結果・なぜ通ったか?

    MLPによる手法よりこちらの方が良い性能を示した.Top1で43.7%,Top10で72.12%のAccuracy.

    コメント・リンク集

    [#189]
    2018.6.21 10:37:18
    Human-centric Indoor Scene Synthesis Using Stochastic Grammar
    S. Qi, Y. Zhu, S. Huang, C. Jiang, S. Zhu
    CVPR2018
    Ryota Suzuki

    3D部屋レイアウトとその2D画像との合成の話題.

    Spatial And-Or Graph (S-AOG) ※ で屋内シーンを表現する.終端ノードは物体エンティティ(部屋とか家具とかその他).

    終端ノードに対し,マルコフランダム場(MRF)を用い, 人間の文脈で関係性をエンコードする. 屋内シーンデータセットから分布を学習し, モンテカルロマルコフ連鎖(MCMC)を使って新しいレイアウトをサンプルする.

    Item3Image

    新規性・結果・なぜ通ったか?

    3つの視点で有効性を確認.

    • SOTAな部屋アレンジ手法と比較しての,視覚的リアルさ
    • GTに対する,アフォーダンスマップの精度
    • 合成部屋の機能性,自然っぽさを人間の被験者で評価

    コメント・リンク集

    ※S-AOGは確率的文法モデルの一つ.

    [#190]
    2018.6.20 11:41:06
    Fast Monte-Carlo Localization on Aerial Vehicles using Approximate Continuous Belief Representations
    A. Dhawale, K.S, Shankar, N. Michael
    CVPR2018
    Ryota Suzuki

    ドローンのようなサイズ,重さ,力が制約されたプラットフォームでも,3D自己位置同定を高速に行えるフレームワークを提案. 点群データの混合ガウス分布(GMM)表現による圧縮をキーアイデアとしている.

    デプスセンサのデータと,オンボード姿勢参照システムからピッチとロールを得る.データをGMMで表現した尤度を使って,複数仮説パーティクルフィルタにより定位.

    Item3Image

    新規性・結果・なぜ通ったか?

    CVPRでは,高速性・省メモリに関するトピックに興味があるかもしれない.SLAM系はICRAでは大変多く議論されている話題だが,逆にCVPRだとアプリケーション枠で 通る可能性があるかもしれない.

    コメント・リンク集

    [#191]
    2018.6.20 11:13:48
    Variational Autoencoders for Deforming 3D Mesh Models
    Q. Tan, L. Gao, Y. Lai and S. Xia
    CVPR2018
    Ryota Suzuki

    3Dメッシュの変形に関して,Variational AutoeEcoder(VAE)を使ってみたという研究.可能な変形の確率的潜在空間の探索を行う. 学習は簡単で,学習データも少なくて済む(どれくらい?) 事前分布を代替することで,異なる潜在変数の顕著性(Significance)を柔軟に調節可能な拡張モデルも提案.

    Item3Image

    新規性・結果・なぜ通ったか?

    形状生成,形状補完,形状空間埋め込み,形状探索においてSoTA越え.

    コメント・リンク集

    [#192]
    2018.6.20 10:42:57
    Density-aware Single Image De-raining using a Multi-stream Dense Network
    He Zhang and Vishal M. Patel
    CVPR 2018
    Kodai Nakashima

    概要

    DID-MDN (density-aware multi-stream densely connected convolutional neural network-based algorithm) と呼ばれる、画像内の雨量密度推定と雨除去を行うアルゴリズムを提案。雨のストロークをより良く特徴づけるため、multi-stream densely connected de-raining networkでは異なるスケールの特徴量を効率的に活用する。また、雨密度ラベル付き画像を含むデータセットを新たに作成した。このデータセットを学習に使うことにより、state-of-the-artな手法を超えることができた。

    1802.07412_fig1.png1802.07412_fig2.png1802.07412_fig3.png

    新規性・結果・なぜ通ったか?

    PSNRとSSIMにより雨除去の性能を評価した。比較に使用した手法、および、結果は右図の通り。 右図におけるTest1とTest2は、使用したテストセットが異なることを表している。

    コメント・リンク集

    [#193]
    2018.6.21 17:32:13
    SeGAN: Segmenting and Generating the Invisible
    Kiana Ehsani, Roozbeh Mottaghi and Ali Farhadi
    CVPR 2018
    Kodai Nakashima

    概要

    オクルードされている物体の全体像を推定するため、SeGANを提案。SeGANは物体の見えていない領域のセグメントを生成することができる。また、occluderとoccludeeの関係も推定することができる。さらにSeNetはcategory-agnosticでありカテゴリー情報を必要としない。データセットにはDYCEを使用。

    1703.10239_img2.png1703.10239_img3.png

    新規性・結果・なぜ通ったか?

    右図に示すように、他のセグメントベースラインと比べ、SeGANが見える領域、見えない領域、それらの組み合わせの全てにおいて最も良い結果を出した。ここで、SUは見える領域のセグメント、SIは見えない領域のセグメント、SFは全体像のセグメントを表している。

    コメント・リンク集

    [#194]
    2018.6.21 15:42:10
    Leveraging Unlabeled Data for Crowd Counting by Learning to Rank
    Xialei Liu, Joost van de Weijer, Andrew D. Bagdanov
    CVPR 2018
    Shusuke Shigenaka

    概要

    群衆の画像データにおいて、ネットワークの訓練を改善するためのself-supervisedタスクを提案。タスクは集計情報とランキング情報の両方を組み合わせたマルチタスクフレームワークであり、群衆カウントのためにend-to-endで訓練できる。 群衆画像をだんだん小さくするように切り取って人数をランク付けおり、提案されたself-supervisedタスクはラベル付けのされていない群衆画像のCNNに大きく貢献した。 提案手法は群衆計測の困難なデータセットShanghaiTechとUCF CC 50においてstate-of-the-artを得ている。

    Leveraging_Unlabeled_Data_for_Crowd_Counting_by_Learning_to_Rank

    新規性・結果・なぜ通ったか?

    • 困難とされている2つのデータセットでstate-of-the-artを得たこと
    • 大人数のデータはその人数のデータより少ない数で観察というルールに基づいて計測を行っているため、大規模なトレーニングデータセットの欠如に対処することができている

    リンク集

    [#195]
    2018.6.21 15:36:28
    Conditional Image-to-Image Translation
    Jianxin Lin, Yingce Xia, Tao Qin, Zhibo Chen and Tie-Yan Liu
    CVPR 2018
    Kodai Nakashima

    概要

    image-to-image translationタスクで用いられるモデルは、ターゲットドメインの翻訳結果をコントールする機構がなく、出力結果が多様性に乏しい。この研究では、1. conditional image-to-image translationをいう問題を新たに設定し、2. この問題を解くためにconditional dual-GAN (cd-GAN) を提案する。 1では、複数の画像を組み合わせたtarget domainが入力されたsorce domainを変換する問題を扱う。複数の画像をどのようにして組み合わせるかで多様性に富んだ変換結果が得られる。

    1805.00251_img1.png1805.00251_img2.png

    新規性・結果・なぜ通ったか?

    入力は64x64とする。eA, eBは3つの畳み込み層で構成されており、各畳込み層の活性化関数にLReLUを用いる。デコレーターネットワークであるgAとgBは4つのデコンボリューション層から構成されており、はじめの3層はReLUで活性化し、4層目にはtanhで活性化する。ディスクリミネーターであるdAとdBは4つの畳み込み層と2層の全結合層から構成されており各層の活性化関数にLReLUを用いる、最後の層(2つ目の全結合層)のみsigmoidで活性化する。オプティマイザーはAdamを用い、学習率は0.0002とする。以上の設定で実験した結果を右図に示す。

    コメント・リンク集

    1. link3
    2. link3
    3. link3
    [#196]
    2018.6.21 14:34:27
    Empirical study of the topology and geometry of deep networks
    Alhussein Fawzi et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    DNN 画像クラス分類器の入力空間における位相的・幾何学的性質を実験的に分析した研究. DNN が学習している各クラスの領域は接続されたものであり, その境界は少数の大きな曲率をもつ方向と, 平坦な大多数の方向があることが確認された. また, 大きな曲率をもつ方向はデータ間で共有されており, これらの方向とネットワークの摂動に対する感度に関係性があることを確認した.

    fukuhara-Empirical-study-of-the-topology-and-geometry-of-deep-networks.png

    新規性・結果・なぜ通ったか?

    • 理論のみを用いた解析は困難なため, 実験を行って性質の分析を行った
    • DNN が学習している同じクラスの領域は接続されたものであり, その領域はほぼ凸集合になっている(凸集合に近いが実際には違う)
    • クラスの境界の主曲率は多数の方向で0であったが, 大きな値をもつ方向が少数存在
    • 主曲率の値は非対称で大きな負の値を持つ方向が多い (この結果はネットワークの構造やデータセットなどを変えても共通して確認された)
    • 主曲率の大きな値をもつ方向はデータ間で共有されていることを確認
    • 主曲率の大きな値をもつ方向は, ネットワークが誤認識をしやすい摂動の方向となっていることを確認(adversarial perturbation との関連が確認された)
    • クラスの境界の主曲率の値の非対称を用いて, 元画像と adversarial perturbation を加えられた画像を識別する方法を提案 (GoogLeNet や CaffeNet を用いて行った実験では90%以上の精度を達成)

    コメント・リンク集

    [#197]
    2018.6.21 6:30:55
    Learning to Find Good Correspondences
    Kwang Moo Yi, Eduard Trulls, Yuki Ono, Vincent Lepetit, Mathieu Salzmann and Pascal Fua
    CVPR 2018

    概要

    2枚の画像間の対応点探索を学習ベースで行う方法を提案。従来のhandcrafted特徴(SIFTなど)による手法は、特徴量により候補を決めた上でRANSACなどのアルゴリズムで対応点かそうでないかを決定する。 本研究では同様に、候補となる対応点の中から実際に対応しているペアをMulti Layer Perceptrons(MLPs)により決定する。 対応点の数は画像によって異なるので、ネットワークには対応点のペア(4変数)毎に実際に対応しているかの判定を行う。 一方で、中間層出力を全ペアの平均と分散により正規化することでglobal contextを考慮する。(Context Normalization) 学習は、ペアの判定が正しいか、判定結果を用いてessential matrixが正しく求められるかによって行う。 その際、学習データに対して対応点のアノテーションを手動で与えるのは非常に時間がかかってしまう。 そこでepipolar distanceを用いた閾値処理により対応点を取得する。

    Item3Image

    新規性・結果・なぜ通ったか?

    ベースラインと比較して、学習したシーン、学習していないシーンどちらにおいても高い精度ないし同等の精度を出すことに成功。59枚の学習データのみで学習した場合であっても、ベースラインと比べ高い精度を出すことに成功。 RANSACのみで対応点を決定する場合より、提案手法により候補を絞った上でRANSACにより更に候補を削るほうが17倍計算時間が早い。

    コメント・リンク集

    [#198]
    2018.6.21 01:21:08
    Facelet-Bank for Fast Portrait Manipulation
    Ying-Cong Chen, Huaijia Lin, Michelle Shu, Ruiyu Li, Xin Tao, Xiaoyong Shen, Yangang Ye and Jiaya Jia
    CVPR 2018

    概要

    顔のattributeを編集するEnd-to-Endのネットワークを提案した。ドメイン間の変換を考えるのではなく、Encoderにより得られた特徴のドメイン間の差分を考えることにより特徴の付与を実現する。 ドメイン毎の特徴は、全ての学習データの平均ではなく入力画像の最近傍K枚の平均を考える。 Encoderにより入力画像から得られた特徴から、Facelet Bankというネットワークによりドメイン間の差分を求める。

    Item3Image

    新規性・結果・なぜ通ったか?

    従来手法と比較して、artifactが少なく高解像度の画像を出力することが可能になった。女性に髭を付与するなど学習データには存在しないようなものの場合、従来法では男女の違いが付与されて髭以外の変化が加わってしまう。 しかし、編集に重要な領域(髭→口周り)のみに変化を施すため従来手法よりも自然な変化が実現可能である。

    コメント・リンク集

    比較的関連研究が多そうな研究だったが比較対象が2つと少なめ

    [#199]
    2018.6.20 22:09:57
    Every Smile is Unique: Landmark-Guided Diverse Smile Generation
    Wei Wang,Xavier Alameda-Pineda, Dan Xu, Pasal Fua, Elisa Riccia and Nicu Sebe
    CVPR2018

    概要

    1枚の顔画像から、指定した表情に変化する動画を生成する手法を提案。たとえ同じ笑顔であっても、作り笑いとそうでない場合など目の動きなど顔の変化は異なる。 そこで、指定された表情に対して複数の動画を生成する手法を提案した。 入力画像とラベルから、指定されたラベルに対して適した顔特徴点の変化を複数のネットワークによって予測する。 その際、各ネットワークの予測がお互いに類似しないように最適化することで動画を複数用意することなく予測することを可能とする。 予測した顔特徴点から各フレームの顔画像を復元することにより、動画の生成を実現する。

    Item3Image

    新規性・結果・なぜ通ったか?

    従来の動画生成に関する研究と比べ、artifactが少なく与えられた画像の人物の個人性を保った合成を実現した。ユーザースタディの結果、比較対象とした研究よりも提案手法により生成された動画のほうが圧倒的に好まれるということが分かった。 Action Unit(AU)の変化を調べたところ、提案手法により生成された動画は実際の動画に近い変化をすることが分かった。

    コメント・リンク集

    [#200]
    2018.6.19 19:37:44
    Creating Capsule Wardrobes from Fashion Images
    Wei-Lin Hsiao and Kristen Grauman
    CVPR2018

    概要

    Capsule Wardrobesという、良い組み合わせが多数存在するファッションアイテムのセットを自動で作る手法を提案。ファッションアイテムのセットに対して、それで実現可能なファッションの親和性と多様性を最大化することによりセットを決定する。 注目レイヤー以外を固定して最適化することを繰り返すことでファッションアイテムの選択を行う。 ファッションの親和性を決定するために、トピックモデルをベースとした教師なし学習による全身画像からのファッションの評価方法を構築した。

    Item3Image

    新規性・結果・なぜ通ったか?

    ファッションサイトに掲載されているCapsule Wardobesと作成したものに含まれるファッションアイテムの類似度を測った結果、ベースラインと比べ提案手法により選ばれたものの方が類似度が高いという結果が得られた。提案手法である繰り返しの最適化と貪欲法による最適化結果をユーザースタディで比べたところ、提案手法のほうが好ましいと答えた人が59%いた。 また、個人の好みに応じたCapsule Wardrobesの作成が可能である。

    コメント・リンク集

    [#201]
    2018.6.19 21:07:56
    Anticipating Traffic Accidents with Adaptive Loss and Large-scale Incident DB
    Hirokatsu Kataoka, Tomoyuki Suzuki, Yoshimitsu Aoki and Yutaka Satoh
    CVPR 2018
    Kodai Nakashima

    概要

    交通事故予測のため, 1. loss関数としてAdaptive Loss for Earlay Anticipation (AdaLEA)と2. 予測のためのNear-miss Incident DataBase (NIDB) の提案を行った. AdaLEAにより, モデルが学習過程において, 徐々に早く危険を予測できるように学習される. モデルが交通事故を予測する速さでペナルティを与えることにより, これを実現する. NIDBは, 多くの交通ニアミス動画を含んでおり, 危険と危険要素予測の評価用アノテーションが付けられている.

    1804.02675_img1.png1804.02675_img2.png

    新規性・結果・なぜ通ったか?

    ベールモデルとしてDSA, LSTM, QRNN, loss関数としてEL, LEA, AdaLEAを用いて実験した.その結果, 危険予測では, mAPが6.6%上昇, ATTCが2.36sec速くなった. また, 危険要素予測では, mAPが4.3%上昇, ATTCが0.70sec速くなった.

    コメント・リンク集

    [#202]
    2018.6.20 20:03:48
    “Zero-Shot” Super-Resolution using Deep Internal Learning
    Assaf Shocher, Nadav Cohen, Michal Irani
    CVPR 2018
    Shusuke Shigenaka

    概要

    実際の古い写真,ノイズの多い画像,生物学的データ,取得プロセスが不明または非理想的な画像のSuper-Resolution(SR)を実行を行うことができるZero-Shot SR(ZSSR)を提案.過去の画像例や事前訓練に依存することなく,Low-Resolution(LR)とその縮小版から複雑な画像特有のHR-LR関係を推論するCNNを訓練を行うことにより, 実際のLRの画像において,State-of-the-artなCNNベースのSRおよび教師なしSRよりも優れている.

    Zero-Shot171206087

    新規性・結果・なぜ通ったか?

    SR-CNNは大規模な外部データベースの画像を事前に訓練しているのに対し,ZSSRは小さな画像から粗い解像度のテストデータを訓練.

    ZSSRは同じ教師なしのSelfExSRにと比べ全てのDataSetにおいて優れている.教師あり学習でも通常のLRはあまり変わらない精度を出しており,未知LR画像で確認をするとかなり優れた精度を出している.

    [#203]
    2018.6.20 11:43:55
    Crafting a Toolchain for Image Restoration by Deep Reinforcement Learning
    Ke Yu et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    強化学習(Deep Q-learning)を用いた画像復元の研究. 単一の大きなネットワークを用いる手法とは対照的に, 特定の distortion に対する復元に特化した小さなネットワークを複数集めて toolbox とし, agent が各ステップにおいて最適な tool を選択することで段階的な復元を行う. 評価実験では従来の大きな単一のCNNを用いた手法と同程度の精度を20%程度の計算量で実現した.

    fukuhara-Crafting-a-Toolchain-for-Image-Restoration-by-Deep-Reinforcement-Learning.png

    新規性・結果・なぜ通ったか?

    • 強化学習を用いて段階的に画像復元を行うフレームワークを提案
    • agent は action として, 各ステップにおいて特定の distortion に対する復元に特化した小さなネットワークを複数集めた toolbox の中から最適なものを選択
    • 段階的な復元を行うと中間のステップにおいて生じる複雑な atifact を扱うため agent と tool の joint training アルゴリズムを提案
    • DIV2K dataset を用いて行った評価実験では, PSNR 尺度において単一の大きなCNNを用いた場合と同程度の精度を約20%計算量で実現

    コメント・リンク集

    [#204]
    2018.6.20 8:58:55
    Reward Learning from Narrated Demonstrations
    Hsiao-Yu Tung et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    動画による教示と言語による説明を組み合わせて Reward の学習を行う研究. 言語情報によって与えられた目標の達成の可否を, 画像情報から判断する Instractable Perceptual Rewards を提案し, 学習用のデータセットを作成した. また, 評価実験では教師ありで静止画像のみから学習した場合と比較して, 優位な結果を達成した.

    fukuhara-Reward-Learning-from-Narrated-Demonstrations.png

    新規性・結果・なぜ通ったか?

    • 言語情報によって与えられた目標の達成の可否を, 画像情報から判断する Instractable Perceptual Rewards を提案
    • 上記の教師データとして, 動画による教示に言語による説明を付随した, Narrated Visual Demonstration (NVD) のデータセットを作成した
    • 提案手法は hard negative mining によって少ない教師データからの効率的な学習が可能
    • 評価実験では Visual Genome のみを用いて学習した手法 [Hu+16] と比較して優位な結果を達成
    [#205]
    2018.6.18 23:54:55
    Trust Your Model: Light Field Depth Estimation With Inline Occlusion Handling
    Hendrik Schilling, Maximilian Diebold, Carsten Rother, Bernd Jähne
    CVPR 2018

    概要

    LightFieldカメラからの距離画像推定の問題を提案。オクルージョンに伴う物体境界の精度や質向上に対して操作を行なったことが貢献である。従来法とは異なり、PatchMatchをベースラインとして距離画像とオクルージョン領域を同時推定を直接的に行う。同時推定を行うことで、データを全て同時に学習に用いることができ、さらに前処理のステップが不要になる。結果的には、オクルージョン領域の推定を行い物体境界をケアしただけでなく滑らかな表面再構成に成功した。公開されているLightFieldデータセットにて評価した結果、12のうち9の指標においてState-of-the-artな数値を出した。

    180618TrustYourModel

    新規性・結果・なぜ通ったか?

    ライトフィールドカメラを用いた距離画像推定においてオクルージョン対策を講じた。距離画像とオクルージョン領域を同時推定する手法では既存のライトフィールドカメラにおける評価指標においてState-of-the-art。さらに、平面推定においても高度な推定を実現した。

    コメント・リンク集

    同時推定のうまい手法を考案、副次的に平面が滑らかになるというのも面白い!

    [#206]
    2018.6.18 23:54:56
    MobileNetV2: Inverted Residuals and Linear Bottlenecks
    Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, Liang-Chieh Chen
    CVPR 2018

    概要

    モバイルで動作する新規アーキテクチャMobileNetV2の提案論文、データセットを用いた複数タスクにてState-of-the-artな精度を達成した。物体検出のモデルであるSSDLiteやセマンティックセグメンテーションのモデルであるMobile DeepLabv3を考案した。これらはInverted Residual Structureと呼ばれる、ショートカットコネクションが小さなボトルネックレイヤに挟まれた構造を最小ユニットとして構成される。中間の拡張レイヤは非線形関数として軽量化されたdepthwiseの畳み込みとして実装される。右図に本論文の重要技術であるInverted Residual Blockについて示す。従来のResidual Block(左)は前後のdepthが広いが、提案のInverted Residual Blockは中ふたつがdepthが広く、前後は狭い。

    180618MobileNetV2

    新規性・結果・なぜ通ったか?

    Inverted Residual Blockの提案等によりモバイルサイズのモデルにおいても良好な認識精度のモデルを提案することに成功。認識精度とパラメータ数のトレードオフについても良好で、さらにはCPUにおいても高速に動作することを示しCVPRに採択された。

    コメント・リンク集

    モバイルネットv2、応用範囲が広そう。

    [#207]
    2018.6.18 23:07:41
    PoseFlow: A Deep Motion Representation for Understanding Human Behaviors in Videos
    Dingwen Zhang, et al.
    CVPR 2018
    Munetaka Minoguchi

    概要

    動画から人間の行動を理解するためのPoseFlowの提案。PoseFlowはオプティカルフローに代わる新しい動き表現であり、背景の動きによるノイズやオクルージョンに頑健。人間の骨格位置とマッチングの2つの問題を同時に解決するようなネットワークであるPoseFlow Net(PFN)を提案し、学習する。これにより、人体の部分のみに動きベクトルが付与された出力を得ることができる。

    20180619PoseFlow.jpg

    新規性

    従来手法では、オプティカルフローを使ってモーションキューを探索している場合が多いが、背景の動きなども取ってしまうので“ノイズが多い動きの表現”であり、姿勢推定や行動認識のタスクにおいて支障をきたす。実験では、従来手法と比較して、姿勢推定や行動認識タスクにおいて高精度となっている。

    結果・リンク集

    図のように、オプティカルフローでは背景の動きも取ってしまい、ぼんやりとした出力になっているが、PoseFlowでは人間の骨格の動きのような情報を取得することができる。

    [#208]
    Stereoscopic Neural Style Transfer
    Dongdong Chen, et al.
    CVPR 2018
    1802.10591
    Munetaka Minoguchi

    概要

    3D映画やAR / VRの需要に先駆けた、Stereoscopic Neural Style Transferの提案。スタイルトランスファーによって、左右視点での整合性を保持するために、style loss functionにdisparity lossを追加し、左右視点での視差制約を設けている。また、リアルタイム性を考慮したソリューションの開発に取り組み、stylization sub-networkとdisparity sub-networkの2つを共同してトレーニングできるモデルを提案。

    20180619SNST.jpg

    新規性

    ステレオカメラを使ったスタイルトランスファー手法。通常、図(a)のような左右視点の画像とスタイル画像を入力すると1行目のように,左視点(b)と右視点(c)のように左右の視点で差が生じる(d)。このような不一致性は、(e)のアナグリフ画像のようになり、視聴者へ左右視点での三次元的視覚疲労が生じさせる。提案手法ではこのような不一致性を抑制し、2行目のように整合性のとれたスタイルトランスファーを可能にする。

    結果・リンク集

    提案手法によって、時間的および視差の整合性を考慮しており、3D映像を拡張できる。定量的および定性的評価によって、従来手法よりも高精度であることを示唆。

    [#209]
    A Common Framework for Interactive Texture Transfer
    Yifang Men, et al.
    CVPR 2018
    Munetaka Minoguchi

    概要

    局所構造と視覚的豊かさの両方を保持できる、より汎用的なtexture transfer問題を解決するための提案。元画像と元画像のセマンティックマップ(aのようなセグメンテーション画像)と、変換後となるセマンティックマップの3つを入力とする。変換顔のセマンティックマップを元にスタイルトランスファーを実行する(ゴッホを痩せさせるなど)。contour key points match(CPD)やTPSアルゴリズムをベースとしたstructure propogation手法を提案している。

    20180619ITT.jpg

    新規性

    タスクの多様性と、ユーザガイダンスの簡潔さをテーマに取り組んでいる。図のように、(a)簡単な絵をアートワークに変更、(b)装飾パターンの編集、(c)テキストに特殊効果を付与、(d)テキスト画像における効果を制御、(e)テクスチャの交換、などユーザのガイダンスによってさまざまなテクスチャの変換を実現できる。

    結果・リンク集

    他の手法と比較して、人間の視覚的にもより自然な変換ができている。

    [#210]
    Min-Entropy Latent Model for Weakly Supervised Object Detection
    Fang Wan, Pengxu Wei, Jianbin Jiao, Zhenjun Han and Qixiang Ye
    Munetaka Minoguchi

    概要

    弱教師付き学習で物体検出を行うmin-entropy latent model (MELM)の提案。MELMは、object discoveryとobject localizationの2つのサブモデルで構成され、end-to-endで学習可能。 object discoveryで、 global min-entropyと画像分類lossを最適化。local min-entropyとソフトマックスを最適化。グローバルとローカルそれぞれで物体を検出し、エントロピーを最小化し、グローバルからローカルへ物体確率を伝播。

    20180619Min-Entropy.jpg

    新規性

    弱教師付き学習による物体検出は、物体位置と検出を同時に学習するのが困難。弱教師と学習目標間に不一致が生じると物体位置にランダム性が生じ、検出器をうまく学習できない。min-entropyによって、学習中の物体位置のランダム性を計測し、物体位置を学習することができ、検出器のあいまいさを回避できる。

    結果・リンク集

    回帰的に学習することによって、弱教師であっても精度向上。

    [#211]
    Avatar-Net: Multi-scale Zero-shot Style Transfer by Feature Decoration
    Lu Sheng, Ziyi Lin, Jing Shao and Xiaogang Wang1
    CVPR2018
    Yuta Matsuzaki

    概要

    既存手法のZero-shot style transferでは画像生成と効率のトレードオフによって,高品質な画像の生成とリアルタイムでの画像生成(style transfer)が困難.本稿ではこの問題を解決し,効率的かつ効果的な画像生成が可能なAvatar-Netを提案.提案手法では,高品質なstyle transferを可能にし,有効性および効率についても実証.さらに複数のスタイルの統合や動画のデザインを用いたアプリケーションも実装.

    12

    新規性・結果・なぜ通ったか?

    3

    • 任意のスタイル画像から意味的に抽出されたスタイル特徴によってコンテンツ特徴を構成するスタイルデコレータを提案
    • スタイルデコレータにより,全体の特徴分布を一致させるだけでなく,装飾された特徴のスタイルパターンも保持
    • スタイルデコレータをマルチスケールで抽象化したスタイルを融合させるimage reconstruction networkに組み込むことで,Avatar-Netは1つのフィードフォワードパスでスタイル画像のマルチスケールのスタイルのレンダリングが可能

    コメント・リンク集

    [#212]
    2018.6.19 16:39:58
    Real-World Repetition Estimation by Div, Grad and Curl
    Tom F. H. Runia, Cees G. M. Snoek andArnold W. M. Smeulders
    CVPR2018
    Yuta Matsuzaki

    概要

    動画中に存在する繰り返しの動作を推定する問題について考慮.既存の研究(フーリエベース)では静的および定常周期性という仮定のもとでは良好な精度であるが,現実的なシーンにおいては測定が困難.そこでウェーブレット変換を適用し,非静的かつ非定常な動画においても適切に処理できる手法を提案.また,非静的かつ非定常な動画で構成されるQUVA Repetition datasetを提案.動画内の繰り返し動作のカウント実験では深層学習による手法に比べ,良好な精度を実現.

    12

    新規性・結果・なぜ通ったか?

    • 流動場とその微分から,3つの基本的な運動タイプと3次元内の固有周期性の3つの運動周期性を導出
    • 3次元の周期性の2次元的な知覚は2つの極端な視点を考慮しており,18の基本的なケースを考慮
    • 様々な繰り返し動作の出現に対応するために,セグメント化された前景の動きに対する時間変化量Ftおよびその差異∇Ft,∇・Ftおよび∇×Ftを測定

    コメント・リンク集

    [#213]
    2018.6.19 15:04:59
    CartoonGAN: Generative Adversarial Networks for Photo Cartoonization
    Yang Chen, Yu-Kun Lai and Yong-Jin Liu
    CVPR2018
    Yuta Matsuzaki

    概要

    実世界の風景画(写真)を漫画スタイルの画像へ変換する手法の提案.漫画スタイル変換のためのGAN,CartoonGANを提案.ペアの画像を使用しない学習方法を採用し,そのための新規の損失関数を提案.実験では,写真のエッジや滑らかな陰影を保持したまま,アーティストのスタイルを表現することが可能であることを確認.

    12

    新規性・結果・なぜ通ったか?

    画風変換には以下のような問題が存在,これにより既存の損失関数においては表現が困難

    • 漫画のスタイルは高レベルの単純化と抽象化で独特な特徴を表現
    • 漫画は鮮明なエッジ,滑らかな色合い,比較的シンプルなテクスチャを保有この問題に対処するために以下のような損失関数を提案
    • semantic content loss:写真と漫画間のスタイル変換に対応するために,VGGNetの特徴マップを疎な正則化によって定式化
    • edge-promoting adversarial loss:鮮明なエッジを維持

    コメント・リンク集

    [#214]
    2018.6.19 13:57:31
    Neural Style Transfer via Meta Networks
    Falong Shen, Shuicheng Yan and Gang Zeng
    CVPR2018
    Yuta Matsuzaki

    概要

    本稿ではメタネットワークを用いた1つのフィードフォワードパスによる,(style transferのための)ニューラルネットワークパラメータを自動生成する手法を提案.最新のGPU 1つで19 ms以内に任意の新しいスタイルを表現することが可能.また,生成された画像変換ネットワークの容量はわずか449 KBでありモバイルデバイス上でリアルタイムでの実行が可能.

    1

    23

    新規性・結果・なぜ通ったか?

    既存のstyle transferに関する研究の問題点

    • スタイル毎にネットワークを学習する必要
    • 推論の段階で確率的勾配降下による膨大な反復作業によって新規スタイルによる生成能力を欠く可能性

    以上の問題に対応するための策として

    • スタイル画像を取り込み,対応する画像変換ネットワークを直接生成するメタネットワークを構築

    さらに

    • 最新のGPU 1枚で19 ms以内に任意の新しいスタイルを表現
    • 生成された画像変換ネットワークの容量はわずか449 KB
    • メタネットワークのhidden featuresを操作することによってスタイル転送ネットワークの多様性について検証

    コメント・リンク集

    [#215]
    2018.6.19 17:17:35
    Learning deep structured active contours end-to-end
    Diego Marcos, Benjamin Kellenberger, Lisa Zhang, Min Bai, Renjie Liao, Raquel Urtasun
    CVPR 2018
    Shusuke Shigenaka

    概要

    この論文は,隣接する建物の境界線を幾何学的特性を利用して正確に描画するDeep Structured Active Contours (DSAC)の提案である.DSACは制約条件であるActive Contour Models(ACM)と従来のポリゴンモデルを使用している. 今回はCNNを用いてインスタンスごとのACMのパラメータを学習し, 構造化された出力モデルに全てのコンポーネントを組み込む方法を示し,DSACをend-to-endで学習可能にした. この論文は3つの困難なデータセット"building","instance","segmentation"をDSACで評価し, state-of-the-artと比較して優れた結果を残している.

    Learning_deep_structured_active_contours_end-to-end

    新規性・結果・なぜ通ったか?

    • CNNベースの方法に高度な幾何情報を利用可能にすることを目指している.
      • 明示的に多角形の出力を生成するCNNの作品はあまり行われていない
    • CNNによる構造化学習はインスタンスレベルのセグメンテーションを扱う作業で認識されない.
      • 本手法は相互依存性をACMで調整することを学ぶため,損失をCNNで学習できる.
    • IoUとエリア推定において従来のDSACより高い精度

    リンク集

    [#216]
    2018.6.19 17:47:24
    TieNet: Text-Image Embedding Network for Common Thorax Disease Classification and Reporting in Chest X-ray
    Xiaosong Wang et al.
    CVPR2018
    1801.04334
    Takumu Ikeya

    概要

    • 胸部のレントゲン写真から胸部疾病の分類及び報告を行うためのテキスト画像埋め込みネットワークの提案.
    • 意味のあるテキストワードや画像領域を可視化するためのmultilevel attention modelsをend-to-endで学習可能なCNN-RNNアーキテクチャに統合.

    TieNet.PNG

    新規性・結果・なぜ通ったか?

    • 分類精度を向上させるため,学習からattentionベースの画像と文字列内部表現の両方を組み合わせる手法が特徴.
    • 提案したフレームワークは作成した評価用データセットの疾病ラベル割り当てタスクでAUCs平均0.9を達成.

    コメント・リンク集

    [#217]
    2018.6.19 16:12:55
    Free supervision from video games
    Philipp Krahenbuhl
    CVPR2018
    Masaki Miyamoto

    概要

    深層ネットワークでは大量のデータが必要で,ラベル付けされたデータはネットワークのデザイン同様深層ネットワークにとって重要である.しかし手作業の収集はお金と時間がかかる.そこでMicrosoftのDirectXレンダリングAPIを用いてゲームをやりながらリアルタイムでセグメンテーションやオプティカルフローなどのための正解ラベルを作成する手法を提案する.集めたデータセットは他の合成データセットより視覚的に現実世界と近いものになっている.

    from_game.PNG

    新規性・結果・なぜ通ったか?

    このシステムはリアルタイムにすべてのラベルを計算するため直接ゲームのレンダリングパイプラインにコードを組み込んでいる.また人によるアノテーションが必要ない.さらに,様々なデザインの複数のゲームにおいてこの手法を用いることができる.

    コメント・リンク集

    [#218]
    2018.6.19 16:11:51
    Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?
    Kensho Hara, Hirokatsu Kataoka, Yutaka Satoh
    CVPR 2018
    arXiv:1711.09577
    Tenga Wakamiya

    概要

    動画データセット上の比較的浅いものから非常に深いものまでの様々な3DCNNの構造を調べた.

    Can_Spatiotemporal_3D_CNNs_Retrace_the_History_of_2D_CNNs_and_ImageNet.png

    新規性・結果・なぜ通ったか?

    • ResNet-18の学習は,UCF-101,HMDB-51,およびActivityNetの過学習していて,Kineticsは過学習しなかった.
    • Kineticsのデータセットは,深い層の3DCNNで学習するために十分なデータがあり,ImageNetの2D ResNetsと同様に,最大152のResNets層の学習を可能にし,ResNeXt-101は,Kineticsのテストセットで平均78.4%の精度がある.
    • UCF-101およびHMDB-51上の複雑な2DアーキテクチャよりもKineticsの事前学習されたシンプルな3Dアーキテクチャが優れていて,UCF-101およびHMDB-51でそれぞれ94.5%および70.2%を達成した.

    コメント・リンク集

    [#219]
    2018.5.29 15:59:46
    Gibson Env: Real-World Perception for Embodied Agents
    Fei Xia, Amir R. Zamir, Zhiyang He, Alexander Sax, Jitendra Malik and Silvio Savarese
    CVPR 2018

    概要

    ロボットなどのエージェントに知覚を身につけさせるためのGibsonという仮想環境を提案した。Gibsonは572の建物、1447のフロアから構築されている。 RGB-Dデータから、任意のカメラ位置でレンダリングする場合欠損が生じてしまう。 そこで、複数のカメラ位置でレンダリングした画像を組み合わせた上で、Neural Netにより欠損箇所を保管する。 得られた画像はリアルではないため、レンダリング画像とリアル画像間のドメイン変換手法Gogglesを提案した。 また、物理エンジンを組み込むことにより、実世界で起こる衝突などの判定を可能にした。

    Item3Image

    新規性・結果・なぜ通ったか?

    目的地へ向かう、階段を上るといったエージェントのタスクに加え、depth推定、シーン認識によって有効性を検証した。実世界で撮影した画像によるテストでは、他のデータセットと比べ1番精度が良かった。

    コメント・リンク集

    [#220]
    2018.6.19 14:37:08
    Multimodal Visual Concept Learning with Weakly Supervised Techniques
    Giorgos Bouritsas, Petros Koutras, Athanasia Zlatintsi and Petros Maragos
    CVPR2018

    概要

    従来の動画認識に関する研究は、映像情報のみを用いているものが多く字幕のようなテキストや音などの情報は利用されていない。動画認識のタスクに、映像情報に加えテキスト情報を利用するための手法を提案した。 考慮すべきこととして、映像とテキストの情報が時系列的にどのように対応しているか、同じラベルに対してテキストでは複数の表現方法が存在している、という2つの点が挙げられる。 そこで、時系列的な対応付けを行うFuzzy Sets MIL(FSMIL)とテキストがどのラベルに対応しているかを推定するProbabilistic Labels MIL(PLMIL)の2つの学習方法を提案した。

    Item3Image

    新規性・結果・なぜ通ったか?

    動画認識タスクとして、顔認識及びアクション認識の2つによりテストを行いベースラインと比べ精度が向上したことを確認した。

    コメント・リンク集

    [#221]
    2018.6.19 13:04:08
    Photometric Stereo in Participating Media Considering Shape-Dependent Forward Scatter
    Y. Fujimura, M. Iiyama, A. Hashimoto, M. Minoh
    CVPR2018
    Ryota Suzuki

    概要

    濁った水や霧の中で撮影したような,散乱光により劣化したような画像に対して適用可能な3D復元手法の提案.

    形状依存の前方散乱(forward scatter)を扱うモデルを考え,ルックアップテーブル使用で解析的に求める, それを空間的変化カーネルとして表現する. また,前方散乱の除去を可能にする,大規模密行列を疎行列に近似する手法を提案.

    Figure1

    新規性・結果・なぜ通ったか?

    厳密に形状依存の表面-カメラ間前方散乱をモデル化し,その解析的解法を提案したものは初めて.

    実,合成データに対して改善的性能を示した.

    コメント・リンク集

    [#222]
    2018.6.21 13:38:56
    Sparse, Smart Contours to Represent and Edit Images
    T. Dekel, D. Krishnan, C. Gan, C. Liu, W. Freeman
    CVPR2018
    Ryota Suzuki

    概要

    かなりスパースな輪郭線(元画像の4%程度のデータ量)から大変きれいな画像の復元ができ,更に輪郭線を調節すると大変きれいにパーツ位置を変えられる. 参照画像も変更できるので,髪を生やせるし,(効果は薄いが)人の鼻を犬っぽくできる.

    まず,入力の輪郭線を工夫する.この手法でスパースな輪郭線を取り, 輪郭線の左右の画素の色(RGB)を色値(RGB×左右=計6値)とする. また,画像の各色における勾配を取り,輪郭線の位置におけるRGB×XY成分=計6値を勾配値とする. ここからN次元特徴マップを(GANを回している最中に)学習する. 構造はDeeplabを参考にしたDilated Conv.による簡素なネットワーク構造による.

    この輪郭線特徴を入力として,2段階の復元用U-Netを生成器に,Dilated-Patch Discriminatorを判別器にしたGANを回す.

    Figure1

    新規性・結果・なぜ通ったか?

    アプリケーションとしてかなり使い出かあるように見える.

    コメント・リンク集

    実験的に見て,N=3がいいらしい.

    [#223]
    2018.6.19 10:30:38
    Document Enhancement using Visibility Detection
    N. Kligler, S. Katz and A. Tal
    CVPR2018
    Ryota Suzuki

    概要

    文書から二値化,陰影除去をするのに使えるDocument Enhancementの話.文書平面を三次元化し,文書面から凸凹を除去するという形で可視領域(Visibility)の検出をし, それをベースに鮮鋭化するというやり方. 本手法を前処理として,二値化手法や陰影除去を適用するとSOTA性能を上回る.

    Figure1

    新規性・結果・なぜ通ったか?

    基本方針としては,識別性を高める高次元空間への変換のやり方を考えました,という非ディープなパタレコにおけるノリ.

    論文の質としては他論文と比較して若干劣るように感じられるが,「平面だけど三次元点群にするとうまくいくとは,驚きだ!」と言っていて,それがウケたのだろうか. おそらく当初の発想も文書の凸凹を消すという発想だったと思われる.

    コメント・リンク集

    肝心の3次元空間への射影の具体的な実装((x, y)→(θ,φ)の部分)が読み取れませんでした.どなたか再現できたらご教授頂けますと幸いです.

    [#224]
    2018.6.19 09:52:48
    An Efficient and Provable Approach for Mixture Proportion Estimation Using Linear Independence Assumption
    Xiyu Yu, Tongliang Liu, Mingming Gong, Kayhan Batmanghelich, Dacheng Tao
    CVPR 2018

    概要

    混合分布内のラベルなしデータと少量のラベルありデータから正しく分布の重み(Weights of components)を推定し、画像分類を行う問題を提供。この問題自体をMixture Proportion Estimation(MPE)という。

    180618LinearIndependenceAssumption

    新規性・結果・なぜ通ったか?

    データに多数のノイズを含んでいても、少量のラベル付きデータから混合分布の割合を把握して正しく画像分類を行うことができるアルゴリズムを提案。Web画像に見られるラベルノイズが発生している学習/Semi-supervised学習、合成データ/実世界データの両者においてState-of-the-artな精度を達成した。

    コメント・リンク集

    ラベルノイズに関する新規の問題MPEを提供した。一見すると既存の問題と思われるようなものでもまだまだ重要で提案されていない問題は残っている?

    [#225]
    2018.6.18 22:55:08
    Geometry Aware Constrained Optimization Techniques for Deep Learning
    Soumava Kumar Roy, Zakaria Mhammedi, Mehrtash Harandi
    CVPR 2018

    概要

    勾配の最適化手法であるStochastic Gradient Descent(SGD)やRMSPropアルゴリズムをRiemannian Optimizationの設定にて一般化する手法を提案する。SGDはDNNでは一般的に用いられるが、勾配の最適化に大きな分散があり、一方でRMSPropやADAMがこの問題を解決するために提案されてきたが決定だとは言えなかった。本論文ではRiemannian Centroidsの計算や深層距離学習(Deep Metric Learning)を考慮して勾配最適化の不安定性に取り組む。詳細画像識別問題に取り組むことで提案手法の有効性を示した。右図は最適化のイメージ図であり、Riemannian多様体空間で勾配計算と誤差最適化を測ることで安定感のある最適化を実現。

    180618GeometryAwareConstrainedOptimization

    新規性・結果・なぜ通ったか?

    多様体空間で最適化を実現するcSGD-M/cRMSPropを提案、問題設定に対して拘束を強めてダイレクトに最適化ができる手法とした。機械学習の文脈において、PCA/DMLの拡張と位置付けられる手法を提案。同枠組みを詳細画像識別問題に適用したところ、Competitiveな結果を達成した。

    コメント・リンク集

    発想が数学の人、〜を**の枠組みで最適化するというのは得意技?

    [#226]
    2018.6.18 22:31:00
    View Extrapolation of Human Body from a Single Image
    Hao Zhu, Hao Su, Peng Wang, Xun Cao, Ruigang Yang
    CVPR 2018

    概要

    ある視点の人物画像からターゲットとなる視点(Novel View)の人物画像を復元するタスクを提案。従来法であるVSAP(参考文献40)では正確な視点変化に関するフローを推定することができなかったが、提案法ではまず距離画像を推定してからフロー推定することで精度を劇的に改善した。

    180618ViewExtrapolationHumanBody

    新規性・結果・なぜ通ったか?

    距離画像の復元(予め形状を復元することに相当)することにより、ビューポイント変化に関するフローの推定精度を劇的に向上させ、さらにバックフローも組み合わせることでターゲット視点の人物画像復元を改善。距離画像の復元からオプティカルフローの推定を行うこのような枠組みをShape-from-Appearanceという?3次元的な情報があることで姿勢に関するバリエーションがあったとしてもロバストなビューポイント変化の人物画像推定が可能。合成データによる人物画像データセットも作成、2,000の姿勢に対して22のアピアランス変化を含む。

    コメント・リンク集

    以前は経由する情報をいかに少なくしてダイレクトに復元を行うか、が重要であったが、DNN時代になってから効果的な情報復元(この場合は距離画像による形状復元)を経由することにより推定精度が向上。

    [#227]
    2018.6.18 22:01:34
    Geometric robustness of deep networks: analysis and improvement
    Can Kanbak, Seyed-Mohsen Moosavi-Dezfooli, Pascal Frossard
    CVPR 2018

    概要

    幾何学的な変換に頑健なDNNを考案。従来のDNNでは例えば右図のようなアフィン変換(ここでは主に回転)に対して脆弱であり、上図では馬の種類を答えていたものが、多少の回転を与えるだけで犬の種類を答えてしまう。本論文ではManiFoolというシンプルだがスケーラブル、多様体(Manifold)ベースのアルゴリズムManiFoolを提案、幾何学的な変化に対する不変性や複雑ネットワークに対する評価を行う。さらに、Adversarial Trainingにより幾何学的な変動に頑健なモデルとなるような学習法を実装した。

    180618GeometricRobustnessDNN

    新規性・結果・なぜ通ったか?

    最小の幾何学的変換により認識を誤ってしまう問題に対して不変性を計測するManiFoolを提案したことがもっとも大きな貢献である。ImageNet等の大規模データに対して幾何学的変換とそのロバスト性を評価した最初の論文である。ManiFoolアルゴリズムをAdversarial Trainingに応用して幾何学的変換に対してロバストな学習法を提案。

    コメント・リンク集

    実環境(撮影時のカメラのビューポイント)を多少回転させるのではなく画像をダイレクトなアフィン変換にて回転させるからエラーが生じる?もう少し解析して欲しいような気もする。

    [#228]
    2018.6.18 21:28:50
    Learning Strict Identity Mappings in Deep Residual Networks
    Xin Yu, Zhiding Yu, Srikumar Ramalingam
    CVPR 2018

    概要

    自動的に冗長なレイヤを除外してくれるε-ResNetを提案し、よりコンパクトなサイズで最大限の認識パフォーマンスを実現する。ε-ResNetでは閾値εを設けて、これよりも小さい値を出力するレイヤに対して誤差を計算しないという方策を取る。提案法であるε-ResNetを実現するために、少量のReLUを加えることで実現した。CIFAR-10,-100,SVHN,ImageNetに対して単一のトレーニングプロセスで学習が成功し、なおかつ約80%ものパラメータ削減を実行した。右図は752層のε-ResNetを実装して最適化した例である。図中の赤ラインは除去されたレイヤ、青ラインは認識に対して必要と判断されたレイヤである。図の例では、CIFAR-100に対するオリジナル(ResNet-752)のエラー率が24.8%、提案法(ε-ResNet-752)のエラー率が23.8%であった。

    180618EpsilonResNet

    新規性・結果・なぜ通ったか?

    ResNetを対象として、レイヤを増加させることによる冗長性を自動的に除去してくれるε-ResNetを提案した。ε-ResNetは従来の枠組みに対して4つのReLUを組み合わせ、閾値カット処理だけで実装可能である。より深い層のモデルに対して有効であり、大体80%くらいの冗長生をカットする。パラメータ数を減らしつつも超ディープなモデルにおいて多少の精度向上が見込める。

    コメント・リンク集

    実装が非常に簡単そうであり、すでにDNNフレームワークにおいて実装されていれば、広く使ってもらえそう。また、各タスク(e.g. 物体検出、セグメンテーション、動画認識)において気軽に使用することができれば、広がりがありそう。

    [#229]
    2018.6.18 20:51:56
    Generative Adversarial Perturbations
    Omid Poursaeed, Isay Katsman, Bicheng Gao, Serge Belongie
    CVPR 2018

    概要

    敵対的サンプル(Adversarial Examples)を生成的に作りだすモデルを考案し、自然画像に対して摂動ノイズを与えて学習済みモデルを効果的にだます手法(GAP; Generative Adversarial Perturbations)を提案する。提案のGAPは画像に依存する/しない摂動ノイズ、いずれも生成することが可能であり、画像識別やセマンティックセグメンテーションに対して有効。また、ImageNet/Cityscapesを用いたより高解像な画像においても効果的に識別器をだますことに成功した。さらに、従来の同様の枠組みよりもより速く推論を行うことができる。

    180618GenerativeAdversarialPertubations

    新規性・結果・なぜ通ったか?

    より汎用的かつ画像依存性のあり/なしに関わらない摂動ノイズを、画像識別/セマンティックセグメンテーションに対して行うことができる。それでいてUniversal Perturbationsの枠組みを生成モデルにより実装、より効果的にだますことに成功。

    コメント・リンク集

    この論文は引用されそう?だが、ホントの意味で騙せているのかは不明である。(Adversarial Examplesの論文は、会議の前に攻略法がarXivに載せられるなどまだまだ研究が必要である)

    [#230]
    2018.6.18 20:24:14
    The Lovasz-Softmax loss: A tractable surrogate for the optimization of the intersection-over-union measure in neural networks
    Maxim Berman, Amal Rannen Triki, Matthew B. Blaschko
    CVPR 2018

    概要

    セマンティックセグメンテーションにおいて、ピクセルごとの最適化ではなく領域(Intersection-over-Union)ごとの最適化を行うことで小領域を含む領域ベースのセグメンテーションを改良する。この問題に対して、サブモデュラ凸最適化手法Lovasz(参考文献26をベースとした)を用いることで誤差計算を行う。このLovasz-Softmax Lossは従来のCross-Entropy Lossよりも領域評価jに対して頑健であることを示した(右図)。位置付け的にはLovasz Hinge Lossのマルチカテゴリに対する一般化である。

    180618Lovasz-SoftmaxLoss

    新規性・結果・なぜ通ったか?

    セマンティックセグメンテーションにおいて特に小領域であったとしても適切に評価して誤差を計算できるLovasz-Softmax Lossを提案した。PascalVOCやCityscapesにおいてCross-Entropy Lossを用いた誤差計算よりも良好な性能を示すことが明らかとなった。

    コメント・リンク集

    IoUで最適化するとは?また、Jaccard indexとは何のことだろう?

    [#231]
    2018.6.18 20:06:18
    Deep Diffeomorphic Transformer Networks
    Nicki Skafte Detlefsen, Oren Freifeld, Søren Hauberg
    CVPR 2018

    概要

    顔認識において、本人認識率が向上するようにアフィン変換や形状変化(Diffeomorphic)を行うように変換を実装するネットワークDeep Diffeomorphic Transformer Networksを提案。直感的にはズームインだが、さらに形状変化を行うことが効果的であると判断してネットワークを構築した。

    180618DiffeemorphicTransferNetworks

    新規性・結果・なぜ通ったか?

    顔認識においてアフィン変換によるズームインのみならず、認証率が向上するような形状変化方法であるDiffeomorphic Transferを提案した。同処理はCNN内に実装され、Deep Diffeomorphic Transformer Networksと呼ばれ、LFW/CelebA等でState-of-the-artであった。

    コメント・リンク集

    ネットワークに対して内的ではなく外的に変形させて精度向上するのは意外である。

    [#232]
    2018.6.18 19:47:55
    Geometry-Aware Scene Text Detection with Instance Transformation Network
    Fangfang Wang, Liming Zhao, Xi Li, Xinchao Wang and Dacheng Tao
    CVPR2018
    167

    概要

    幾何学的な表現を用いたEnd-to-endのシーンテキスト認識アプローチ.シーンテキストインスタンスの幾何学的構成をエンコーディングするため,幾何学的な表現を学習するInstance Transformation Network (ITN)を提案する.右図上部の(a)のように,いくつか並んだサンプルグリッド(橙色)をテキストにフィッティング(青色)する.また,(b)のように入力画像(の特徴マップ)からフィッティングのためのモデルを学習する.ネットワーク構成は,特徴抽出部,インスタンスレベルのアフィン変換を予測する部分,幾何学的表現部からなる.変換の回帰,座標の回帰,分類はマルチタスク学習となる.

    20180619_ITN1.jpg20180619_ITN2.jpg

    新規性・結果・なぜ通ったか?

    幾何学的表現で強いアフィン変換がかかっていても頑健なテキスト検出が可能である.データセットにはICDAR2015およびMSRA-TD500を用いて評価を行う.ベースネットワークにResNet50を用いた場合,MSRA-TD500のPrecisionは90.3,F値は80.3と非常に高精度な結果となった.ICDAR2015ではVGG16ベースの方が良い結果となり,Precisionは85.7,F値は79.5である.

    コメント・リンク集

    幾何学的なドット列をフィッティングする手法は他にも応用が効きそう.

    [#233]
    2018.6.19 03:01:57
    Textbook Question Answering under Instructor Guidance with Memory Networks
    Juzheng Li, Hang Su, Jun Zhu, Siyu Wang and Bo Zhang
    CVPR 2018

    概要

    教科書(テキストデータ+画像)に含まれている情報に関する質問に答える、Textbook Question Answering(TQA)に関する研究。質問の答えはテキストの局所的な部分に含まれていることが多く、テキストの要約によって答えを得ることが難しい場合が多い。 本研究では、テキストや画像から得られる因果関係や構造を表したContradiction Entity-Relationship Graph(CERG)を構築し、矛盾を探すための手がかり(Guidance)とすることで局所的な情報を使用して質問に答えることを可能とする。 CERGの構築には画像特徴とテキスト特徴を使用し、質問の答えには画像特徴とテキスト特徴に加えCERGから得られたGuidanceを用いることで出力を得る。

    Item3Image

    新規性・結果・なぜ通ったか?

    Contextが多く要約することが難しい場合、得られる情報をグラフにして記憶することが効率的であるということを示した。ベースラインやランダムに選択する場合と比べて、あらゆる質問のタイプ(truth or falseやmultiple choise)において正解率が向上していることを確認した。

    コメント・リンク集

    一応画像情報を使用しているが、全体的にはNLP色が強いと感じた。手法としての完成度は非常に高く、評価は問題自体が新しいこともあり数値評価(従来法との比較、モデル設計の評価)及びqualitativeな比較であった。

    [#234]
    2018.6.19 00:14:07
    Multi-Evidence Filtering and Fusion for Multi-Label Classification, Object Detection and Semantic Segmentation Based on Weakly Supervised Learning
    Weifeng Ge, Sibei Yang and Yizhou Yu
    CVPR2018
    Kazuho Kito

    概要

    マルチレベルの物体認識,検出,セマンティックセグメンテーションのための弱教師カリキュラム付き学習のパイプラインを提案。このパイプラインは物体位置の中間点と訓練画像のピクセルのラベルの結果をを入手し、結果を用いて教師付きのやり方で特定のタスクの深層学習で訓練する。その全体のプロセスは4つのステージを含む、訓練画像の物体位置を含み、物体のインスタンスのフィルタリングと結合し、訓練画像のピクセルラベリングをし、特定のタスクのネットワークでトレーニングをする。訓練画像からキレイな物体のインスタンスを入手することで、物体のインスタンスのフィルタリング、結合、クラスファイリングのための新しいアルゴリズムを複数の解決策から集める。このアルゴリズムは、検出された物体のインスタンスをフィルタリングするため、metric learningと密度ベースのクラスタリングの両方を組み込んでいる。

    Multi-Evidence_Filtering_and_Fusion_for_Multi-Label_Classification.PNG

    新規性・結果・なぜ通ったか?

    マルチレベルの画像の分類においてstate-of-the-artを達成.

    コメント・リンク集

    [#235]
    2018.6.18 23:24:56
    ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices
    Xiangyu Zhang et al.
    CVPR2018
    1707.01083
    Takumu Ikeya

    概要

    • モバイルデバイス向けに特別に設計した非常に計算効率の良いCNNアーキテクチャである“ShufflNet”を開発した.このアーキテクチャではpointwise group convolutionとchannel shuffleという2つの新しい演算を使用し,精度を落とすことなく,計算コストを大幅に削減した.

    Shuffle_Net_An_Extremely_Efficient_Convolutional_Neural_Network_for_Mobile_Device.png

    新規性・結果・なぜ通ったか?

    • ImageNetによる分類とMS COCOによる物体検出のタスクではほかのアーキテクチャよりも高い性能を示した.
    • 40MFLOPの計算資源の制約のもと,ImageNet分類タスクで他のモバイルデバイス向けアーキテクチャよりもtop-1 エラーが7.8%低い結果が得られた.
    • 既存のアーキテクチャよりも高精度で計算効率が非常に良い“ShufflNet”というアーキテクチャを提案した.

    コメント・リンク集

    [#236]
    2018.6.18 21:27:54
    What have we learned from deep representations for action recognition?
    Christoph Feichtenhofer et al.
    CVPR2018
    1801.01415
    Takumu Ikeya

    概要!

    • 動画中の行動を認識するためにtwo stream modelが学習したものを視覚化することで時空間表現がどのように働いているか調査した研究.
    • 単純に形状特徴と動作特徴を分割するよりも,cross-stream fusionは正しい時空間特徴を学習することが可能.
    • ネットワークはクラス特有の局所表現だけでなく,様々なクラスに対応できる汎用表現を学習することが可能.
    • ネットワークの階層全体を通して,特徴はより抽象的になり,ある動作の区別にとって重要でないデータに対する不変性が増加.
    • 視覚化は、学習された表現を確認するだけでなく,学習データの独自性を明らかにし,systemの失敗例の説目に利用可能.

    What_have_we_learned_from_deep_representations_for_action_recognition.PNG

    新規性・結果・なぜ通ったか?

    • ランダムに初期化されたノイズ画像とノイズ動画の入力から開始するモデルの時空間の入力を直接最適化する.

    コメント・リンク集

    [#237]
    2018.6.18 21:04:41
    A Perceptual Measure for Deep Single Image Camera Calibration
    Y. Hold-Geoffroy, K. Sunkavalli, J. Eisenmann, M. Fisher, E. Gambaretto, S. Hadap and J.F. Lalonde
    CVPR2018
    Ryota Suzuki

    概要

    単画像におけるカメラパラメータのキャリブレーションの話.事前知識なしに非コントロール環境でもちゃんと動くように, DCNNによるキャリブレーションパラメータの直接推測手法を提案する.

    ImageNet学習済みDenseNetの最終層を3つの分離したヘッドに置き換え,それぞれ水平角度推定,水平線の中心からの距離,縦方向の場を表すように改造する. これを,大規模パノラマ画像データセットから自動生成したサンプルにより学習する.

    評価については,実際人がおかしさを感じるかどうかによるので,AMTで聞いてみた結果から導いた人の誤差モデルをもとに語ってみる.

    Figure1

    新規性・結果・なぜ通ったか?

    結果はそれなりにできている.が,それなりっぽく見えてしまうので,人間の感じ方もちゃんと調べて載せた! というのが評価されているように思う.

    ネットワーク構造の簡単な調整で達成できたところが,DNNの手に掛かれば様々な問題が如何様にも解ける感じを醸し出していておもしろい.

    アプリケーション枠狙いにするためか,アプリケーション例をいくつか掲載している.論文自体,他のアプリケーション系論文と比べて,読んでいて飽きない感じがする. 合わせ技一本,という感じがする.

    コメント・リンク集

    速読したからかもしれないが,不思議な構成の論文だった.論点が2つあるからだろうか.違和感は感じるが,なんとかうまく収めている感じもする.

    NVidiaにGPUを寄付してもらったらしい.

    [#238]
    2018.6.18 19:26:49
    SplineCNN: Fast Geometric Deep Learning with Continuous B-Spline Kernels
    Matthias Fey, Jan Eric Lenssen, Frank Weichert, Heinrich M¨uller
    CVPR2018
    KazukiTsubura

    概要

    グラフなどの不規則な構造をした幾何学的入力のためのディープニューラルネットワークの変形であるスプラインベースの畳み込みニューラルネットワーク(SplineCNN).スペクトル領域内でフィルタリングするのではなく,純粋に空間領域で特徴集計をする.SplineCNNを使用することで,手作業による特徴記述子の代わりに入力として幾何学的構造を使用することで,深いアーキテクチャの完全なend-to-endの学習が可能になる.

    Fast_Geometric_Deep_Learning_with_Continuous_B-Spline_Kernels1

    新規性・差分

    グラフやmeshesのような不規則な構造をした様々な点で利用でき,空間上における入力の幾何学的関係を発見する.手作業による特徴記述子を使用せずにend-to-endの学習が可能になり,また,最先端の幾何学的な学習と同等である.

    Fast_Geometric_Deep_Learning_with_Continuous_B-Spline_Kernels2

    [#239]
    2018.6.18 18:45:52
    Learning and Using the Arrow of Time
    Donglai Wei et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    DNN を用いて動画中の時間の流れている方向(Arrow of Time)を学習する研究. 人工的な信号を含むキューは Arrow of Time の学習に悪影響を及ぼすことを示し, それらの影響を取り除いた大規模 dataset を作成した. 評価実験では映画中の逆再生部分を検出するというタスクにおいて人間とほぼ同程度の精度を達成した.

    fukuhara-Learning-and-Using-the-Arrow-of-Time.png

    新規性・結果・なぜ通ったか?

    • Arrow of Time を学習する DNN アーキテクチャとして Temporal Class-Activation Map Network (T-CAM) を提案
    • T-CAM は数フレーム分の optical flow を入力から Arrow of Time を推測
    • 人工的な信号である camera Motion や black framing を含むキューは Arrow of Time の推定を容易にし, ネットワークの学習に悪影響を与えてしまうことを実験により示した
    • 上記の人工的な信号を取り除いた Arrow of Time を学習するための大規模データセット, Flickr-AoT と Kinetics-AoT を作成
    • 提案手法を用いて行った映画の逆再生部分を検出する実験では, 人間(80%)とほぼ同等(76%)の結果を達成
    • また, Arrow of Time が flow-based の行動認識において self-supervised pre-training に有用であることを示した
    [#240]
    2018.5.17 12:19:55
    Missing Slice Recovery for Tensors Using a Low-rank Model in Embedded Space
    T. Yokota, B. Erem, S. Guler, S.K. Warfield and H. Hontani
    CVPR2018
    Ryota Suzuki

    概要

    テンソルがスライス方向に欠けてしまった場合の復元についての論文.このケースでは,よく行われる核ノルム利用やその他正則化手法ではムリ. 遅れ/シフトに不変な構造を捉えることが重要になることから, 「高次元空間への低ランクモデルの埋め込み」を行うことで解決する. 時系列の遅延埋め込みを,テンソルにおける「複数方向遅延埋め込み変換」 を行い,不完全なテンソルを高次不完全ハンケルテンソルへと変換する. その後,この高次テンソルをタッカー展開の枠組みで低ランク化することで 復元が行われる.

    Figure1

    新規性・結果・なぜ通ったか?

    伝統的に行われてきた行列・テンソル解析系の論文.情報学部出身の読者になるべく分かりやすいように丁寧に書いているように見受けられる. 画像で言えば,伝送エラーなどで行の一部分や下半分が吹き飛んでしまった時などに使える復元手法.

    コメント・リンク集

    きちんと読み手への導入は行われているものの,読み下すには,テンソル分解程度の数学の知識が必要.ついでに,カオスのような時系列システムも知っているとわかりやすい(図中の説明での事例がそれ). まとめ人にとっては数学の復習になったので,ぜひ論文を読んでみていただきたい.

    [#241]
    2018.6.18 11:01:34
    Sim2Real Viewpoint Invariant Visual Servoing by Recurrent Control
    Fereshteh Sadeghi et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    ロボットアームを用いたビジュアルサーボについての研究. DNN を用いた視点に依存しないビジュアルサーボの能力を学習する Recurrent Convolutional Neural Network Controller を提案. 様々な視点, 光源環境, 物体の種類や位置に置けるタスクをシミュレーション上で学習することで, 未知の視点において自動でキャリブレーションを行うことが可能.

    fukuhara-Sim2Real-Viewpoint-Invariant-Visual-Servoing-by-Recurrent-Control.png

    新規性・結果・なぜ通ったか?

    • コントローラーは目的物体のクエリ画像, 現在の観測画像, 1つ前の行動, 現在の内部状態から次の行動と内部状態を決定する
    • LSTM を用いてネットワークが過去の行動の結果を参照できるようにすることで Jacobian (action と motion との関係) についての事前知識無しでの学習を可能とした
    • ロス関数にはとった行動によって目的物体との距離がどのように変化したかと, 長期的な行動の価値を学習するための Q-関数 (行動状態価値関数) を用いる
    • 少数のアノテーション付きシークエンスがあれば, シミュレーション上で学習結果を実際のロボットへ転移することが可能(追加で学習が必要なのは画像特徴の部分のみのため)
    • 実際のロボットに学習結果を転移して行った評価実験では, 物体へロボットアームを到達させるタスクにおいて, 単一物体の場合は 94.4%, 二つの場合は 70.8% を達成した
    [#242]
    2018.6.18 4:18:55
    Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation
    Pengyuan Lyu, Cong Yao, Wenhao Wu, Shuicheng Yan and Xiang Bai
    CVPR2018
    982

    概要

    コーナー検出とセグメンテーションを用いた高速かつ高精度なテキスト検出手法.テキスト検出時,ボックスのコーナー点を局所化し,テキスト領域を相対位置でセグメンテーションする.画像を入力すると,DSSDベースのNWで特徴抽出をし,コーナー点検出とコーナー位置に基づくセグメンテーションを出力する.コーナー点はサンプリングおよびグループ化され複数の候補ボックスとなる.セグメンテーション結果とあわせてスコア付けしてNMSする.長いテキストを自然に検出でき,複雑な後処理をする必要もない.

    20180617_Multi-Oriented_Scene_Text_Detection1.jpg20180617_Multi-Oriented_Scene_Text_Detection2.jpg

    新規性・結果・なぜ通ったか?

    Deepベースのテキスト検出は,テキストを物体の一種として扱いb-boxの回帰を行うか,テキスト部分を直接抽出する手法である.前者はアスペクト比によっては検出できず,後者は複雑な後処理を必要とする.本手法はその2つを組み合わせて,両者の欠点を補う.SynthText,ICDAR2015,2013,MSRA-TD500,MLTおよびCOCO-Textのデータセットで評価して,ほとんどがSOTAを達成した.とくに,ICDAR2015では84.3%(F-measure),MSRA-TD500では81.5%を達成した.10.4FPSで動作する.

    コメント・リンク集

    非常にシンプルながらも高精度なテキスト検出. DSSDのデコーダ部分の特徴マップからセグメンテーションを行う最近よくある手法をテキスト検出に応用している.

    [#243]
    2018.6.17 23:16:27
    Low-Latency Video Semantic Segmentation
    Yule Li, et al.
    1804.00389
    Munetaka Minoguchi

    概要

    動画によるセマンティックセグメンテーションにおいて、精度を向上させつつ、処理速度を上げる手法の提案。2つのコンポーネントを組み込んだフレームワークで構成している。1つ目は、時間変化に伴って空間的な畳み込み処理を変化させ、特徴を適応させる特徴伝播モジュール。2つ目は、精度予測に基づいて、計算を動的に割り当てるスケジューラ。

    20180617LLVSS.jpg

    新規性

    動画のセマンティックセグメンテーションには、高スループットやコスト、低遅延などの問題があり、 自律運転などにおいて重要となる。時間的変化に適応させた処理によって精度向上、処理速度向上を図る。

    結果・リンク集

    CityscapesとCamVidにおいて、最新の手法と競合する精度で、遅延を360msから119msに抑えられる結果に。

    [#244]
    VirtualHome: Simulating Household Activities via Programs
    Xavier Puig et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    家の中の環境をシミミュレーションするための仮想環境 VirtualHome を作成した. また, 家の中で典型的に起こる様々な行動を自然言語とプログラムの形式で表現し, それらを仮想環境上でシミミュレーションした動画を組みにした VirtualHome Activity Dataset を公開した. 加えて, LSTM を用いて動画やテキストからプログラム形式の表現を生成する手法を提案した.

    fukuhara-VirtualHome-Simulating-Household-Activities-via-Programs.png

    新規性・結果・なぜ通ったか?

    • VirtualHome には様々な種類の間取りや物体(平均357個)があり, Agent も複数の種類が用意されている
    • dataset では家の中で行われる様々な行動に対して, 名前と自然言語形式での行動の説明と行動をプログラムの形式が与えられている
    • VirtualHome 上でプログラムをシミュレーションすることで作成された動画には, Agent の姿勢やフロー, 物体のクラスなど様々な情報が与えられている
    • LSTM を用いた encoder-decoder 型のネットワークに強化学習を適用し, 動画やテキストからプログラム形式の表現を生成する手法を提案
    [#245]
    2018.6.16 16:40:55
    Visual Question Generation as Dual Task of Visual Question Answering
    Yikang Li, Nan Duan, Bolei Zhou, Xiao Chu, Wanli Ouyang and Xiaogang Wang
    CVPR2018

    概要

    画像に関する質問に答えるVisual Question Answering(VQA)と与えられた答えになる質問を作るVisual Question Generation(VQG)を同時に扱うInvertible Question Answering Network(iQAN)を提案した。質問が与えられている場合は答えを、答えが与えられている場合は質問を推定することで学習をする。 その際、2つのタスクを独立した問題ではなく逆問題であると考え、質問と答え及びそれぞれを表現する特徴量間の変換に使用する重みを共有する。

    Item3Image

    新規性・結果・なぜ通ったか?

    VQAに関しては、従来手法と比べて精度を向上することが可能となった。また、VQGによって生成した質問と答えのペアをVQAの学習に使用すると精度が向上することが分かり、VQGによってデータ数を増やすことが可能であると結論付けた。

    コメント・リンク集

    [#246]
    2018.6.5 00:51:56
    Teaching Categories to Human Learners with Visual Explanations
    Oisin Mac Aodha, Shihan Su, Yuxin Chen, Pietro Perona and Yisong Yue
    CVPR2018

    概要

    画像に写っているもののカテゴリをコンピュータが人間に教えるためのシステムEXPLAINを提案。カテゴリを分類する上でどこに注目すればいいのか(例:蝶の種類を見分けるにはどこに注目すれば良いか)を提示することで人間がカテゴリを学習することを支援する。

    Item3Image

    新規性・結果・なぜ通ったか?

    従来の手法ではカテゴリを表すラベルを提示するのみであったが、重要領域を提示することでより効率的に人間が学習することを可能とした。ユーザースタディにより人に学習してもらった内容に関するテストをしたところ、EXPLAINの方が短い時間で高い正答率を出すという結果を得られた。

    コメント・リンク集

    [#247]
    2018.6.10 23:58:13
    Face Aging with Identity-Preserved Conditional Generative Adversarial Networks
    Zongwei Wang, Xu Tang, Weixin Luo and Shenghua Gao
    CVPR2018

    概要

    人間の年齢変化顔を合成するIdentity-Preserved Conditional Generative Adversarial Networks (IPCGANs)を提案。合成画像が満たすべき特徴を、(1)目的の年齢に近づいている(2)変化前の人物と同一人物か(3)リアルな画像かの3つとした。 (1)(2)については、Generatorによって生成した画像を年齢推定及び同一人物性を評価するネットワークによって評価する。 (3)はDiscriminatorにリアルかどうかを判定させることで最適化を行う。

    Item3Image

    新規性・結果・なぜ通ったか?

    ユーザースタディにより、Image Quality, Age Classification, Face Verificationの3つの観点を評価し、DNNベースの手法と比較してFace VerificationとImage Qualityの2つの観点で高い評価を得た。VGG-faceによりinception scoreを求め、比較対象の手法より高いスコアを得た。 また、計算時間についても劇的に良化した。

    コメント・リンク集

    [#248]
    2018.6.15 18:52:34
    Emotional Attention: A Study of Image Sentiment and Visual Attention
    Shaojing Fan, Zhiqi Shen, Ming Jiang, Bryan L. Koenig, Juan Xu, Mohan S. Kankanhalli and Qi Zhao
    CVPR2018

    概要

    画像に潜んでいる感情と注目を集める領域の関連を調査した。アイトラッキングのデータと、画像中に写っている感情に関連する物体(笑顔など)をアノテーションしたEMOtional attention dataset(EMOd)を構築した。 また、画像中の注目領域を抽出するDNNモデルであるCASNetを提案した。

    Item3Image

    新規性・結果・なぜ通ったか?

    EMOdを用いて分析した結果、感情に関連する物体の方が人々の視線を集めることが判明した。その中でも、人間が関連する(笑顔など)場合がより視線を集めることが分かった。 従来のSaliencyを求める手法よりもCASNetの方が多くの指標で高いスコアを獲得した。 また、感情に関連する物体の方がより注目を集めるという結果を出力したことからEMOdの分析結果を反映していることを確認した。

    コメント・リンク集

    [#249]
    2018.6.5 12:28:58
    Categorizing Concepts with Basic Level for Vision-to-Language
    Hanzhang Wang, Hanli Wang and Kaisheng Xu
    CVPR2018

    概要

    Vision and Languageのタスクに、Cognition分野で提唱されているbasic levelという概念を基にしたBasic Concept(BaC)を導入した。basic levelとは人間が幼少期に行う抽象化であり、本研究では物体のクラスを類似したもの同士を1つにまとめる。 始めに、MSCOCOのキャプションとImageNetのクラスをマッチングすることで、Salient Concept(SaC)というBaCに候補を決定する。 続いて、物体のクラス分類におけるConfusion Matrixを求め、混同されるクラス同士を1つにまとめることでBaCを決定する。

    Item3Image

    新規性・結果・なぜ通ったか?

    Vision and Languageのタスクとして、Image CaptioningとVQAによって検証を行った。Image Captioningについては、ベースラインと比較してほとんどの指標において精度が向上し、向上しなかった指標についてもベースラインと大差ない数値を記録した。 VQAについては、ObjectとLocationについて精度の向上を確認した。

    コメント・リンク集

    [#250]
    2018.6.15 16:40:44
    Multi-Level Fusion Based 3D Object Detection From Monocular Images
    Bin Xu et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    一枚のRGB画像から3次元物体認識を行う研究. region-based な2次元の物体検出器を3次元に拡張する一般的なフレームワークを提案し, end-to-end のネットワークで2次元と3次元の物体位置と物体のクラスを同時に推定することが可能. KITTI dataset を用いた評価実験では state-of-the-art の結果を達成した.

    fukuhara-Multi-Level-Fusion-Based-3D-Object-Detection-From-Monocular-Images.png

    新規性・結果・なぜ通ったか?

    • end-to-end のネットワークで単一のRGB画像から物体のクラスと2次元, 3次元の物体位置, 3次元の物体の方向などを同時に推定
    • RGB画像に MonoDepth を用いて推定した Depth 画像を連結したものを CNN に入力し, Faster-RCNN と同様の方法で Region Proposal を生成
    • また, Depth 画像から Point Cloud (XYZ Map)を推定
    • 上記の2つを連結したものを全結合層に通して, 物体位置と物体のクラスの推定を行う
    • KITTI dataset を用いた評価実験では Mono3D, 3DOP, Deep3DBox などと比較して優位な結果を達成した
    [#251]
    2018.6.15 1:01:55
    Conditional Probability Models for Deep Image Compression
    Fabian Mentzer, Eirikur Agustsson, Michael Tschannen, Radu Timofte, Luc Van Gool
    CVPR 2018

    概要

    画像復元の問題は復元エラー(distortion)とエントロピー(rate)とのトレードオフであるが、本論文ではこのトレードオフをできる限り解消し、画像圧縮を行うAutoEncoderを提案する。著者らはコンテキストモデルから直接的に潜在表現のエントロピーを復元するモデルを考案して同問題に取り組んだ。AutoEncoderには条件付き確率モデルを学習した3D-CNNを適用。実験ではSSIMを用いて従来の畳み込みによるAutoEncoderモデルよりも良好な精度を実現した。

    180614DeepImageCompression

    新規性・結果・なぜ通ったか?

    3D-CNNにより条件付き学率モデルを学習したAutoEncoderモデルを考案したことが新規性であり、JPEG(2000)などよりも良い圧縮法であることを示し、Rippel&Bourdevらのモデルと同等レベルの精度を達成した。

    コメント・リンク集

    画像圧縮、超解像の違いがいまいちよくわからなくなってきた。評価方法の違い?

    [#252]
    2018.6.14 08:55:34
    Improved Lossy Image Compression With Priming and Spatially Adaptive Bit Rates for Recurrent Networks
    Nick Johnston, Damien Vincent, David Minnen, Michele Covell, Saurabh Singh, Troy Chinen, Sung Jin Hwang, Joel Shor, George Toderici
    CVPR 2018

    概要

    Recurrent/Convolutional Neural Networks(RNN/CNN)を用いた非可逆画像圧縮の手法を提案し、BPG(4:2:0), WebP, JPEG2000, JPEGよりも性能のよいものを提案した。3つの改善、(1)ニューラルネットにより空間的分散を効果的に捉えて情報量の劣化を防ぐ、(2)エントロピーコーディングの上に空間適応的ビット配置アルゴリズムを適用して効率的な画像圧縮とする、(3)SSIMによりピクセルごとの損失を計算して最適化することで圧縮数値を改善する、を加えて圧縮方法を提案。KodakやTecnickのカメラを用いてコーデックの評価を行った。

    180614SpatiallyAdaptiveBitRates

    新規性・結果・なぜ通ったか?

    従来の圧縮方法であるBPG(4:2:0), WebP, JPEG2000, JPEGなどよりも効率の良い圧縮方法を提案した。また、手法的にもCNN/RNNを応用し、さらに後処理として画質を改善するSpatially Adaptive Bit Rate (SABR)を提案したことが評価された。

    コメント・リンク集

    (数十年前からある問題という意味で)過去の問題と現在の手法が合わさって新規性を出している論文。

    [#253]
    2018.6.14 08:27:59
    Deep Density Clustering of Unconstrained Faces
    Wei-An Lin, Jun-Cheng Chen, Carlos D. Castillo, Rama Chellappa
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    unconstrainedな顔に対してクラスタリングを行うDeep Density Clustering(DDC)を提案。顔画像をDNNによって単位超級面空間に射影する。続いて、各サンプル2点の類似度を測定する際に、 その2点の近傍に位置するサンプルを考慮することでクラスタの密度を推定することが可能となるため、これに基づいてクラスタリングを行う。

    新規性・結果・なぜ通ったか?

    • YTF, LFW, IJB-Bデータセットを使用して評価。それぞれのデータセットには同一人物の画像が複数枚もつ。
    • 評価指標はBCubed precision、Bcubed F-measure、NMIで評価。
    • 提案手法と同等の精度を持つ既存手法のJULE、DEPICTはクラスタ数を指定する必要があるが、提案手法ではクラスタ数を指定する必要がない。
    • クラスタリングの際の閾値の変更に対して、既存手法に比べてクラスタ数の変動が小さい。

    コメント・リンク集

    [#254]
    Pose-Guided Photorealistic Face Rotation
    Yibo Hu, Xiang Wu, Bing Yu, Ran He, Zhenan Sun
    CVPR 2018 Spotlight
    Kazuki Inoue

    概要

    入力顔画像に対して任意の画像を生成するネットワークを提案。顔向きのコンディションとしてランドマークのヒートマップを与え、U-Netによって画像を生成し、2つのdiscriminatorを用いることで画像を生成。 1つ目のdiscriminatorは入力画像をコンディションとして生成画像or正解画像を識別し、 2つ目のdiscriminatorはランドマークのヒートマップをコンディションとして生成画像or正解画像を識別する。 また人物IDを保存するためにLight CNNによる特徴量によるロスをとる。

    新規性・結果・なぜ通ったか?

    • ランドマークのヒートマップ、2つのdiscriminator、IDを保存するロスを用いて入力顔画像を任意の向きに回転させた画像を生成。
    • 337IDそれぞれに対して20の照明環境と15種類の顔向きをもつMulti-PIEで検証。
    • トレーニングには使用していないLFWで画像を生成したところ、既存手法による画像よりも見た目の良い画像が得られた。
    • face verification、face recognitionにおいてSoTAを達成。
    • ablation studyの結果、IDのロスがface recognitionに最も影響が高いことを確認。

    コメント・リンク集

    • 既存手法のように顔向きの角度を使うのではなくヒートマップを与えることでU-netの学習がしやすい、という上手い方法。
    • IDのロスに使用する特徴量が最後のFC層に加えてプーリング層からも取得されておりIDについてはMS-Celeb-1Mでプリトレインした後Multi-PIEへとファインチューニングしているなど、かなり微調整を感じる論文。
    • 論文
    • Supplementary material
    [#255]
    Unsupervised Training for 3D Morphable Model Regression
    Kyle Genova, Forrester Cole, Aaron Maschinot, Aaron Sarna, Daniel Vlasic, William T. Freeman
    CVPR 2018 Spotlight
    Kazuki Inoue

    概要

    それぞれ単独の実画像データセットと3D Morphable Model(3DMM)データセットを使用し、画像から3DMMを生成する手法を提案。トレーニングには実画像データセットVGG-Face、3DMMデータセットBasel Face 3DMMを使用。 IDが保たれることを念頭にネットワークを構築。Batch Distribution Lossでは、 Basel Face 3DMMのパラメタ分布が平均0、標準偏差1のガウス分布であるため、 実画像によって生成される3DMMのシェイプ、テクスチャパラメタがどちらも平均0、標準偏差1となるようにロスをとる。 Loopback Lossは画像/生成された3DMMのdecoderによる特徴量の差分を取り、よりリアルな3DMMかつ、 より現実的な3DMMパラメタを得ることを目的としている。

    新規性・結果・なぜ通ったか?

    • 画像、3DMMの対応がないデータセットを用いて、教師なしで画像から3DMMを生成する手法を提案。
    • Batch Distribution Loss、Loopback Loss、Multi-view Identity Lossを学習することで教師なしであることを緩和している。
    • MICC Florence 3D Faceデータセットで検証し、Mean error、Faceクラスタリング、Earth mover’s distanceによる実画像と生成3DMMの顔類似度のそれぞれにおいてSoTA。

    コメント・リンク集

    • Basel Face 3DMMのパラメタ分布が平均0、標準偏差1のガウス分布という仮定はどこから来ている?
    • 論文
    [#256]
    Aligning Infinite-Dimensional Covariance Matrices in Reproducing Kernel Hilbert Spaces for Domain Adaptation
    Zhen Zhang, Mianzhi Wang, Yan Huang, Arye Nehorai
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    ソースドメイン(SD)とターゲットドメイン(TD)のそれぞれのreproducing kernel Hilbert space(RKHS)における共分散を最適化することでdomain adaptation(DA)を行う手法。 既存のカーネルベースのDAはSDとTDのRKHS上の統計的分布の類似度に大きく依存することに着目。 共分散を最適化する方法としてkernel whitening-coloring map(KWC)とkernel optimal transport map(KOT)があり、これをRKHS上で計算で可能なように式変形を行うことでDAを行う。

    新規性・結果・なぜ通ったか?

    • SDとTDのRKHS上の共分散を最適化することでDAを行う。
    • 複数のDAのベンチマークデータセットにおいてKWC、KOTのいずれかがSoTAを達成。
    • SoTAと比較して実行時間が短く、KWCは4分の1、KOTは10分の1程度。
    • Out-of-Sampleによる推定においてもSoTAを達成。

    コメント・リンク集

    [#257]
    Cross-Dataset Adaptation for Visual Question Answering
    Wei-Lun Chao, Hexiang Hu, Fei Sha
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    VQAのデータセットにおけるバイアスを調査した上で、VQAにおけるdomain adaptation(DA)を提案。提案手法では選択肢の中から解答を選択するVQAを扱う。VQAデータセットは画像、質問、解答選択肢=正解+誤答の要素からなる。 それぞれの要素を組み合わせた入力を用いて、その入力がどのデータセットに所属しているのかを調査した結果、 画像はほぼ無相関であることがわかり、質問と解答によってデータセット間にバイアスが生じていることを確認。 この結果に基づき、以下のようにDAを提案。ターゲットドメイン(TD)に質問/解答選択肢のみがある場合、 ソースドメイン(SD)の質問/正解(誤答は任意性があるため使用しない)の特徴量が持つ分布とTDの質問のDNNによる 特徴量が持つ分布のJensen-shannon Divergence(JSD)が小さくなるように学習。TDが質問と正解(+誤答)を持つ場合、 SDが持つ質問・正解の特徴量分布とTDの質問・正解のDNNによる特徴料が持つJSDが小さくなるように学習。 さらにSDで事前学習を行った質問-正解識別をTDでfine-tuningを行う。

    新規性・結果・なぜ通ったか?

    • 事前実験より与える情報によって、入力データがどちらのデータセットに所属しているかの識別率の変化を確認。画像、質問、正解解答、解答群(正解+不正解)を与え、与える要素を増やすほど識別率が高くなった。 この結果から、データセットによってバイアスがあることを確認。
    • 質問に対する正答率を複数のデータセットにおいて既存手法であるADDA、CORALと比較した結果SoTAを達成。TDが解答選択肢のみ、質問と正解を持つ場合において高い精度を達成。

    コメント・リンク集

    • TDの正解、誤答のみを使用し質問を使用せずにDAを行った方が高い状況がいくつも確認できる。これはつまり質問と解答の相関がすでにSDで学習できており、SDの質問がノイズになってしまっているとを示唆している。
    • VQAをDAしてみた、という実験的な論文であり比較している手法もDAのベンチマークの手法なので、まだまだ新規性を出すことができそう。
    • 論文
    • Supplementary material
    [#258]
    Unsupervised Learning of Depth and Ego-Motion from Monocular Video Using 3D Geometric Constraints
    Reza Mahjourian et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    教師なし学習で単眼の動画から Depth と Ego-Motion の推定を行う研究. 連続するフレーム間における 3D Geometry の一貫性を教師信号の代わりに利用して学習を行う.

    fukuahra-Unsupervised-Learning-of-Depth-and-Ego-Motion-from-Monocular-Video-Using-3D-Geometric-Constraints.png

    新規性・結果・なぜ通ったか?

    • 連続するフレーム間における 3D Geometry の一貫性を用いることで, 教師なし学習で単眼の動画から Depth と Ego-Motion の推定を行うことを可能とした
    • 連続するフレームから推定された Point Cloud に対して Iterative Closest Point (ICP) を計算し, その Residual と Transform の大きさを 3D Loss として課す
    • 3D Loss に加えて推定された Depth の滑らかさと, 推定結果を用いて復元した画像の誤差 (2種類) も Loss として課す
    • KITTI dataset と mobile phone カメラで撮影した動画を用いて行った評価実験では Trajectory と Depth の両方において先行研究よりも優位な結果を達成した
    [#259]
    2018.5.28 18:59:55
    A Network Architecture for Point Cloud Classification via Automatic Depth Images Generation
    RiccardoRoveri et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    Point Cloud データのクラス分類についての研究. 順序不定の 3D Point Cloud データを 2D Depth 画像に変換し, ResNet でクラス分類を行う. 評価実験では PointNet より優位な結果となった.

    fukuhara-A-Network-Architecture-for-Point-Cloud-Classification-via-Automatic-Depth-Images-Generation.png

    新規性・結果・なぜ通ったか?

    • Network は3つのモジュールで構成されており, joint training が可能
    • 1つ目のモジュールは PointNet を用いて PointCloud から有用な view direction を推定する
    • 2つ目のモジュールは Gausiaan Interporation (Roveri+18 の拡張版)によって推定された view direction からの Depth 画像を生成する
    • 3つ目のモジュールは ResNet50 を用いて Depth 画像から Image Based Classification を行う
    • ModelNet40 benchmark を用いて行った shape のクラス分類の評価実験では instance-based accuracy と class average accuracy の両方で PointNet よりも優位な結果となった

    コメント・リンク集

    [#260]
    2018.6.13 5:54:55
    GraphBit: Bitwise Interaction Mining via Deep Reinforcement Learning
    Yueqi Duan et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    Deep binary descriptor においてバイナリを生成する際に0と1の境界に位置する曖昧なビット (ambiguous bit) の問題に取り組んだ研究. 強化学習によって学習したビット間の implicit な関係性を付加することで曖昧性を緩和する GraphBit を提案.

    fukuhara-GraphBit-Bitwise-Interaction-Mining-via-Deep-Reinforcement-Learning.png

    新規性・結果・なぜ通ったか?

    • Binary descriptor における曖昧なビット (ambiguous bit) の問題を緩和するためにビット間の関係性を付加した GraphBit を提案
    • CNNからの出力された正規化された特徴量(binary descriptor)に対して Grpah 構造を付加する
    • ビット間の相互関係をマイニングする過程をマルコフ過程として定式化し, 強化学習(Policy Gradient)で学習
    • State は現在の Graph の構造
    • Atction は GraphBit に新しいエッジを1つ追加するか, 既存のエッジを1つ削除
    • Reward は t ステップと t+1 ステップにおけるロス関数の減少度合いから計算
    • CIFAR-10, Brown, HPatches dataset を用いた評価実験では mean average precision (mAP) の評価尺度でそれぞれ平均 9.64%, 8.84%, 3.22% の精度の向上を達成した
    [#261]
    2018.6.13 2:43:55
    Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition
    Yansong Tan et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    Skeleton-based action recognition の研究. 強化学習によって与えられた動画から最適な keyframe の組を選択する frame distillation network (FDNet) と graph-based convolution によって keyframe の skeleton 情報から行動認識を行う Graph-based CNN (GCNN) を提案.

    fukuhara-Deep-Progressive-Reinforcement-Learning-for-Skeleton-based-Action-Recognition.png

    新規性・結果・なぜ通ったか?

    • 与えられた動画のシークエンスから最適な keyframe の組を選択する過程をマルコフ過程として定式化し, 強化学習 (policy gradient) を適用した
    • State として Skeleton 動画全体と現在選択されてる keyframe の組の情報を使用
    • Action は各 keyframe を1フレーム前後にずらすか, そのままかの3つ
    • Reward は学習済みの GCNN を用いて計算
    • また, keyframe から行動認識を行う際は gggraph-based convolution を用いることによって人間の関節の依存関係を考慮している
    • NTU, SYSU, UT dataset を用いて評価実験では state-of-the-art とほぼ同等か, 優位な結果を示した
    [#262]
    2018.6.12 13:53:55
    Learning Superpixels with Segmentation-Aware Affinity Loss
    Wei-Chih Tu, Ming-Yu Liu, Varun Jampani, Deqing Sun, Shao-Yi Chien, Ming-Hsuan Yang, Jan Kautz
    CVPR2018
    Hiroaki Aizawa

    概要

    superpixel segmentationのためにピクセルの類似性(pixel affinities)を学習するdeep learningベースの手法を提案。pixel affinitiesが同一物体に属する2つの隣接画素の尤度を測る。これまで、groundtruthがないこと、superpixelsのインデックスが交換可能であること、superpixelsの手法は微分不可であることからdeep learningベースのsuperpixelアルゴリズムは試みられていなかった。論文では、segmentation誤差から類似性を学習するsegmentation-aware loss(SEAL)と、pixel affinitiesを出力するPixel Affinity Net(PAN)を提案し、superpixelsとdeep learningを統合する。既存の手法より物体境界を保持したままsuperpixelsを計算することが可能になった。

    Learning_Superpixels_with_Segmentation_Aware_Affinity_Loss.PNG

    新規性・結果・なぜ通ったか?

    superpixels + deep learningが新しい。実験では単純なpretrained modelによる特徴量や、edge検出によるsuperpixelsとの統合はうまくいかないことを示している。手法に関しては、superpixelsを直接出力するのではなく、pixel affinitiesを計算、graph-basedのアルゴリズム(ERS)を経由し出力、そしてSEALを計算する。これにより、pixel affinitiesを出力するPANへ誤差を逆伝播することができる。

    コメント・リンク集

    より効果的に細部の情報をsuperpixelsとして保持することができるため、semantic segmentationの改善や計算量の削減につながるだろう。

    [#263]
    2018.6.12 12:14:08
    Generating Synthetic X-ray Images of a Person from the Surface Geometry
    Brian Teixeira, Vivek Singh, Terrence Chen, Kai Ma, Birgi Tamersoy, Yifan Wu, Elena Balashova and Dorin Comaniciu
    CVPR2018
    Ryota Suzuki

    概要

    人間の三次元輪郭形状から,見えない体の内側を解析してしまおうという話.本論文では,X線画像を生成する. さらに,X線画像はパラメタライズしておくことで,体のキーポイントの調節によるマニピュレーションも可能.

    構造的には,2つのネットワークからなる.(1)部分画像といくつかのパラメータから,画像全体を生成するように学習, (2)全体画像が得られるような(1)のパラメータの推定. これら2つのネットワークを,一貫性が出てくるように反復的に学習させる.

    生成した画像を使ってみて,画像補間に使ってみた.

    Figure1

    新規性・結果・なぜ通ったか?

    体表面を計測しておくなどして,体表面形状のデータがあれば,X線画像をある程度任意に生成できる.逆に,体表面形状をいじることでそれに対応したX線画像も作れる. 学習データとして活用することができる可能性がある.

    構造はGAN風だが,いい感じに変形している感じがウケているかもしれない.

    コメント・リンク集

    この時点での一番の貢献は,それっぽいX線画像が自動生成できる事だろう.SMPLと組み合わせていろいろやることを想定しているだろうか.

    [#264]
    2018.6.12 10:10:47
    Fully Convolutional Adaptation Networks for Semantic Segmentation
    Yiheng Zhang, Zhaofan Qiu, Ting Yao, Dong Liu, Tao Mei
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    スタイル特徴量を用いて画像の見た目を変換するネットワークとドメイン間で不変な特徴量を得るネットワークを用いて、domain adaptationを行うことで教師無しでセマンティックセグメンテーションを行うFully Convolutional Adaptation Networks (FCAN)を提案。画像の見た目を変換するAppearance Adaptation Networks (AAN)では ホワイトノイズから画像を生成し、ソースドメインの特徴量マップ、ターゲットドメインのもつスタイル特徴量が小さくなるように学習を行うことで、画像をもう一方のドメインの見た目になるように変換する。 ドメイン間で不変な特徴量を得るRepresentation Adaptation Networks (RAN)ではsemantic classificationと、 それぞれのドメインにから得られた特徴量マップに対するadversarial lossと、 ASPPによって得られた特徴量マップに対してピクセルごとにadversarial lossを適用。 ドメインとして実画像とゲーム画像で検証している。

    新規性・結果・なぜ通ったか?

    • style transferと同様の考え方でドメイン間の画像変換を行いsemantic classification、特徴量マップ、dilated convolutional layerから得られた特徴量マップに対する各ピクセルに対してadversarial lossをとることで教師無しでセマンティックセグメンテーションを行う。
    • GTA5とCityscapesを用いて、セマンティックセグメンテーションの精度をstate-of-the-artと比較した結果、19クラスのうち17クラスで最も高い精度を達成。

    コメント・リンク集

    [#265]
    Re-weighted Adversarial Adaptation Network for Unsupervised Domain Adaptation
    Qingchao Chen, Yang Liu, Zhaowen Wang, Ian Wassell, Kevin Chetty
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    Unsupervised Domain Adaptationを行うため、ドメイン間の特徴量分布を一致させるoptimal transportベースのEM distanceを導入し、ターゲットドメイン(T)のラベル分布をソースドメイン(S)のラベル分布に対してラベルごとに重み付けした分布で表現する手法を提案。 domain discriminatorをOTベースのEM distanceをロス関数とすることでドメイン間の特徴量分布を近づける。 一方でベイズの定理より、ドメイン間のラベルの事前分布と特徴量の事後分布は比例関係にありラベルは低次元かつ離散的であるので ドメイン間で類似度が高いと仮定し、Tにおけるラベルの事前分布をSのラベルの事前分布の重みを変更したもので表す。

    新規性・結果・なぜ通ったか?

    • ドメイン間で特徴量分布をOTベースのEM distanceの学習で、Tのラベル分布をSのラベル分布の重みを変更したもので表現することで、それぞれのdomain shiftを解消する手法を提案。
    • 手書き文字データセットMNIST、USPS、SVHN、MINST-Mデータセット、19のラベルを持つ実画像、デプス画像のドメインを持つNYU-Dデータセットで検証。state-of-the-artと比較した結果、多くの状況で最も高い精度を達成。
    • Sのラベル分布の重みの変更による有効性、ラベルごとの特徴量が分離できているかどうかも議論している。

    コメント・リンク集

    [#266]
    Unsupervised Deep Generative Adversarial Hashing Network
    Kamran Ghasedi Dizaji, Feng Zheng, Najmeh Sadoughi, Yanhua Yang, Cheng Deng, Heng Huang
    CVPR 2018 Spotlight
    Kazuki Inoue

    概要

    教師無しで画像をバイナリに符号化するハッシュ関数であるHashGANを提案。ハッシュ関数が満たすべき条件は画像が変換されて同じハッシュ値を返すこと、異なる画像には異なるハッシュ値を与えることである。 既存の教師無しハッシュ関数は過学習のために精度がよくなかった。提案手法であるHashGANはgenerator、discriminator、 encoderからなる。学習はGAN loss、encoderによって生成されるハッシュ値のエントロピーが小さくなるように、 出現するハッシュ値が同じになるように、画像の変換によるハッシュ値が不変となるように、画像ごとのハッシュ値が固有となるように、 合成画像をエンコードした際のハッシュ値のL2ロス、実画像と合成画像を入力とした際のdiscriminatorの最後の層に対して feature matchingを行う。またdiscriminatorはデータ固有の情報を識別し、encoderはデータ固有の情報を抽出しようとするため、 両者の目的が一致しているのでパラメタを共有して学習を行う。

    新規性・結果・なぜ通ったか?

    • GAN、discriminatorとパラメタを共有しているencoder、ハッシュ関数が満たすべきロス関数を導入したHashGANを提案。
    • image retrieval、image clusteringで手法の優位性を検討。image retrievalでは既存のunsupervised hash functionとの比較を行い、最も高い精度を達成。image clusteringではstate-of-the-artと同等の精度を達成。
    • ablation testにより、特にadversarial loss, feture matching, L2ロス、画像変換によるハッシュの不変性の考慮の影響が大きいことがわかった。

    コメント・リンク集

    • 教師無し学習でもタスク特化の手法であり、ハッシュ関数の性質をよく考察した上でモデルを設計している。
    • 論文
    [#267]
    Supervision-by-Registration: An Unsupervised Approach to Improve the Precision of Facial Landmark Detectors
    Xuanyi Dong, Shoou-I Yu, Xinshuo Weng, Shih-En Wei, Yi Yang, Yaser Sheikh,
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    ランドマークのGT有り顔画像とラベルなし顔動画を用いて、現在フレームに対して直接推定されたランドマークと、トラッキングによって前フレームから推定されたランドマークの位置の誤差を学習することで顔画像に対してランドマークを推定する手法を提案。 人間によるランドマークのアノテーションは正確でないため、この誤差が学習や推定精度に影響を与えてしまう。 これに対して本論文ではランドマークの推定器に最適化によって計算されるオプティカルフローを教師情報として与える Supervision by Registration(SBR)を提案。ランドマーク位置を推定するCNNに対して、 Lukas-Kanade法によるトラッキング結果とランドマークの推定位置が同じになるように学習を行う。

    新規性・結果・なぜ通ったか?

    • 人間のアノテーションよりも、より正確であるオプティカルフローを教師情報として使用することで顔画像に対するランドマークの推定手法を提案。
    • 300-W、AFLWにおいてランドマーク推定手法であるCPMのアルゴリズムをSBRで学習させると、SBRを使用しない場合よりも精度が向上。
    • 動画に対するランドマーク推定はstate-of-the-artに及ばなかった。ターゲットとなる人物をデータセットに含んでおくPersonalized Adaptation Modeling(PAM)を行うことで、state-of-the-artと同等の精度を達成。

    コメント・リンク集

    • 画像のランドマークを推定するために動画から得られるオプティカルフローを使用する、という発想の飛躍が面白い!最適化による正確な教師情報とCNNによる合わせ技。
    • 論文
    [#268]
    Environment Upgrade Reinforcement Learning for Non-differentiable Multi-stage Pipelines
    Shuqin Xie et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    微分不可能な multi-stage pipline において joint optimization を可能にする environment upgrade reinforcement learning (EU-RL) を提案. 2段階の Instance segmentation と pose estimation のタスクで評価実験を行い, どちらも優位な結果を示した.

    fukuhara-Environment-Upgrade-Reinforcement-Learning-for-Non-differentiable-Multi-stage-Pipelines.png

    新規性・結果・なぜ通ったか?

    • 微分不可能な multi-stage pipline の学習において問題であった上流への feedback が出来ないという点と end-to-end な最適化が出来ない点に取り組んだ研究
    • 強化学習の agent が下流の出力を受けて上流の出力に変更を与える, environment upgrade reinforcement learning (EU-RL) を提案
    • 強化学習の手法として actor-critic を Temporal Difference (TD) learning で学習
    • State として1段階目(例えば物体認識)からの出力と2段階目からの出力(例えば semantic segmentation)を使用
    • Action として1段階目からの出力結果を変更する操作の集合を使用(物体認識ならBounding Boxの位置の変更やスケールなど)
    • Reward は2段目の出力の精度の向上度合いによって計算
    • Instance segmentation と pose estimation のタスクで評価実験を行い, どちらも優位な結果を示した

    コメント・リンク集

    [#269]
    2018.5.11 23:32:55
    Deep Reinforcement Learning of Region Proposal Networks for Object Detection
    Aleksis Pirinen and Cristian Sminchisescu
    CVPR2018
    872

    概要

    Region proposal network(RPN)と深層強化学習(DRL)を組み合わせたdrl-RPNを提案する.通常のRPNがRoIを貪欲に選択するのに対し,DRLで学習されたsequential attention mechanismを用いて選択することで,最終検出タスクに最適化される.また,時間経過とともにクラス固有の特徴を蓄積し,分類スコアに良い影響を与えて検出精度が高めることを示す.また,学習をいつ停止するか自動的に判断する.

    20180611_drlRPN.jpg

    新規性・結果・なぜ通ったか?

    RPNにDRLを導入して,attentionに即したRoIを選択できるようにした.VOC2007を用いた評価では,通常のRPNがmAP74.2%なのに対し,drl-RPNは76.4%を達成した.MSCOCOでも各指標・各セットで数%の精度向上が見られた.

    コメント・リンク集

    またまた高精度なRoIを検出するタイプの手法.ついにRLまで使うことになった.

    [#270]
    2018.6.11 23:18:20
    A Closer Look at Spatiotemporal Convolutions for Action Recognition
    Du Tran et al.
    CVPR2018
    1711.11248
    Takumu Ikeya

    概要

    • 動画解析のための時空間畳み込みの各手法が行動解析に及ぼす影響を調査した.
    • Residual learningのフレームワークでは3D CNNsが2D CNNsよりも精度において優れていることを実験的に示した.
    • 3D Convolution filterを空間と時間へ分割することで精度が向上することを示した.
    • 新たな時空間畳み込みブロックの構造として”R(2+1)D”を提案した.

    Item3Image

    新規性・結果・なぜ通ったか?

    • 新規の畳み込みブロックとして時空間の畳み込みブロックを時間と空間に分割する"R(2+1)D"を提案した.
    • "R(2+1)D"はSports-1M,Kinetics,UCF101,HMDB51のデータセットでSOTAを達成した.

    コメント・リンク集

    [#271]
    2018.6.11 19:39:34
    GeoNet: Geometric Neural Network for Joint Depth and Surface Normal Estimation
    Xiaojuan Qi, Renjie Liao, Zhengzhe Liu, Raquel Urtasu andJiaya Jia
    CVPR2018
    Yuta Matsuzaki

    概要

    単眼の画像から深さ(depth)と表面の法線マップ(surface normal maps)を同時に予測する幾何ニューラルネットワーク(GeoNet)を提案.NYU v2 dataset、ではGeoNetが幾何学的に一貫した深度マップと法線マップを予測できることを確認.surface normal maps推定でSOTA、また既存のdepth推定方法と同等の精度を達成.

    12

    新規性・結果・なぜ通ったか?

    • GeoNetは2つのストリームのCNNの上に構築されており、depthとsurface normal maps間の幾何学的な関係を構築.これによってdepthとsurface normal mapsを効率的に予測するための基礎となるモデルを構築し,高い一貫性と一致精度を達成することが可能.

    コメント・リンク集

    [#272]
    2018.6.9 13:54:32
    MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition
    Yizhou Zhou, Xiaoyan Sun, Zheng-Jun Zha and Wenjun Zeng
    CVPR2018
    Yuta Matsuzaki

    概要

    2D CNNと3D CNNの畳み込みモジュールを統合した行動認識のためのネットワークMixed Convolutional Tube(MiCT)を提案.3つの有名なベンチマークデータセット(UCF101,Sport1M,HMDB-51)においてMiCT-Netが元の3D CNNのみの手法より著しく優れていることを確認.UCF101とHMDB51での行動認識でSOTAの手法と比較し、MiCT-Netは最高の性能を発揮.

    12

    新規性・結果・なぜ通ったか?

    • 2D CNNにおける手法を十分にリスペクトし,3D Convと融合した新規のネットワークを構築
    • MiCT-Netによって時空間融合の各ラウンドにおける学習の複雑さを軽減しつつ、より深くより有益な特徴マップを生成可能
    • UCF101とHMDB51においてSOTA3

    コメント・リンク集

    [#273]
    2018.6.9 15:14:28
    Jerk-Aware Video Acceleration Magnification
    Shoichiro Takeda, Kazuki Okami, Dan Mikami, Megumi Isogai and Hideaki Kimata
    CVPR2018
    Yuta Matsuzaki

    概要

    高速で大きな動きに対して加速度法の出力を頑健にするための、ジャーク(振動,ぶれ)の新規利用方法について言及.微小な変化は時間的スケールでの高速な大きな動きよりも滑らかであるという観点・観測に基づき、高速で大きな動きの下でのみ微妙な変化を通過させるジャークフィルタを設計.

    13

    新規性・結果・なぜ通ったか?

    ジャークフィルタを加速度法に適用することで、最先端のものより優れた結果を確認.2

    コメント・リンク集

    [#274]
    2018.6.9 17:37:53
    Recurrent Pixel Embedding for Instance Grouping
    Shu Kong, Charless Fowlkes
    CVPR2018
    Hiroaki Aizawa

    概要

    Instance segmentationのような画素単位のグループ分け問題を行うEnd-to-Endで学習可能な枠組みを提案。同じグループの画素はcosine similarityが高くなるように、異なるグループはmargin以下の値になるように超球面上に回帰(Spherical Embedding Module)し、そこでRNNによるMean-shift clusteringを実行すること(Recurrent Grouping Module)で実現。

    Recurrent_Pixel_Embedding_for_Instance_Grouping.PNG

    新規性・結果・なぜ通ったか?

    既存のregion proposalやbboxによる組み合わせたinstance segmentationの手法とは大きく異なり新しい。またこれをRNNでMean-shift clusteringを表現することで実現し、End-to-Endな学習を可能としている。加えてhyperparameterの設定に関する理論的分析も提供。instance segmentationやsemantic segmentationだけでなく、様々なpixel-levelのドメインタスクへ応用可能。

    コメント・リンク集

    手法もシンプルでかつ効果的で応用先も広い。Fig.11の結果からsemantic segmentationにおいてもinstanceの情報が効果的に利用できそうで試してみたい。

    [#275]
    2018.6.11 07:49:04
    Learning a Discriminative Feature Network for Semantic Segmentation
    Changqian Yu, Jingbo Wang, Chao Peng, Changxin Gao, Gang Yu, Nong Sang
    CVPR2018
    Hiroaki Aizawa

    概要

    Semantic Segmentationにおけるintra-class inconsistencyとinter-class indistinctionの問題を、Discriminative Feature Network(DFN)によって対処。intra-class inconsistencyは図の牛の一部を馬と誤認識するような現象。inter-class indistinctionは、図のコンピュータのように外見が似ている対象の区別することが難しい現象。前者の問題をmulti-scaleかつglobal contextな情報を抽出するChannel Attention Block(CAB)を持つSmooth Networkにより、後者の問題をbottom-upなBorder Networkにより緩和する。

    Learning_a_Discriminative_Feature_Network_for_Semantic_Segmentation.PNG

    新規性・結果・なぜ通ったか?

    Semantic Segmentationをpixel単位のラベル付けだけではなく、物体の1つのカテゴリに対して一貫したセマンティックラベル付けをするタスクとして考えた。それゆえのBorder Networkと考える。上記の2つの問題は、必要な情報が異なるゆえ、対処の仕方をCABとU-Net構造に似たSmooth NetworkとBottom-upなBorder Networkとうまく分解している。PASCAL VOC 2012でmean IoU 86.2%、Cityscapesで80.3%を達成。

    コメント・リンク集

    実験で各モジュールの効果を検証していたが何が効いているのかよくわからない。直感的にはBorder NetworkとSmooth Networkの分離は良いアイデアと感じたが、この分離による効果は1%未満。

    [#276]
    2018.6.11 07:32:22
    SemStyle: Learning to Generate Stylised Image Captions using Unaligned Text
    A.Mathew, L.Xie and X.He
    CVPR2018
    arXiv:1805.07030
    Kota Yoshida

    概要

    書面上のコミニュケーションをする上で文書のスタイルは魅力と明快さに影響する.同一の画像からスタイルの異なるキャプションを生成するという研究.様々なスタイルの単語の選択肢とは異なる構文をもつ文章をデコードするための統一された言語モデルを開発した.

    画像

    新規性・結果・なぜ通ったか?

    • Semanticな用語を用いて文章の柔軟性を備えたキャプションの生成
    • スタイルと記述両方のコーパスを用いて文章レベルのスタイルを模倣するための学習
    • SemStyleのキャプションが画像の意味を保持し、記述的で、スタイルもシフトできていることを示した

    コメント・リンク集

    • 連続する写真からより豊富なキャプションを生成できる可能性を秘める
    • Paper
    [#277]
    2018.6.10 14:13:49
    Reinforcement Cutting-Agent Learning for Video Object Segmentation
    Junwei Han et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    Video Object Segmentation (VOS) を強化学習によって行う研究. Object Segmentation では主に物体の領域とそれらの(周辺との)関係性が重要であるという推量に基づいて, VOS をマルコフ過程として定式化し, Deep Q-Learning を適用した. 評価実験では, state-of-the-art とほぼ同等の結果を達成した.

    fukuhara-Reinforcement-Cutting-Agent-Learning-for-Video-Object-Segmentation.png

    新規性・結果・なぜ通ったか?

    • Video Object Segmentation (VOS) をマルコフ過程 (MDP) として定式化した
    • State は動画の現在のフレームの特徴量と過去 k(論文では k=4) フレーム分の action のヒストリーを使用
    • Action は object searching (9次元) と context embedding (3次元) を使用
    • Reward は ground truth のマスクと推定されたマスクの IoU の差で評価
    • 強化学習は Deep Q-Learning (DQN) を使用
    • DAVIS dataset と YouTube-Objects dataset を用いた評価実験では, state-of-the-art とほぼ同等の結果を達成した

    コメント・リンク集

    [#278]
    2018.6.9 17:29:55
    SeedNet: Automatic Seed Generation with Deep Reinforcement Learning for Robust Interactive Segmentation
    Gwangmo Song et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    インタラクティブセグメンテーションに強化学習を適用した研究. 入力画像と初期 seed から自動で新しい seed を順次生成する SeedNet を提案. 評価実験では state-of-the-art の結果を達成すると共に, 教師あり手法と比較しても優位な結果を達成した.

    fukuhara-SeedNet-Automatic-Seed-Generation-with-Deep-Reinforcement-Learning-for-Robust-Interactive-Segmentation.png

    新規性・結果・なぜ通ったか?

    • Interactive Segmentation のタスクをマルコフ過程として定式化し, 強化学習(Deep Q-Learning)を用いて学習を行った
    • State には入力画像の画素情報と seed の位置とラベル, mask 画像を用いる (seed の位置を state に陽に加えることによって, 生成される mask が seed 位置の変化についてロバストになるらしい)
    • Action は state の情報から新しい seed の位置とラベルの決定(自由度を削減するために 20x20 のグリッド上から位置を選択, seed の数が10点になった段階で終了)
    • Reward は生成された Mask と Ground Truth の Mask の IoU(exp 型を提案)に加えて, SeedNet によって追加された新 seed のラベルと位置が適切かの2点を考慮して決定
    • MSRA10K dataset を用いた評価実験では state-of-the-art の結果に加えて, 初期の seed 位置についてロバストであることが確認された
    • また, 教師あり学習を用いた手法 [Long+15], [Xu+16] と比較しても優位性が確認された

    コメント・リンク集

    [#279]
    2018.6.10 21:50:55
    Adversarial Complementary Learning for Weakly Supervised Object Localization
    Xiaolin Zhang et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    弱教師ありの Object Localization の研究. 2つの Classifier を並列に配置し, 片方の classifier で注目された領域を他方の入力から取り除いておくことで, それぞれが異なる領域に反応するような構造となっている. 評価実験では ILSVRC dataset の localization のタスクで 45.15% (new state-of-the-art) の誤差率を達成した.

    fukuhara-Adversarial-Complementary-Learning-for-Weakly-Supervised-Object-Localization.png

    新規性・結果・なぜ通ったか?

    • 全結合層の最後に畳み込み層を1つ追加することで, CAM [Zhou+16] と同等の object localization maps を事後処理無しで得られることを数式で示した
    • 画像から畳み込み層によって抽出した特徴量を, 並列に配置した classifier に入力する
    • 片方の classifier から出力された object localization map で注目されていた領域を消去したものを, 他方の入力とすることで両方の classifier を異なる領域に反応させる
    • ILSVRC dataset 等を用いて行った評価実験では Localization と Classification の両タスクにおいて, state-of-the-art [Zhou+16, Singh+17] と同等か優位な結果を達成した
    [#280]
    2018.6.9 00:32:55
    Feature Selective Networks for Object Detection
    Yao Zhai, Jingjing Fu, Yan Lu, Houqiang Li
    CVPR2018
    538

    概要

    物体検出時に用いるRegion-of-Interest(RoI)を,sub-regionとアスペクト比の差を用いて再構成するFeature selective netsを提案.画像全体に対してsub-regionのattention bank(すべてのattention mapを記憶するbank)とアスペクト比のattention bankを生成する.Attention mapはbankから選択的にpoolされ,RoIの改善に使用される.処理の手順は(1)CNNから得られた特徴マップをRPNに入力しRoIを得て,(2)特徴マップのチャンネル数を削減してRoIプーリングを行い,圧縮されたRoI特徴を得る.(3)削減される前のRoIをregion-wise attention生成モジュールに入力する.特徴マップを用いてアスペクト比attention bankとsub-region attention bankを得る.(4)各bankにselective RoIプーリングを行う.そして,(2)と(4)で得られたRoI特徴と各attention mapを結合して検出サブネットワークに入力する.

    20180610_FeatureSelectiveNets1.jpg20180610_FeatureSelectiveNets2.jpg

    新規性・結果・なぜ通ったか?

    RoIをattentinを用いて補正する.VGGだけではなくGoogLeNetやResNetにも適用可能である.VOC2007を用いた評価では,mAP: 82.9%, 76.8%, 74.3% (Res101, GoogLe, VGG-16)を達成し,Faster R-CNNの78.8%, 74.8%, 73.2%(上記と同順)よりも高精度である.さらに,検出サブネットワークをシンプルにしているため,Faster R-CNNよりも高速な検出が可能である.

    コメント・リンク集

    Attentionを用いた物体検出が増えてきている.Mask R-CNNみたいにRoIに注目する手法も多い?

    [#281]
    2018.6.10 23:42:54
    Pseudo Mask Augmented Object Detection
    Xiangyun Zhao, Shuang Liang, Yichen Wei
    CVPR2018
    530

    概要

    Bounding boxでの物体検出でグラフカットを用いて擬似的なマスク(セグメンテーション)のrefinementを行う.インスタンスセグメンテーションの学習を行うことで擬似的な物体マスクを推定できるようにネットワークパラメータを最適化する.フレームワークは検出ネットワークと擬似的なマスクのrefinementを行うグラフカットベースのモジュールからなる.RoIを入力として,ベースネットワークの特徴マップからインスタンスセグメンテーションを行い,それをグラフカットモジュールに入力して擬似的なマスクを得る.インスタンスセグメンテーションの結果はbounding boxの修正にも用いられる.

    20180610_PseudoMaskAug1.jpg20180610_PseudoMaskAug2.jpg

    新規性・結果・なぜ通ったか?

    流行りの物体検出+セグメンテーションの手法.マスクを単に特徴マップから得て終わりではなく,グラフカットでrefineする部分は新しいところ.グラフカットを数iter行うことで,よりきれいなマスクを得ることができる.VOC2007/2012を用いた物体検出の精度はmAP74.4%(VGG-16)で,Faster R-CNN(70.4%)やHyperNet(71.4)よりも良い.VOC2012SDSを用いたセグメンテーションの精度は58.5/67.6(マスクレベルスコア/物体検出スコア)%であり,iterを繰り返すことで精度が向上することが確認されている.

    コメント・リンク集

    セグメンテーションタスクの精度向上のためグラフカットでマスクのrefineを繰り返し行うのは面白いと思った.Iter0とiter3でマスクの結果を比較するとかなりきれいになっている.

    [#282]
    2018.6.10 21:35:27
    Scalable Dense Non-Rigid Structure-From-Motion: A Grassmannian Perspective
    Suryansh Kumar, Anoop Cherian, Yuchao Dai, Hongdong Li
    CVPR 2018

    概要

    複数画像を使用した非剛体のSfM (Non-Rigid Structure-from-Motion)に関する研究である。右図は非剛体の表面形状復元結果の一例であり、顔のように時系列的に変化する形状を、多様体の概念をSfMに導入することにより問題解決を図っている。非剛体の形状変化を、空間的・時間的な部分空間としてすいていすることでSfMを実行する。

    180610NRSfM

    新規性・結果・なぜ通ったか?

    非剛体物体の表面形状復元に関するSfM問題を、グラスマン多様体(Grassman Manifold)の問題と捉えて解決している点が新規性として挙げられる。柔軟に表面形状復元ができている様子は動画にて確認可能である。

    コメント・リンク集

    DynamicFusionからこの手の問題は出て来たのだが、どのような違いがある/どのように展開されているのか?

    [#283]
    2018.6.10 16:43:01
    A Papier-Mâché Approach to Learning 3D Surface Generation
    Thibault Groueix, Matthew Fisher, Vladimir G. Kim, Bryan C. Russell, Mathieu Aubry
    CVPR 2018

    概要

    2次元画像、もしくは3次元点群からメッシュや分解構造を生成し、テクスチャありのメッシュや3次元プリント物体を出力する。この枠組みはAtlasNetと呼ばれ、同タスクのPrecision向上と一般化の面で性能改善を行い、3次元形状を集めたデータベースであるShapeNet上で形状をAuto-Encoding、単眼画像からの形状復元を行った。その他、AtlasNetを用いてモーフィング、パラメトライゼーション、超解像、形状マッチング、共セグメンテーションを実施した。

    180610AtlasNet

    新規性・結果・なぜ通ったか?

    3D表面形状生成器であるAtlasNetを構築したことが最も大きな新規性である。形状に関するパラメータを学習可能にした。さらに、AtlasNetをGitHub上で公開して使用できる形式にしている。復元したメッシュ形状も、提案手法がもっともノイズが少なく、良好な復元結果となった。

    コメント・リンク集

    数年前は型崩れの多い3次元形状を出力するGeneratorであったが、徐々によくなりつつある。この研究もまだ過程にしか過ぎない?

    [#284]
    2018.6.10 16:03:52
    Improving Occlusion and Hard Negative Handling for Single-Stage Pedestrian Detectors
    Junhyug Noh, et al.
    Munetaka Minoguchi

    概要

    歩行者検出におけるオクルージョンやハードネガティブを改善するための提案。本提案手法は、シングルステージ物体検出手法に適応可能。オクルージョン処理のために、ベースモデルの出力テンソルを更新してパートスコアを推定し、オクルージョン認識スコアを算出する。ハードネガティブの混同を軽減するために、 average grid classifiersをpost-refinement classifiersとして導入。

    20180690IOHN.jpg

    新規性

    SqueezeDetやYOLOv2、SSD、DSSDを含むシングルステージ物体検出手法に適応でき、オクルージョンやハードネガティブを改善する。本論文では歩行者検出におけるオクルージョンにフォーカスを当てているが、一般物体検出にも適応できる可能性がある。

    結果・リンク集

    CaltechPedestrianとCityPersonsデータセットで評価。4つのモデルのパフォーマンス向上を確認。重度のオクルージョン設定において、最良のパフォーマンス。

    [#285]
    Iterative Learning with Open-set Noisy Labels
    Yisen Wang, et al.
    1804.00092
    Munetaka Minoguchi

    概要

    ノイズのあるラベルを含んだデータセットを使い、CNN学習を高精度に行うための新しい反復学習フレームワークの提案。反復的なノイズラベル検出、特徴学習、および再重み付けの3段階のフレームワークでノイズの多いラベルを検出しつつ、識別器を反復的に学習。再重みづけでは、クリーンなラベルの学習を重視し、ノイズの場合には低減させる。

    20180690NoisyLabels.jpg

    新規性

    綺麗なラベルアノテーション付き大規模データセットによる学習は非常に重要だが、人の手間がかなりかかる他、ヒューマンエラーを含む可能性が否めない。本研究では、あえてノイジーなデータセットに挑戦することで、これらの問題を解決する。

    コメント・リンク集

    データセットの収集コストや信頼性の問題に伴って、自ら良いデータを選択して学習する需要が高まっている印象。

    [#286]
    Hand PointNet: 3D Hand Pose Estimation using Point Sets
    Liuhao Ge, et al.
    Munetaka Minoguchi

    概要

    正規化されたポイントクラウドを入力として、複雑な手構造を捕捉し、手の姿勢の低次元表現を正確に回帰させることができるHand PointNetの提案。Oriented Bboxでポイントクラウドを正規化し、ネットワーク入力をよりロバストにする。その後、階層的なPointNetに入力し特徴抽出。PointNetを細分化することにより、指先に対する推定精度を向上させる。

    20180610HandPointNet.jpg

    新規性

    CNNを用いた従来の奥行き画像における3次元手姿勢推定手法とは異なり、本研究では三次元点群に着目している。データは、奥行き画像をポイントクラウドデータに変換してから使用している。

    結果・リンク集

    3つのハンドポーズデータセットにて実験し、リアルタイム性に優れていることを示唆。

    [#287]
    Toward Driving Scene Understanding:A Dataset for Learning Driver Behavior and Causal Reasoning
    Vasili Ramanishka, et al.
    Munetaka Minoguchi

    概要

    自動車の運転シーン理解のためのデータセットであるHonda Research Institute Driving Dataset(HDD)の提案。本データセットはサンフランシスコ・ベイエリアにて、様々なセンサーを備えた自動車を人間が運転したデータが104時間分含まれる。センサはグラスホッパーカメラ、LiDAR、ダイナミックモーションアナライザ、Vehicle Controller Area Network (CAN)の4つ。これらのデータから運転者の行動を基にアノテーションを付加している。

    20180610HDD.jpg

    新規性

    様々なセンサを用いて、大規模データを収集しただけでなく、ヒューマンファクタや認知科学に基づいてアノテーションを行っている。アノテーションは、Goal-oriented action, Stimulus-driven action, Cause, Attentionの4つ。

    コメント・リンク集

    LSTMを用いたベースラインにおいて、センサを増やすことによって表現力の向上が見られた。評価が難しいアノテーションデータが含まれ、チャレンジングなデータセット。

    [#288]
    A High-Quality Denoising Dataset for Smartphone Cameras
    Abdelrahman Abdelhamed, Stephen Lin, Michael S. Brown
    Munetaka Minoguchi

    概要

    スマートフォンで撮影したノイズの多い画像で構成したデータセットSmartphone Image Denoising Dataset (SIDD)の提案。 5つの代表的なスマホカメラを使用し、様々な照明条件下で約30,000枚のノイズの多い画像を収集。ノイズの多い画像だけでなく、ノイズを除去した画像をground truthとして提案。

    20180610SIDD.jpg

    新規性

    過去10年間で、撮影される画像は一眼レフやコンデジから、スマートフォンに切り替わったことに着目。しかし、口径やセンサ―サイズが小さいため、スマホの写真はノイズを多く含んでいる。このような、ノイズを多く含んだスマホ画像を集めることで新たなデータセットを提案する。

    コメント・リンク集

    やはりノイズを含むスマホ画像でのトレーニングよりも、高品質な画像でトレーニングした方が、CNNで高い精度を得た。現在のタスクにおいて「スマホの画像だから精度が出ない」というのはあまり考えにくいが、日常的なアプリケーションには有用なデータセットではないか。

    [#289]
    Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion Forecasting with a Single Convolutional Net
    Wenjie Luo, Bin Yang, Raquel Urtasun
    CVPR2018
    437

    概要

    3Dセンサで得られた点群から3D物体検出や追跡を行う新しいDNN「Fast and Furious(FaF)」を提案.検出と追跡,さらに短期の経路予測を同時に推論でき,Sparse dataやオクルージョンに頑健な検出ができる.3D点群と時間の4Dテンソルを入力として,空間と時間に対して3D畳み込みを行う.4DテンソルはEarly FusionまたはLate Fusion(図中ではLater)で時間情報を結合している.これらは精度と効率のトレードオフ関係にある.

    20180610_FaF1.jpg20180610_FaF2.jpg

    新規性・結果・なぜ通ったか?

    物体検出から追跡,さらに経路予測までend-to-endで行えるモデル.全体の検出時間はわずか30ms以下である.約55万フレームからなるLiDARのデータセットを作成し,車両に3D bboxとトラッキング用IDをラベリングして学習および評価に用いる.物体検出の結果はSSDのIoU 77.92mAPを上回る83.10mAPである(Late Fusionを用いることで1.4mAP向上している).追跡もHungarianと同等以上の性能で,経路予測もL2距離0.33メートル未満で10フレーム予測可能である.

    コメント・リンク集

    タイトルが某カーアクション映画みたいでカッコいい.内容も名前負けしておらずよく作り込まれておりOralで採択されている.インパクトのあるタイトルは大切.

    [#290]
    2018.6.10 03:15:09
    Low-Shot Learning from Imaginary Data
    Yu-Xiong Wang, et al.
    1801.05401
    Munetaka Minoguchi

    概要

    人間の想像力に着目することで、メタ学習におけるLow-Shot Learningを可能にするアーキテクチャの提案。コンピュータビジョンに幻覚(想像)を抱かせることで、少ないデータから新しい視覚的概念を学習させる。アプローチとしては、メタ学習を取り入れており、 meta-learnertとhallucinator(幻覚者)を組み合わせて共同で最適化。hallucinatorは、通常のトレインセットとノイズベクトルから幻覚トレーニングセットを出力する。通常のトレーニングセットに加えて、幻覚トレーニングセットを学習することで精度向上を図る。

    20180609imagin.jpg

    新規性

    人間は新しい視覚的情報を素早く学習できる。これは、「物体がさまざまな視点から見たときにどのように見えるかを想像できるから」と仮定。そのうえで、人間の想像力をモデルとし、システムに組み込むことでLow-Shot Learningを可能にしている。

    コメント・リンク集

    AIに幻覚を見せられる時が来た模様。さまざまなメタ学習手法に組み込むことができ、精度を向上させられるらしい。

    [#291]
    Multi-View Harmonized Bilinear Network for 3D Object Recognition
    Tan Yu, Jingjing Meng, Junsong Yuan
    CVPR 2018

    概要

    3次元物体認識を実行するMulti-view Harmonized Bilinear Network (MHBN)を提案する。異なるビューの特徴量を学習するために基本的にはパッチベースでマッチングを行う。Polynomial Kernel/Bilinear Poolingの関係性を記述するために、畳み込みによる3次元物体表現とBilinear Poolingを実行する。MHBNの枠組みはEnd-to-Endでの学習が可能である。構造は右図のように示され、畳み込みにより特徴マップ(3次元物体表現)を生成、最後にBilinear Poolingを通り抜けて識別を実行。

    180609MultiviewHarmonized

    新規性・結果・なぜ通ったか?

    3次元物体認識の場面においてSoTA。ModelNet40, ModelNet10ではそれぞれ94.7 (Instance)/93.1 (Class), 95.0 (Instance)/95.0 (Class)である。

    コメント・リンク集

    3次元物体認識ではホントの意味での大規模DBはないのだろうか?ModelNetにしてもShapeNetにしてもCADをベースにしている?

    [#292]
    2018.6.9 22:40:37
    Disentangled Person Image Generation
    Liqian Ma, Qianru Sun, Stamatios Georgoulis, Luc Van Gool, Bernt Schiele, Mario Fritz
    CVPR 2018

    概要

    アピアランス/ビューポイント/背景など、分解された(Disentangled)人物画像の生成を行うための研究である。この目的のため、2ステージの生成手法を考案した(右図を参照)。1ステージ目はリアルの埋め込み特徴(Embedding Features)を獲得する学習を行い、前景/背景や姿勢などを表現。次に2ステージ目は敵対的学習により生成的特徴学習を行いガウシアンノイズから中間表現にマッピング、特徴変換を行う。

    180609DisentangledPersonImageGeneration

    新規性・結果・なぜ通ったか?

    姿勢ベースの人物画像を生成し、人物再同定(Person Re-Identification; ReID)の学習に適用。人物画像生成自体も誤差が少なく、ReIDのためのにおいても良好な精度を実現した。

    コメント・リンク集

    学習画像がコントロールできるということで注目される技術。ある程度の知見を学習しておけば、そのうちリアル画像のデータがいらない時代になる?

    [#293]
    2018.6.9 21:59:40
    Learning Pose Specific Representations by Predicting Different Views
    Georg Poier, David Schinagl, Horst Bischof
    CVPR 2018

    概要

    異なるビューポイントの距離画像入力から、低次元の潜在表現を利用して手部領域追跡の学習を実行する研究である。ビューポイント推定の誤差をフィードバックして、教師なしでも手部の姿勢推定に必要な潜在表現を獲得する。これにより、必要なのは対象となるビューポイントではなく、第二のビューポイントのみであり、ラベルあり/ラベルなしの場合においても効果的に学習することができる(Semi-supervised Learningの枠組みで学習可能)。

    180609PoseSpecificRepresentation

    新規性・結果・なぜ通ったか?

    あるビューポイントの距離画像が手に入れば、異なるビューポイントに関する手部領域の姿勢推定が可能になるSemi-supervised Learningを提案。異なるビューポイントの低次元潜在表現を学習し、3Dの関節位置を推定することができる。NYU-CS dataset/MV-hands datasetにてState-of-the-artな精度を達成。

    コメント・リンク集

    中間表現(本論文の場合には低次元潜在空間)を学習して、異なるドメイン間の学習に応用したい。このような問題は意外と簡単にできるのだろうか?

    [#294]
    2018.6.9 19:19:49
    Fine-grained Video Captioning for Sports Narrative
    Huanyu Yu, Shuo Cheng, Bingbing Ni, Minsi Wang, Jian Zhang, Xiaokang Yang
    CVPR 2018
    okayasu

    概要

    Fine-grainedなスポーツ動画キャプショニング

    Fine-grained_Video_Captioning_for_Sports_Narrative

    新規性・結果

    • youtubeから2Kのスポーツ動画とキャプションからなるFine-grained Sports Narrative dataset(FSN)の提案
    • スポーツビデオのキャプショニングの新しい評価指標Fine-grained Captioning Evaluation(FCE)の提案
    • スポーツビデオのキャプショニングの新しいフレームワークの提案(骨格情報とオプティカルフローで詳細な動作のエンコード,オプティカルフローと選手のローカライズ結果で人物間のインタラクションをエンコードそれらのエンコードされたベクトルを階層的RNNで言語化)

    コメント・リンク集

    [#295]
    2018.3.24 13:04:44
    GANerated Hands for Real-Time 3D Hand Tracking From Monocular RGB
    Franziska Mueller, Florian Bernard, Oleksandr Sotnychenko, Dushyant Mehta, Srinath Sridhar, Dan Casas, Christian Theobalt
    CVPR 2018

    概要

    RGBのみの動画入力からリアルタイムに3次元手部関節位置推定を実行する手法を提案。YouTubeのようなコントロールされていない場面においても3次元手部関節位置推定を行うことができる。本論文では3次元のハンドモデルとCNNを組み合わせることによりトラッキングを実行しており、GANによる生成ベース(手の3次元合成データをリアルに変換していることに相当)の手法によりオクルージョンやビューポイントの違いに頑健である。GANはAdversarial LossとCycle-consistency Loss、さらには幾何学的な整合性を保つためにGeometric Consistency Lossを最適化するよう学習。

    180609GANeratedHand

    新規性・結果・なぜ通ったか?

    GANをベースとして合成データからリアル画像を生成、同データで学習したモデルは、RGB-onlyな3次元ハンドトラッキングにおいてState-of-the-artである。敵対的学習を用いたデータ生成手法、YouTube等のあまり校正されていないデータにおいても良好な精度を実現していることが採択された理由であると考える。

    コメント・リンク集

    3Dデータを自由に生成できることは、次世代のアイディアを実現するための大きなポイントである。3次元トラッキングのみならず面白いこと考えたい。

    [#296]
    2018.6.9 18:52:55
    A Certifiably Globally Optimal Solution to the Non-Minimal Relative Pose Problem
    Jesus Briales, Laurent Kneip, Javier Gonzalez-Jimenez
    CVPR 2018

    概要

    キャリブレーション済みの2カメラにおける相対姿勢の推定問題を解くための全体最適化法(Globally Optimal Solution)を提案する。局所最適解ではなく、グローバルな最適化が計算できることが新規性である。本論文では、凸最適化の問題においてあらかじめ定義された問題(Shor's Convex Relaxation)としてQuadratically Constrained Quadratic Program (QCQP)を扱うことを実施する。ここに対して、理論的かつ実験的な解答法を提示したことが本論文の貢献である。

    180609GloballyOptimalSolution

    新規性・結果・なぜ通ったか?

    2カメラの相対姿勢問題の解決のために従来の凸最適化手法を適用して、理論的かつ実験的に解決できることを示したことが新規性であり、CVPRに採択された理由である。

    コメント・リンク集

    (あまり深く読めていないのと、知識が足りなくて自信がないです。。)

    [#297]
    2018.6.9 17:36:01
    LiDAR-Video Driving Dataset: Learning Driving Policies Effectively
    Yiping Chen, et al.
    Munetaka Minoguchi

    概要

    LiDERで取得したポイントクラウド、車載カメラ映像、および一般ドライバーの運転動作からなるLiDAR-Videoデータセットの提案。運転動作は、ハンドルの傾きと自動車の走行速度情報によるもの。また、これらのデータを使い、自律走行における運転手段を決定するためのPolicy Learningを提案。 これは、DNN+LSTMで構成されるアーキテクチャである。3種類のデータの対応時間を登録することでどのように運転するかをベンチマークする。

    20180690LiDERVIDIO.jpg

    新規性

    自律走行において、これまではカメラとレーザースキャナー、運転動作を組み合わせたデータやアプローチがなかった。本論文ではデータベースを構築したうえで、自律走行に対するアプローチを提案している。

    結果・リンク集

    単一のデータよりも3つのデータを組み合わせることで精度が向上していることを示唆。また、DNN単体よりも長いtermで処理できるDNN+LSTMの方が精度向上につながることも示唆。

    [#298]
    Collaborative and Adversarial Network for Unsupervised domain adaptation
    Weichen Zhang, Wanli Ouyang, Wen Li, Dong Xu
    CVPR 2018 Spotlight
    Kazuki Inoue

    概要

    CNNの浅い層ではドメイン固有の特徴量を、深い層ではドメインに不変な特徴量を取得することでdomain adaptationを行うCollaborative and Adversarial Network(CAN)を提案。 従来のDomain Adversarial Training of Neural Network(DANN)ではドメインに不変な特徴量を学習することができるものの、ターゲットドメイン固有の特徴量を得ることが難しいという問題があった。 提案手法では、CNNの浅い層では低次の特徴量を、深い層では高次の特徴量を取得することができることに着目し、 CNNのそれぞれのブロックに対するdomain discriminatorに対して、浅いブロックではソースドメインとターゲットドメインを識別可能となるように、 深いそうでは識別が不可能となるように学習を行う。ソースドメインに対してはクラスの識別も行う。 またテストデータに対してpseudo labelingを行うIncremental CAN(iCAN)も提案。 ターゲットドメインのサンプルのうち、高いconfidenceでソースドメインであると判定され、 かついずれかのラベルに対するconfidenceが高いものに対してpseudo labelingを行うことで、データセットを拡張しdomain shiftを解消する。

    新規性・結果・なぜ通ったか?

    • CNNの浅いブロックで得られる特徴量に対してはドメイン識別が可能なように、深いブロックで得られる特徴量に対してはドメイン識別が不可能なように学習を行うCANを提案。 またターゲットドメインに対してpseudo labeingを行うiCANも提案。
    • 実験で使用したのはpretrained RenNet50であり、10層目、22層目、40層目、49層目のそれぞれに対してdomain discriminatorを適用。41~49層からなるブロックからドメインに不変な特徴量を得るように学習を行った。
    • Office31、ImageCLEF-DAを用いたクラス識別においてstate-of-the-artと比較した結果、最も高い精度を達成。

    コメント・リンク集

    • シンプルな発想だが面白い手法!似たアイディアで画像の生成もできないだろうか?
    • 論文
    [#299]
    Look at Boundary: A Boundary-Aware Face Alignment Algorithm
    Author
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    顔の境界線を事前分布として使用することで、顔のランドマークを推定する手法を提案。既存手法でジゼ情報として使用されている顔のパーツは情報が離散的であり、 顔に対するセマンティックセグメンテーションであるface parsingは鼻に対する精度が良くない。 一方で顔の境界線は定義がはっきりしており、かつ顔の形状から推定することが可能。 提案手法では顔の境界線をstacked hourglassをベースとして、オクルージョンに対して頑健になるようにmessage passing layer、 推定精度の向上のためにadversarial netを導入している。推定された顔の境界線を元に、顔のランドマークを推定する。

    新規性・結果・なぜ通ったか?

    • 事前実験によって顔の境界線を用いたランドマーク推定がstate-of-the-artよりも優っていることを確認した上で手法を提案。
    • 300W, COFW, AFLWなどのデータセットにおいてstate-of-the-arttと比較した結果、全ての場合において提案手法が優位となった。また境界線のGTを使用したランドマーク推定をOracleとして示しており、 Oracleによる推定精度が最も高くなった。
    • WIDER FaceデータセットをベースにしたWider Facial Landmarks in-the-wild(WFLW)データセットを構築しており、10000枚の画像に対して98点のランドマーク、オクルージョン、メイク、照明環境、ブラー、表情のアノテーションを持つ。

    コメント・リンク集

    [#300]
    Revisiting knowledge transfer for training object class detectors
    Jasper Uijlings, Stefan Popov, Vittorio Ferrari
    1708.06128
    Munetaka Minoguchi

    概要

    ソースクラスのBBoxアノテーションを使って、弱教師付きのトレーニング画像からターゲットの物体検出器を学習する知識転移手法の提案。まず、ソーストレインセットでproposal generatorをトレーニングし、それをターゲットトレインセットに適用。次に、画像のクラスラベル(Bboxなし)を使用し、知識転移でMultiple Instance Learning(MIL)を実行。 MILによって、物体検出器をトレーニングするために使用する、ターゲットクラス用のBBoxを生成。最後に、ターゲットの物体検出器をターゲットテストセットに適用。

    20180609MKT.jpg

    新規性

    物体候補とクラスを段階的に知識伝達していくフレームワーク。これにより、固有のクラスやジェネリックなクラスに渡る、広い知識伝達を可能にすることができる。

    結果・リンク集

    段階的な知識伝達によって、良質な物体候補を出力できる。

    [#301]
    Fight Ill-Posedness With Ill-Posedness: Single-Shot Variational Depth Super-Resolution From Shading
    Bjoern Haefner, Yvain Quéau, Thomas Möllenhoff, Daniel Cremers
    CVPR 2018

    概要

    距離空間/距離画像の超解像を行う(Super-Resolution)を行う技術を提案。従来はShape-from-shadingにより行って来たが、形状の複雑性(誤りを含む)が存在していたため、これを改善する手法を提案した。

    180609FightIllPosed

    新規性・結果・なぜ通ったか?

    距離画像における超解像を行うための最適化手法を提案した。結果は図に示すとおりである。

    [#302]
    2018.6.9 13:58:31
    Multistage Adversarial Losses for Pose-Based Human Image Synthesis
    Chenyang Si, Wei Wang, Liang Wang, Tieniu Tan
    CVPR 2018

    概要

    人物の姿勢を事前情報として、ある視点の人物画像の入力からビューポイントを変更した人物画像を合成する手法を提案する。右図では3ステージのフレームワークについて示しており、最初のステージでは角度情報を挿入した姿勢変換、次のステージでは角度変化した人物にアピアランスを挿入、最後に背景を自然に挿入するステージ、という感じで変換が進んで行く。どう枠組みを実行するため、特にステージ2ではAdversarial Lossが、ステージ3ではForeground/Global Adversarial Lossを適用して誤差を計算する。

    180609PoseHumanSynthesis

    新規性・結果・なぜ通ったか?

    評価は生成した画像のPSNR(シグナル・ノイズ比)、正解値との誤差SSIMを計算して、提案手法がもっとも優れた数値を出していることを明らかにした(SSIM: 0.72, PSNR: 20.62)。

    コメント・リンク集

    データセットの環境が固定だからできる?背景モデルの空間が非常に小さいので変換した際にもテクスチャが崩れずに生成できる?

    [#303]
    2018.6.9 13:47:06
    Cross-Modal Deep Variational Hand Pose Estimation
    Adrian Spurr, Jie Song, Seonwook Park, Otmar Hilliges
    CVPR 2018

    概要

    2次元画像と3次元手部モデルを同様の空間で扱うことができるCross-modal latent spaceを提案して、手部姿勢推定を実行する。別々にクラスタリングするのではなく、同一の空間で扱う(2DRGB-3D空間関係なく、同じ姿勢は同じような空間位置に投影される)方がマッチングの際にも便利。この特徴空間を学習するためにVariational Auto-Encoder(VAE)の枠組みで、Cross-modalのKL-divergenceを学習する。

    180609CrossModalLatentSpace

    新規性・結果・なぜ通ったか?

    2D-3Dの共通空間を学習することで、2D画像からダイレクトに手部の3D関節点推定に成功した。距離画像との単一空間も学習可能とした。同一空間上で扱えるようにして、かつ従来法よりも精度向上が見られたため、CVPRに採択された。

    コメント・リンク集

    異なるモダリティを同一の枠組みで行ってしまう(2d-3dを同じ空間で)学習は他にもありそう?

    [#304]
    2018.6.9 13:24:52
    Progressive Attention Guided Recurrent Network for Salient Object Detection
    Xiaoning Zhang, et al.
    Munetaka Minoguchi

    概要

    マルチレベルのコンテクスト情報を選択的に統合する、顕著性のためのProgressive Attention Guided Recurrent Networkの提案。Attention Moduleを複数組み込み、その出力をステップ形式で統合していく。高レベルのfeatureを使って、低レベルのfeatureをガイドするイメージ。また、ネットワーク全体を最適化するためのmulti-path recurrent feedbackを提案。これにより、上部の畳み込み層からのセマンティック情報を、浅い層に転送することができる。

    20180609PAGRN.jpg

    新規性

    顕著性推定のための学習方法の提案。 従来のFCNベースの方法では、情報を区別せずに多レベルの畳み込み特徴を直接適用してしまうため、精度が上がらないと指摘。複数の層、複数のAttention Module出力を使い、コンテキスト情報を統合するので強力な特徴を抽出できる。

    結果・リンク集

    6種類のデータベースで精度評価。従来手法と比較して、ほぼ全てで最良の結果。

    [#305]
    Scale-Transferrable Object Detection
    Peng Zhou, et al.
    Munetaka Minoguchi

    概要

    マルチスケールに対応した物体検出器であるScale-Transferrable Object Detection(STDN)の提案。STDNは DenseNet-169をベースとし、複数の物体スケールに対応するためのsuper-resolution layersを搭載。このsuper-resolution layersによってアップサンプリングすることで高解像度のfeature mapを得られるので小さな物体に対応し、大きな物体にはpooling層で対応する。

    20180690STDN.jpg

    新規性

    従来の物体検出手法では、様々なサイズのfeature mapを組み合わせるなどして、スケールに対応していたが、やはり小さな物体は苦手。本手法では、super-resolution layersという新たな手法によって改善を図る。

    結果・リンク集

    PASCAL VOCやMS COCOなどで精度向上を示している。個人的には、物体検出が苦手とする小さな物体に着目したデータセットなどを用意したうえで精度を比較してみたい。

    [#306]
    Weakly and Semi Supervised Human Body Part Parsing via Pose-Guided Knowledge Transfer
    Hao-Shu Fang, Guansong Lu, Xiaolin Fang, Jianwen Xie, Yu-Wing Tai, Cewu Lu
    CVPR 2018

    概要

    人物姿勢推定において「似たような姿勢はほぼ同じセグメント結果を保有する」という前提で弱教師付き/半教師あり学習を実行する。ある対象画像が入力された際にはほぼ同じ姿勢のデータをDBから検索して知識を転用(Pose-guided Knowledge Transfer)学習を実行する。その際に姿勢による拘束条件(Morphological Constraints)を入れ込むことでピクセルベースの姿勢のセグメンテーションを実行。モデルは全層畳み込みネット(Fully Convolutional Networks; FCN)を適用。

    180609WeakSemiPoseParsing

    新規性・結果・なぜ通ったか?

    弱教師付き学習(類似の姿勢を検索して対応づける)/半教師付き学習(少量のデータがあれば学習を実行)、いずれの手法でも姿勢学習を実行することができる。その上でデータ量を確保することに成功し、PASCAL-Part datasetにてmAPが3ポイント向上した。

    コメント・リンク集

    より少量のアノテーションで、かつ複数の枠組みで(本論文の場合は弱教師付き学習/半教師あり学習)学習が実行できる枠組みが増えてきた。そればかりか、教師あり学習のみよりも精度の高いものができあがりつつある。

    [#307]
    2018.6.9 09:39:15
    Occluded Pedestrian Detection Through Guided Attention in CNNs
    Shanshan Zhang, et al.
    Munetaka Minoguchi

    概要

    オクルージョンに頑健な、Faster R-CNNベースの歩行者検出手法の提案。歩行者検出について解析することで、CNN特徴の各チャンネルがそれぞれ異なる身体部分を活性化していることに着目。(実際にチャンネルごとにアテンションを取ることで確認)各チャンネルが異なる身体部位を表現しているならば、オクルージョン発生時に身体部位の特定の組み合わせを定式化することができる。

    20180608OPDTGA.jpg

    新規性

    歩行者検出器におけるCNN特徴について解析することで、歩行者に特化した物体検出を可能にしている。Faster R-CNNにAttention Networkを追加したアーキテクチャを提案。これにより、上位featureの重みパラメータを調節。

    結果・リンク集

    アーキテクチャをあまり複雑化せずに精度を向上させている。動物や虫などでも、CNNチャンネルごとに異なる身体部位を表現しているのだろうか。

    [#308]
    FaceID-GAN: Learning a Symmetry Three-Player GAN for Identity-Preserving Face Synthesis
    Yujun Shen, Ping Luo, Junjie Yan, Xiaogang Wang, Xiaoou Tang
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    IDを保った任意の顔向き画像をGANで生成するために、実画像ドメインと合成画像ドメインのそれぞれのIDを識別するclassifierを導入したFaceID-GANを提案。従来のGANではgeneratorとdiscriminatorが競い合うだけでclassifierは補助的な機能を果たしていたが、 提案手法におけるclassifierは実画像に対しては実画像ドメインのID番号を、 合成画像に対しては合成画像ドメインのID番号を識別させる、というようにデータセットに含まれるN個のラベルに対して、 2Nのラベル識別を行う。 他にも実画像のIDを表す特徴量と合成画像のIDを表す特徴量のコサイン類似度をロス関数として使用することで、 異なるドメインに属する特徴量の類似度を高める。generatorには顔の形状特徴量、顔向き特徴量、ランダムノイズを入力とする。

    新規性・結果・なぜ通ったか?

    • 実画像、合成画像のそれぞれのドメインにおいてID識別を行うclassifierをGANに導入することで、generator VS. discriminator & classifier の構図を持つFaceID-GANを提案。
    • CASIA-WebFace494414枚(10575人のID)の画像でトレーニングを行い、LFW, IJB-A, CelebA, CFPで検証した。
    • state-of-the-artと横顔を入力とした正面顔画像生成、水平方向の視点移動、face verificationの精度を比較した結果、最も高い精度を達成した。

    コメント・リンク集

    [#309]
    Unsupervised Sparse Dirichlet-Net for Hyperspectral Image Super-Resolution
    Ying Qu, Hairong Qi, Chiman Kwan
    CVPR 2018 Spotlight
    Kazuki Inoue

    概要

    高解像度かつ短いスペクトルバンド幅で撮影された画像であるhyper resolution hyperspectral image(HR HSI)を、HR HSIの正解データなしで、広いスペクトルバンド幅で撮影された高解像度画像(HR MSI)と、短いスペクトルバンド幅で撮影された低解像度画像(LR HSI)を用いて生成する手法を提案。 高解像度かつ短いスペクトルバンド幅で写真を撮影することはハードウェア的に困難であり、データセットの構築も難しい。 提案手法ではHR MSIとLR HSIをトレーニングデータとして2つのencoder-decoderを用いる。 HR MSIとLR HSIにはそれぞれ独立のエンコーダーが適用されるが、LR HSIから得られるスペクトル情報を共有するため、 デコーダーは共有する。またスペクトル係数の総和は1という物理的な制約を実現するために潜在変数がディリクレ分布に従うようにする。 また推定されたスペクトルに対し得てスペクトル空間上の角度の差が小さくなるように学習を行う。

    新規性・結果・なぜ通ったか?

    • CAVE、Harvardデータセットにて検証を行い、state-of-the-artとRMSE、SAM(スペクトル空間のベクトル類似性)比較して最も高い精度を達成。
    • 教師無し学習が行えた理由として、古くから取り扱われている問題設定であったため、問題の性質をよく知っていたことがあげられる。

    コメント・リンク集

    [#310]
    3D Semantic Segmentation with Submanifold Sparse Convolutional Networks
    Benjamin Graham, Laurens van der Maaten, Martin Engelcke
    CVPR 2018
    1248
    Yue Qiu

    概要

    • スパース性が持ったデータ(ポイントクラウドなど)をより効率的で畳み込むsparse convolutional operationsを提案した.また,提案operationsを用いて新たな高次元スパースデータを有効的に処理できるsubmanifold sparse convolutional networks(SSCNs)を提案した.
    • 従来の問題点:従来のCNNをsparse dataに用いたら計算及びメモリーの効率が良くない問題点がある.また,従来のスパースデータのためのネットワークは主に”full convolution”を行うためスパースデータをdilateしてしまう問題点がある.また,従来のCNNは層が深まることにより,active sitesが大幅に増加してしまうような“submanifold dilation problem”がある.
    • 以上の様々な問題から,“ネットワークの異なる層で同じレベルのactive sitesのスパース性を保つ”をベースな考えとした新たなconvolution operations:SSCを提案した.こういうような性質から,SSCを用いたらより深い層構造持ったネットワークの学習を可能にした
    • 具体的なssc:①プーリーングとstrided畳み込み操作と合併②入力のactive sitesだけに対して畳み込みし,active sitesを出力.Ground stateの入力を0と取り扱い畳み込みを廃棄のような設定がある

    SSCN-3D-SemanticSegmentation

    新規性・結果・なぜ通ったか?

    • 提案のSSCがスパース性持ったデータの高効率CNNを可能にした.また,計算量とメモリー消耗の大幅削減及び深い層ネットワークの構築などに用いられる.
    • ShapeNetデータセットにおいて,SSCNを用いた3Dシーン及び物体パーツセマンティックセグメンテーションが従来手法(PointCNN,PointNet,Pd-Networkなど含め)より良い精度を達成した.更に,SSCNsの計算効率がより良い

    コメント・リンク集

    • 論文がとても読みやすかった.しかし想像力が貧乏なので,うまくまとめられない.発表ビデオやコードで具体的なsparse convolutional operations操作を勉強したい

    • ポイントクラウドのようなスパースデータに相性が良いので,SSCNsを用いて3次元処理を行う文章がこれから出てきそう

    • 論文

    • コード

    [#311]
    2018.6.7 19:19:22
    Im2Struct: Recovering 3D Shape Structure from a Single RGB Image
    Chengjie Niu, Jun Li, Kai Xu
    CVPR 2018
    578
    Yue Qiu

    概要

    • 1枚のRGB画像から3次元形状構造(直方体で物体パーツを表示し,構造をパーツ間の接続性や対称性などの関係で表す)を復元するネットワーク構造を提案した.
    • 従来1枚のRGB画像からボリューメトリックの復元が広く研究されている.しかし従来の様々な手法より復元された物体はトポロジーや構造が崩れる問題点が多く存在する(特に入力モデルの構造欠損がある場合).提案手法は画像から形状構造復元を行うため,従来の体積復元の更なる精度向上や3次元形状構造の編集や高レベル画像編集など様々なところに応用できる.
    • 提案手法のネットワークは①構造マスクを推定するネットワーク②再帰的オートエンコーダーを用いた直方形階層の構造復元ネットワークで構成される.具体的①はskip連結付きなマルチスケールCNNを用いた.②は①の抽出特徴及び元画像の特徴から再帰的なデコーダーを用いた.学習データは3D CADモデルからレンダリング及び構造抽出により作成した.

    Im2Struct

    新規性・結果・なぜ通ったか?

    • 提案手法が初めての1枚RGB画像から詳細3次元形状構造を復元する手法と指摘した.
    • 提案の形状構造復元手法がパーツ間の連結や対称性など関係の復元を学習するので,復元された形状の構造の妥当性と汎用性が保証できる.
    • 構造駆動型3次元体積補間及び構造awareなインタラクティブ画像編集の2つのアプリを開発し,提案手法により復元された形状構造の有効性および妥当性を示した.

    コメント・リンク集

    • 画像からの3次元形状構造復元がvolume復元と比べパラメータ数が圧倒的少ないので,問題自体の難しさも低い.しかし実応用を考えると,構造復元がかなり応用場面が多いと思う.問題設定がとても良いと思う

    • 逆に今までどうしてやる人がなかったのが分からない

    • 論文

    [#312]
    2018.6.7 16:59:09
    3D-RCNN: Instance-level 3D Object Reconstruction via Render-and-Compare
    Abhijit Kundu, Yin Li, James Rehg
    CVPR 2018
    436
    Yue Qiu

    概要

    • RGB画像からインスタンスレベルの物体full3次元形状及び姿勢を行う”inverse graphics”なend-to-endなネットワーク構造の提案. 物体のカテゴリ検出の結果が与えられたことを仮定し,画像中の物体2次元観測から物体の3次元パラメータの推定を行う.
    • 提案手法の主な貢献としては①3次元表示:物体の3次元形状がクラス内で共通性が高いことから,大量なCADモデルから低次元なclass-specificな形状priorsを学習する.②2D-3Dマッピングを効率的行える新たなshape,poseの表示を提案した.(例:egocentricではなくallocentric視点を用いるなど)③提案手法を2D監督信号で学習可能にする予測した3次元形状を2次元にレンダリングし2次元のgtと比較することをベースとしたRender-Compareロス関数を提案した.

    3D-RCNN-3D-Object-Reconstruction

    新規性・結果・なぜ通ったか?

    • 従来のシーン理解は主にシーンに対しセマンティックセグメンテーションや物体検出などを行う.3次元空間のreasoningなどのタスクにおいては3次元のrepresentationが必要となる.また,従来の画像から3次元情報復元に関する研究は主に簡単なシーンから一つの物体に対し推定を行う.提案手法はより複雑なシーンの2次元画像から全部の物体インスタンスに対し3次元情報を推定できるため,自動運転の車・人の3次元情報推定などの様々な複雑なタスクに用いられる.
    • ジョイント物体検出と姿勢推定、バウンディングボクス領域内の物体三次元姿勢推定の2つのタスクにおいて,Pascal 3D+,KITTIデータセットでstate-of-the-artな精度を達成した.

    コメント・リンク集

    • 今後”analysis by synthesis”,”inverse graphics”などの概念の引用が増やしそう

    • かなり様々なところで工夫をしている.

    • 論文

    [#313]
    2018.6.7 16:52:32
    Optimizing Video Object Detection via a Scale-Time Lattice
    Kai Chen et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    動画中の物体検出において精度とコストの柔軟な trade-off が可能となる Scale-Time Lattice を提案. Propagation and Refinement Unit を用いて時間とスケールについての upsampling を階層的に行う. ImageNet VID dataset を用いた評価実験では先行研究と同等の精度の結果を Realtime で得られた.

    fukuhara-Optimizing-Video-Object-Detection-via-a-Scale-Time-Lattice.png

    新規性・結果・なぜ通ったか?

    • Propagation and Refinement Unit は入力された 2つのフレームの中間の時間のフレームでの推定結果を Motion History Image [Bobick+ 2001] を用いて推定し, その結果をもとにより大きなスケールでの推定を行う.
    • Propagation と Refinement を2段階行ったあとは, 残りの全フレームに対して線形補間を行う.
    • 1段階目の入力となる Keyframe は, まず粗く一様にサンプリングした後, Keyframe 間の Propagation の容易さ(物体の大きさが小さく, 動きが早いほど難しい)を評価し閾値を超えたら新しい中割りの Keyframe を動的に追加する.
    • ImageNet VID dataset を用いた評価実験の結果は 20fps のとき 79.6mAP, 62fps のとき 79.0 fps と先行研究([Feichtenhofer+ 17]が 5fps で 79.8mAP)と同等の高い推定精度を維持したまま Realtime での動作も可能であることが確認された.
    [#314]
    2018.6.3 14:41:55
    Distort-and-Recover: Color Enhancement using Deep Reinforcement Learning
    Jongchan Park et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    強化学習(DQN)を用いて automatic color enhancement を行う研究. 編集後の画像のみを利用して学習を行う方法(distort-and-recover scheme)を提案し, この学習方法の場合は従来の教師あり学習の手法よりも, 強化学習を用いる方が適していることを検証した. また, 評価実験では先行研究と同等か優位な結果を達成した.

    fukuhara-Distort-and-Recover-Color-Enhancement-using-Deep-Reinforcement-Learning.png

    新規性・結果・なぜ通ったか?

    • color enhancement の工程をマルコフ過程としてモデル化し, 強化学習(DQN)を用いて解いた.
    • 従来手法のように編集前後の画像の組では無く, 編集後の画像のみを利用して学習を行う方法(distort-and-recover scheme)を提案.
    • action は様々な色調整の操作, reward は教師画像に特徴量がどれだけ近づいたかによって計算.
    • MIT-Adobe FiveK dataset を用いた評価実験やユーザースタディーでは先行研究と同等か優位な結果を達成した.
    [#315]
    2018.5.29 16:50:55
    W2F: A Weakly-Supervised to Fully-Supervised Framework for Object Detection
    Yongqiang Zhang et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    弱教師ありの物体認識の学習を使用して, 教師あり物体認識を学習を行う研究. 弱教師ありの物体認識は物体中の最も特徴的な領域や, 複数の領域を抽出してしまう傾向があるが, それらの結果から教師データとして最もらしい Pseudo ground-truth を生成する方法を提案. PASCAL VOC 2007 と 2012 を用いた評価実験では先行研究よりも優位な結果となった.

    fukuhara-W2F-A-Weakly-Supervised-to-Fully-Supervised-Framework-for-Object-Detection.png

    新規性・結果・なぜ通ったか?

    • WSDNN [Bilen+ 16] の結果を OICR [Tang+ 17] を用いて改善したものを弱教師ありの物体認識の結果として使用.
    • 上の結果に対して Pseudo ground-truth excavation (PGE) というアルゴリズムを適用することで, 物体全体を囲う Bounding Box を生成する.
    • 更に, region proposal network [Ren+ 15] を用いて上の結果を改善したものを Pseudo ground-truth とする.
    • Pseudo ground-truth を用いて, Fast RCNN [Girshick 15] や faster RCNN [Ren+ 15] などの教師あり物体認識の手法の学習を行う.
    • PASCAL VOC 2007, 2012 を用いて行った評価実験では先行研究 [Tang+ 17] [Krishna+ 16] と比較して mAP に置いて 5% 程度優位な結果となった.
    [#316]
    2018.6.1 23:39:55
    Learning Descriptor Networks for 3D Shape Synthesis and Analysis
    Jianwen Xie, Zilong Zheng
    CVPR 2018
    1093
    Yue Qiu

    概要

    • 3次元ボリュームデータの形状特徴をモデリングできる深層畳み込みエネルギーベースなdescriptorネットワークを提案した.
    • 提案の3D DescriptorNetがvoxelized形状の3D形状特徴を抽出できる.具体的には,voxelized形状のprobability density functionを定義した.また,3次元形状を特徴にマッピングできるボトムアップなボリューメトリックConvNetで特徴の統計またはエネルギー関数を定義した.
    • 提案手法の貢献としては①ボリュームベースな3次元形状特徴をモデリングできる3D DescriptorNetを提案.②提案手法の学習プロセスをモードseeking,shiftingと解釈した.③形状検索に用いられるconditional 3D DescriptorNetを提案した.④3D形状生成モデルの新たな評価メトリクスを提案した.⑤3D GANを代替できる3D cooperative training schemeを提案した.

    Learning-descriptor-for-3D-volumetric

    新規性・結果・なぜ通ったか?

    • 従来あまり提案されていないエネルギーベースな3次元形状descriptorを提案した.
    • 提案の3D DescriptorNetを3次元形状生成,3次元形状検索,3次元形状スーパー解像度,3次元物体認識などタスクにおいて実験を行った.それぞれstate-of-the-artな性能を得られた.

    コメント・リンク集

    • コードで実際のネットワーク構造を確認したい.

    • 論文

    [#317]
    2018.6.7 13:16:29
    PointGrid: A Deep Network for 3D Shape Understanding
    Truc Le, Ye Duan
    CVPR 2018
    1246
    Yue Qiu

    概要

    • 3D CNNに用いられる新たな3次元データの表示方法(volumetric grid及びpoints表示をコンバインした表示方法)及び3DCNNネットワークPointGridを提案した.提案の3次元データ表示方法は畳み込みができるregular構造でありながら,ポイントクラウドのローカル幾何情報を抽出できる.
    • 提案PointGridの処理ポロセスは:①ポイントクラウドを-1,1の区間のユニットボクスに正規化する②cellでユニットボックスを分割し,cellごとのポイント数をKまたは0にダウンサンプリング(増強の場合もある),cell内のKポイントのx,y,zを3チャンネルの特徴として取り扱う.③前述した処理後の表示を3D encoderまたは3D U-Netにより物体識別、パーツセマンティックセグメンテーションに適用する.

    PointGrid

    新規性・結果・なぜ通ったか?

    • 従来の3次元表示方法の①occupacy gridやdistance fieldなどはレギュラー構造であるが,3次元形状の近似方法の特徴により低レベルの3次元局所情報しか表示できない,高レベルの特徴を表示するには高解像度が必要だが,CNNに用いたら処理・メモリ―コストが極めて高くなる.②PointNetがポイントクラウドを直接CNN処理を行えるが,max poolingだけでグローバル特徴の抽出を行っているので,局所的な情報抽出が弱い.以上の問題点から, CNN処理を行えるグリッドとポイント表示をコンバインした構造を提案し,occupacy gridより低解像度で豊かな情報を表示でき, PointNetより局所的情報の抽出が強いPointGridを提案した.
    • 低解像度で有効的に3次元情報を表示できる.例:16,16,16解像度で良い性能を得られる(従来は64,64,64のボリューメトリックグリッド)
    • Modelnet-40, shape-netで物体識別及びパーツセグメンテーションの2つのタスクで従来の手法と相当レベルの精度を得られた(ボリューメトリックグリッド方法で最もメモリー消耗が少ない).

    コメント・リンク集

    • PointNetの考え方を従来のボリューメトリック方法の解像度削減に利用し,16,16,16解像度でも良い性能を得られるのが魅力的
    • 提案のPointGridが構造的簡潔でほかのネットワークにも前処理の一部として用いられそう
    • 論文
    [#318]
    2018.6.7 13:10:24
    Hybrid Camera Pose Estimation
    Federico Camposeco, Andrea Cohen, Marc Pollefeys, Torsten Sattler
    CVPR 2018

    概要

    キャリブレーション済みのピンホールカメラにおいてカメラ姿勢推定問題を解く。例としてStructure-from-Motion (SfM)の2D-3Dマッチングを2D-2Dマッチングのように行う問題である。従来は構造ありの2D-3Dマッチングを解く絶対的なカメラ姿勢推定(absolute pose approaches)か、構造なしのテスクチャベースで2D-2Dマッチング(relative pose approaches)を行なっていたが、両者のいいとこ取りをする。本稿では新規にRANSACベースの手法を提案することで繰り返し最適化を行い、同問題の解決に取り組んだ。提案手法は、2D-3D/2D-2Dマッチングを同時にRANSACの要領で繰り返し最適化することができる(図を参照)。

    180607HybridCameraPoseEstimation

    新規性・結果・なぜ通ったか?

    Structure-based/Structure-lessなマッチング(それぞれ2D-3D/2D-2Dに対応)を同時に解決する手法であるHybrid-RANSACを提案して、SfMの問題に対して適用した。両者のマッチングを単一の枠組みで実装しただけでなく、両者のいいとこ取りができる手法として完成させた。CVPRオーラルとして採択された。

    コメント・リンク集

    SfMのことはそこまで詳しくないのだが文章から「凄さ」が伝わってくる論文だった。

    [#319]
    2018.6.7 09:00:34
    MegDet:A Large Mini-Batch Object Detector
    Chao Peng, et al.
    1711.07240
    Munetaka Minoguchi

    概要

    16~256のような大きなバッチサイズでも学習することができる、物体検出手法MegDetの提案。ミニバッチ数を上げられることから、GPUを効率的に使用することができ、学習速度を向上。複数のGPUからうまくバッチ正規化を行う、Cross-GPU Batch Normalizationを提案。これにより、33時間の学習を4時間に短縮、かつ高精度にうまいこと学習できる。

    20180606MegDet.jpg

    新規性

    2018年現在の著名な物体検出アルゴリズム(Faster R-CNNやMask R-CNNなど)は、全体のフレームワークやロスの設計に力を入れている。本研究では、手薄と思われるバッチサイズに着目し,新しいアプローチで精度向上を図っている。

    リンク集

    GPUの性能(メモリ数)の向上に伴って、この研究は生きてくる可能性がある。学習速度を上げながらCOCO2017一位はすごい。

    [#320]
    Rotation Averaging and Strong Duality
    Anders Eriksson, Carl Olsson, Fredrik Kahl, Tat-Jun Chin
    CVPR 2018

    概要

    本稿では非凸問題の一種であるRotation Averagingに対してLagrangian Dualityを用いる。3次元再構成問題において、その画像群が「どこで、どのカメラ角度で、いつ撮影されたか?」に依存して再構成されるモデルが局所最適解に陥るという問題がRotation Averagingである(Rotation averaging)。図のようにカメラの移動軌跡やそのカメラアングルが変化した状態だと3次元再構成の局所解は大きく異なる(3次元再構成が表面のみ捉えていることに依存する)。

    180607RotationAveraging180607RotationAveraging2

    新規性・結果・なぜ通ったか?

    Structure-from-Motion (SfM)の重要タスクであるRotation Averagingの問題解決についてLagrangian Dualityを用いた全体最適化(局所最適解をできる限りの場面で脱することができた)を行ったことがもっとも大きな新規性である。シンプル/スケーラブルなアルゴリズムであり、大規模空間に対するSfMにも応用可能である。結果は下の図の通りであり、局所最適解を脱してより詳細な形状復元を行うことに成功した。

    コメント・リンク集

    ディープラーニングを使っていない側の問題!SfMの未解決問題?であるRotation Averagingを高いレベルで改善している。

    [#321]
    2018.6.7 08:11:11
    An Unsupervised Learning Model for Deformable Medical Image Registration
    Guha Balakrishnan, Amy Zhao, Mert R. Sabuncu, John Guttag, Adrian V. Dalca
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    脳の平均3D形状である脳アトラスの各ボクセルが患者の脳3次元データのどの位置に対応するか、という画像位置合わせ(image registration)をUnetを用いて正解データ無しの教師無し学習で行う手法を提案。 既存手法は最適化ベースだったが、学習ベースの画像位置合わせを初めて提案。トレーニング、検証で使用されているのは脳のMRIデータだが、 他のデータに対する画像位置合わせにも適用することが可能。

    新規性・結果・なぜ通ったか?

    • U-netを用いた学習ベースの3次元画像における画像位置合わせ手法を提案。
    • 比較は最適化ベースの手法であるSyNと行った。 SyNと同等の精度を達成し、一方で実行時間はCPU上では約160倍、GPU上では更にその156倍の速度で実行可能。
    • 教師無し学習のため出力された脳アトラスの全体的な形状は異なっているが、各器官の位置はかなり高い精度で推定できていることが驚き。

    コメント・リンク集

    • 選択分野の勝利?手法に新規性は無く、検証で比較した手法も2008年のものとかなり古いが、それでも同等の精度で実行時間が速くなれば、それはCV分野としてはOKと判断されたのか?
    • 論文
    • GitHub
    [#322]
    Recurrent Scene Parsing with Perspective Understanding in the Loop
    Shu Kong, Charless Fowlkes
    CVPR2018
    Hiroaki Aizawa

    概要

    固定解像度で処理する画像認識システムでは、遠近感を持つシーンの画像において物体が任意のスケールを持つことが問題となる。(距離によって物体のスケールが変わる。カメラから遠いほど物体は小さく、近いほど大きい。)これ解決するために、物体のスケール(Depthに反比例)によってPoolingサイズを可変にするdepth-aware pooling moduleを提案。遠くの物体の細部は保持され、近くの物体は大きな受容野を持つことができる。 Depth画像は与えられるか直接RGB画像から推定され、Depth情報と意味的予測を利用するRecurrent Refinement Moduleにより、Semantic Segmentationを反復的に精錬する。

    Recurrent_Scene_Parsing_with_Perspective_Understanding_in_the_Loop.PNG

    新規性・結果・なぜ通ったか?

    受容野のサイズを変化させるためにDepth情報を利用しこれを自然にCNNに組み込んだこと(geometricな情報を利用する先行研究はあり)。またこのDepth予測をSemantic Segmentationと互いに補い合う用にRecurrent Refinement Moduleを組み込んだこと。NYU-depth-v2の単眼深度推定においてstate-of-the-artな性能とSemantic Segmentationの性能改善を確認。

    コメント・リンク集

    Recurrent refinement moduleのLoopにより物体の事前情報を捉えることができるが、Loopによる精度変化が小さい。Curriculum Learningと組み合わせるとおもしろそう。ResNetから得られる特徴はすでにスケールを考慮した特徴が抽出できているようにも思え、depth-aware pooling moduleが活かされているかというと疑問。

    [#323]
    2018.6.6 19:36:41
    Mobile Video Object Detection with Temporally-Aware Feature Maps
    Mason Liu and Menglong Zhu
    CVPR2018
    698

    概要

    モバイルや組み込み機器上で低消費電力かつリアルタイムに動作する物体検出のオンラインモデル.Single-Shotベースの物体検出モデルとLSTMを組み合わせたモデルである.また,通常のLSTMよりも計算コストを大幅に削減できるBottleneck-LSTMを提案する.Bottleneck-LSTMは,NチャンネルのBottleneck特徴マップ(Bt)を計算してすべてのゲートの入力をBtに置き換える.これによるゲート内の計算が減る.LSTM自体をDeepな構成にしても標準LSTMより効率的な計算が可能である.

    20180606_Bottleneck-LSTM1.jpg20180606_Bottleneck-LSTM2.jpg

    新規性・結果・なぜ通ったか?

    従来のVideo object detectionはフレームごとの検出に依存しているため,時間的情報を利用することができなかったが,本研究では検出器の速度を犠牲にせず時間的な情報を組み込んだ.ImageNet VID データセットでmobilenet-SSDよりも高精度(54.4mAP)に検出可能でありながら,モバイルCPU(Qualcomm Snapdragon 835, Xperia XZ Premiumなどに搭載)で15FPSの速さで検出できる.

    コメント・リンク集

    Googleでのインターン成果とのこと.リアルタイム検出は時系列情報があれば精度がよくなるが,それを入れることで速度の低下が起きてしまうのでこの2点のトレードオフになっている?

    [#324]
    2018.6.6 12:06:05
    Dense Decoder Shortcut Connections for Single-Pass Semantic Segmentation
    Piotr Bilinski, Victor Prisacariu
    CVPR 2018

    概要

    ResNeXtを用いたEncoder-Decoder(エンコーダ-デコーダ)構造、かつシングルパスのセマンティックセグメンテーション手法を提案する。エンコーダとデコーダは折り返したような構造になっており、エンコーダの特徴は図のように対称となる/同じサイズのデコーダ位置に統合される(enc1-dec1が対応)。今回は特にデコーダ側に改善があり、(1)コンテキスト情報を抽出、(2)セマンティック情報を生成、(3)異なる解像度の出力を適宜統合という新規性がある。これを実現するため、DenseNetを参考にしたDense Decoder Shortcut Connectionsを提案し、デコーダにおいてコンテキスト特徴を全て後段に渡すようにした。

    180606DenseDecoderShortcut

    新規性・結果・なぜ通ったか?

    デコーダにおいてDenseNetを参考にしたDense Decoder Shortcut Connectionsを提案、コンテキスト情報を後段に渡して精度を向上させた。ResNeXtの構造適用と合わせて各データセットにてState-of-the-artな精度を達成。NYUD datasetにて48.1(mean IoU)、CamVid datasetにて70.9(mean IoU)となった。PascalVOC2012においても81.2であった(SoTAはPSPNetの82.6)。

    コメント・リンク集

    セマンティックセグメンテーションの覇権争いが激化。ここら辺まで精度が向上すると確率的にSoTAになったりならなかったりする(回す回数が多いと一回くらい精度が高いモデルが学習される)?逆に、学習しやすい(誰が、どんなパラメータで回しても同じくらいの精度が出る)アーキテクチャというのが提案されてもよいかも。

    [#325]
    2018.6.6 09:38:43
    Recognize Actions by Disentangling Components of Dynamics
    Yue Zhao, Yuanjun Xiong, Dahua Lin
    CVPR 2018

    概要

    人物行動認識のための表現に対して、モーションとアピアランスの共起表現(Disentangling Components of Dynamics)を提案する。従来の人物行動認識に限らず動画認識ではRGBを入力とするアピアランス、オプティカルフローを画像に投影したフロー画像が用いられていたが、本論文ではそれらの共起表現を新たに提案した。フロー画像とは異なり、特に「アピアランスの変化」をカラー付きで表現できる。さらに、3Dプーリングを提案し、上記3つのチャンネルからの特徴を蓄積する手法についても考案した。

    180606DisentanglingAction

    新規性・結果・なぜ通ったか?

    人物行動認識の文脈において、新規の特徴表現方法であるDisentangling Components of Dynamicsを提案した。同手法はフローとは異なり、RGB値の変化を効果的に捉える方法である。さらに、3Dプーリングも提案し、RGB/Flowも合わせた3チャンネルの特徴を適切にプーリングすることができる。フルモデルを用い、さらにKineticsにて事前学習を行った実験では、95.9%@UCF101を達成、従来の行動認識の大部分よりも高い精度を実現。

    コメント・リンク集

    Kinetics Datasetの事前学習特徴が(やはり)強い。ImageNetでは91.8%だったものがImageNet+Kineticsで95.9%。転じて、やはりアルゴリズムなどよりもデータを用意するのがもっとも効果的。

    [#326]
    2018.6.6 09:16:56
    Single-Shot Refinement Neural Network for Object Detection
    Shifeng Zhang, Longyin Wen, Xiao Bian, Zhen Lei, and Stan Z. Li
    CVPR2018
    545

    概要

    SSDをベースにした2つのモジュールから構成されるSingle-shotベースの物体検出アルゴリズム「RefineDet」を提案.Anchor Refine Module (ARM) とObject Detection Module (ODM) と呼ばれるモジュールと,2つを繋いで特徴マップを転送するTransfer Connection Block (TCB) からなる.ARMは物体が存在しない領域を示すNegative Anchor(※)の削減や,Anchorの粗い調整を行う.ODMはTCBを通じて特徴マップを受け取って座標の回帰およびクラス推定を行う.

    ※物体候補領域を示すBounding-boxをAnchorと呼ぶ.SSDでDefault boxと呼ばれているものと同じ.

    20180606_RefineDet1.jpg

    新規性・結果・なぜ通ったか?

    SSDで細かい物体をより精度よく検出するために,一度畳み込んだ特徴マップをDeconvしたりUp samplignしたりする手法がいくつかあるが,この手法はTCBで特徴マップを転送するときに1つ前 (=出力側) の特徴マップをDeconvして足している.Single-shotでありながら2つの役割分割されたモジュールがうまく連携している.推論速度は入力320x320で24.8ms (40.3FPS),512x512で41.5ms (24.1FPS) @TITAN Xと非常に高速である.精度もDSSDより高性能 (VOC2007: 83.8mAP, MSCOCO: 41.8AP)である.

    コメント・リンク集

    Single-Shotベースの物体検出は前層の特徴マップを持ってくる系が流行り?精度も良い.

    [#327]
    2018.6.6 01:36:45
    Neural Kinematic Networks for Unsupervised Motion Retargetting
    Ruben Villegas, Jimei Yang, Duygu Ceylan, Honglak Lee
    CVPR 2018 Oral
    Kazuki Inoue

    概要

    異なるキャラクタに対するモーションのリターゲティングをRNN、Cycle consisteny lossを用いることで教師なしで学習する手法を提案。RNNのencoder-decoderを用いて入力された関節位置、局所座標の原点の4次元モーションから、 各関節のクォータニオンと局所座標の4次元モーションを出力しそれをForwad Kinematicsによってターゲットキャラクターに転写する。 これを教師なしで行うためにCycle consistency loss、GAN lossを導入する。 これによって同じモーションを持った異なるキャラクタのデータが無い場合にも、モーションのリターゲティングを行うことが可能となる。

    新規性・結果・なぜ通ったか?

    • RNNのencoder-decoder、Cycle consistency lossを用いることで同じモーションを持った異なるキャラクタのデータが無い場合にも、モーションのリターゲティングが可能な手法を提案。
    • モーションのリターゲティングはオンラインで実行可能。
    • Mixamo animation dataを用いて、トレーニングは同じモーションを持たない7体のキャラクタの計1646のモーションを使用し、テストには6体のキャラクタを使用した。
    • RNN、RNNからrecurrent connectionを削除したMLP、入力モーションを単純にコピーした結果、ablation testを行い推定された関節位置のMSEを比較した結果、提案手法が最も高い精度を達成した。
    • 特に入力モーションを単純にコピーした場合にはターゲットキャラクタの足が空中に浮いてしまったが、提案手法ではこれを防ぐことに成功している。

    コメント・リンク集

    • クォータニオンの出力で止めているのは、クォータニオンがスケルトンに不変であることと、ボーンの回転角を制限するロス関数twist lossを取るためだと考えられる。
    • 異なるキャラクタで同じモーションのGTがあるようなので、教師あり学習との比較を見てみたかった。一方でことモーションに関しては数値的には悪くても見た目では良し悪しがつかないということもあるので、これを考慮したのかもしれない。
    • Most of this work was done during Ruben’ internship at Adobe.
    • 論文
    [#328]
    Cross-Domain Weakly-Supervised Object Detection through Progressive Domain Adaptation
    Naoto Inoue, Ryosuke Furuta, Toshihiko Yamasaki, Kiyoharu Aizawa
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    インスタンスレベルのアノテーションを持つソースドメイン(S)とイメージレベルのアノテーションを持つターゲットドメイン(T)を用いてdomain adaptationを行い、Tに対する物体検出を行う手法を提案。Sを用いて物体検出器のプリトレーニングを行い、 Cycle GANによってSをTに変換した画像を用いて物体検出器のfine-tuningを行う。 続いてSとそのイメージレベルのアノテーションを用いて半教師学習を行いSに対する物体検出を行う。 半教師学習を行う際にインスタンスレベルのアノテーションが施されたデータセットが必要なため、 クリップアート、水彩画、漫画のデータセットの構築も行っている。

    新規性・結果・なぜ通ったか?

    • Cycle GANによる検出器のfine-tuning、半教師学習による物体検出というステップをへてイメージレベルのアノテーションを持つ実画像ではないドメイン(クリップアートなど)に対する物体検出手法を提案。
    • Clipart1k, Watercolor2k, Comic2kという、それぞれクリップアート1000枚、水彩画2000枚、漫画2000枚の画像に対してインスタンスレベルのアノテーションを施したデータセットを構築。
    • 自ら構築した三種のデータセットにおいて教師なし学習、半教師学習、SSD300、YOLOv2と比較した結果、最も高い精度を達成。

    コメント・リンク集

    • 検証しているラベル数が最大でも20と少ないことが気になった。これはターゲットドメインの構築が難しかったからであり、データさえあればラベルを増やすことができるのだろうか?
    • 論文
    • Project page
    • GitHub
    [#329]
    Real-Time Monocular Depth Estimation Using Synthetic Data With Domain Adaptation via Image Style Transfer
    Amir Atapour-Abarghouei, Toby P. Breckon
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    合成画像とそのデプス画像、そして実世界画像を用いてunsupervised domain adaptationを行うことで、実世界画像に対するデプス画像を生成する手法を提案。 実世界画像に対するデプスのアノテーションは困難であり、かつ枚数も多くない。 一方合成画像に対するデプスのアノテーションは完璧だが、 実世界画像に対する推定を行うときにドメインシフトが起きてしまう。 提案手法ではUnetによって合成画像からデプスを推定し、Cycle GANによって実世界画像を合成画像に変換することでデプスを推定する手法を提案。 GPUを用いることで44FPSで実行することが可能。

    新規性・結果・なぜ通ったか?

    • ラベルなし実世界画像とラベルあり合成画像に対してCycle GANによるスタイルトランスファーによりdomain adaptaionを行うことで、実世界画像のデプスを推定する手法を提案。
    • 合成画像、KITTIデータセットでトレーニングを行い、KITTIデータセットの推定精度をstate-of-the-artと比較した結果、最も高い精度を達成。
    • Cycle GANによるスタイルトランスファーでは急激な照明変化や影を物体として認識してしまうといったリミテーションが存在する。

    コメント・リンク集

    • Cycle GANによってdomain adaptationを行う割合ベーシックな手法だが、その推定精度がstate-of-the-artに優っている。
    • 論文
    • Project page
    • Vimeo
    [#330]
    Unsupervised Domain Adaptation with Similarity Learning
    Pedro Pinheiro
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    ソースドメイン(S)の各カテゴリの重心ベクトルと、S・ターゲットドメイン(T)から得られたadversarial featuresの行列積を用いることでdomain adaptation(DA)を行う手法を提案。 従来のDAではSとTのそれぞれから得られる特徴量をGANによってdomai-confusionを行い、 Sで学習したラベル識別器をTに適用するという手法だった。提案手法ではadversarial-confusionに加えて、 Sの各カテゴリにおける重心ベクトルとgeneratorから得られる特徴量の類似度を高くするように学習しDAを行う手法を提案。

    新規性・結果・なぜ通ったか?

    • domain-confusionに加えてラベルごとの重心ベクトルとgeneratorから得られる特徴量の類似度を高くするように学習しDAを行う手法を提案。
    • MNIST・USPS・MISNT-M、Officde-31, VisDAデータセットで検証。11のdomain adaptationにおいて、9つの設定においてstate-of-the-artよりも高い精度を達成。

    コメント・リンク集

    • この論文に限らずDAを提案する論文ではdomain-confusionを可視化しており、数値評価だけではなく、ドメインの分布の可視化画像を載せることも重要だと思われる。
    • 論文
    [#331]
    Image-Image Domain Adaptation with Preserved Self-Similarity and Domain-Dissimilarity for Person Re-identification
    Weijian Deng, Univ. of Chinese Academy; Liang Zheng, Qixiang Ye, Guoliang Kang, Yi Yang, Jianbin Jiao
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    人物認証(person re-ID)の精度が落ちないようにソースドメインの人物画像をターゲットドメインの画像に変換するSimilarity Preserving GAN(SPGAN)を提案。ドメイン間の変換をCycleGANで行う。 またそれぞれのperson re-IDのデータセットには基本的に同じ人物は写っていないということを利用して、 ソースドメインとターゲットドメインで異なるデータセットを使用し、 ターゲットドメインへと変換された画像はIDが保たれ、かつターゲットドメインのどの人物のIDとも一致しないように学習を行った。

    新規性・結果・なぜ通ったか?

    • person re-IDデータセットの特徴を生かしドメイン変換された画像はターゲットドメインの人物画像とは一致せず、かつ元々のIDを生かすように学習を行い、ドメイン間で人物画像の変換を行うSPGANを提案。
    • Market-1501、Duke-MTMC-reIDデータセットで検証を行い、一方のデータセットの人物画像をもう一方のドメイン画像に変換した際に正しくre-IDができるのかを検証した。
    • ベースラインであるCycleGANや教師なし学習のstate-of-the-artと比較して最も高い精度を達成。

    コメント・リンク集

    • person re-IDのタスクの中でもソースドメインの人物がターゲットドメインに存在する場合にも発見する、というタスクを解いている。
    • ソースドメインとターゲットドメインに含まれるIDが全く違う、ということを逆手にとった手法。
    • 論文
    [#332]
    Boosting Domain Adaptation by Discovering Latent Domains
    Massimiliano Mancini , Lorenzo Porzi, Samuel Rota Bulò, Barbara Caputo, Elisa Ricci
    CVPR 2018 Spotlight
    Kazuki Inoue

    概要

    domain adaptaion(DA)に対して、ソースデータは潜在的に複数のドメインで構成されていると仮定し、ソースサンプルがどのドメインに所属しているかを精度よく識別するためにMulti-domain DA layer(mDA-layer)を導入することで、 ターゲットのラベルの識別精度を向上させる手法を提案。 実験ではmulti-soure domain adaptationを行うことでその有効性を検証している。 ソースデータないのドメインを識別するCNNの特徴量を用いることで、ターゲットドメインのラベル識別の精度が向上している。

    新規性・結果・なぜ通ったか?

    • mDA layerによってマルチソースドメイン内のドメインを識別する学習を行うことで、ターゲットドメインのラベル識別に有効な特徴量を獲得。
    • MNIST・MISNT-m・USPS、Office-31、Office-Caltech、PACSデータセットで提案手法の有効性を検証。state-of-the-artのmulti-source domain adaptation(DA)よりも高い精度を達成。
    • ソースサンプルにドメインのラベルが全くない場合とラベルがない場合でも、精度は1%ほどしか変わらない。

    コメント・リンク集

    [#333]
    Large Scale Fine-Grained Categorization and the Effectiveness of Domain-Specific Transfer Learning
    Yin Cui Yang Song, Chen Sun, Andrew Howard, Serge Belongie
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    鳥の種族などより細かいラベルを推定するdomain-specific fine-grained visual categorization(FGVC) taskにおいて、効果的なトレーニングデータセットの構築方法を提案。 事前実験からターゲットドメインの画像の見た目に近い画像を含むソースドメインでトレーニングするほど、 識別精度が高くなるということを発見している。 ターゲットドメインに含まれる画像の見た目に近い画像を多く持つソースドメインのクラスをいくつか選択することで トレーニングデータセットを構築する。画像の見た目はEarth Mover’s Distanceで測定され、 7つのfine-grainedデータセットにおいて提案手法が効果的であることを示した。

    新規性・結果・なぜ通ったか?

    • FGVCを行う際のトレーニングスキームとして、ImageNetのような大規模データセットやクラスごとのデータ数が偏っているiNatを学習するのではなく、 より効果的なトレーニングデータセットを構築する手法を提案。
    • fine-grainedデータセットCUB200、Stanford Dogs、Flower-102、Stanford Cars、Aircraft、Food101、NABirdsで検証した結果、5つのデータセットにおいて提案手法によって構築されたトレーニングデータセットで 学習した場合に最も高い精度を達成。
    • classificationで使用したネットワークはResNet、Inception、Squeeze-and-Excitationであり識別ネットワーク自体には依存しないことも検証している。

    コメント・リンク集

    • 手法自体は単純ながら、事前実験に基づく論文展開や既存手法に対して投げかけた疑問を回収できたところが評価されたと思われる。
    • 論文
    [#334]
    Residual Parameter Transfer for Deep Domain Adaptation
    Artem Rozantsev, Mathieu Salzmann, Pascal Fua
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    ソースドメインを学習したネットワークのパラメタを残差ブロックで変換することでターゲットドメインへdomain adaptaionを行う手法を提案。 既存手法ではドメインに普遍な特徴量を学習していたためにネットワークのパラメタが多すぎてしまう。 提案手法は学習時には残差ブロックとソースドメインを学習するネットワークのファインチューニングを行い、 ソースドメインに対するラベルの識別と2つのドメインに対してadversarial domain adaptationを行う。

    新規性・結果・なぜ通ったか?

    • ドメインに普遍な特徴量を学習するのではなく、ソースドメインを学習したネットワークの重みをソースドメイン用に変換することでパラメタ数を抑えかつ精度の高い domain adaptationを実現。
    • state-of-the-artと比べて、SVHN・MNIST、UAV-200データセット、Officeデータセットにおいてもっとも高い精度を達成。
    • ソースドメインを学習するネットワークがResNetのような深いネットワークの場合にも有効であることを主張。

    コメント・リンク集

    [#335]
    Importance Weighted Adversarial Nets for Partial Domain Adaptation
    Jing Zhang, Zewei Ding, Wang Ding, Wanqing Li, Philip Ogunbona
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    ターゲットドメインがソースドメインが所持するクラスの一部しか持たずかつラベルがない場合であるpartial domain adaptationをadversarial netベースで行う手法を提案。 adversarila netの手前いにドメインを識別するclassifierを用意し、 このclassifierが精度良く判別可能なソースサンプルはターゲットドメインには含まれていないクラスに所属している可能性が高いので重みを小さくし、 逆にconfidenceが低いソースサンプルはターゲットにも存在するクラスに所属している可能性が高いので重みを大きくする。 この重みとソースサンプルを掛け合わせたものとターゲットサンプルをadversarial netで学習させる。

    新規性・結果・なぜ通ったか?

    • 4つのドメインを持つOffice+Caltech-10において、ソースは各ドメインで10のラベル、ターゲットは各ドメインで5つのラベルを使用。同様の設定でOffice-31データセット、Caltech256→Office10データセットで実験を行った。
    • partial domain adaptationのstate-of-the-artであるSANと比較して8つの実験のうち4つの設定でより高い精度を達成。
    • SANではソースのクラスの数だけclassifierを必要とするが、提案手法で必要なclassifierは2つのみ。

    コメント・リンク集

    [#336]
    Domain Generalization with Adversarial Feature Learning
    Haoliang Li, Sinno Jilain Pan, Shiqi Wang, Alex Kot
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    Adversarial Autoencoder(AAE)に対してMaximum Mean Discrepancy(MMD)を導入することでトレーニングデータを過学習することなくdomain generalizationを行う手法を提案。 domain generalizationとは、複数ドメインのラベル付きデータセットを学習し、 テスト時にはデータセットに含まれていないドメインのデータセットにおける識別や生成タスクを行うことを指す。 複数のソースドメインで不変な特徴量を取得するmulti-task learningに対して、提案手法ではMMDベースでドメイン間の差分をとることと、 AAEによって特徴量空間に対して事前分布が押し込むことでソースドメインに対する過学習が防ぐ。

    新規性・結果・なぜ通ったか?

    • AAEに対してMMDを組み込むことで、ソースドメインを過学習することなくdomain generalizationを行う。
    • domain generalizationのstate-of-the-artと識別タスクにおいて比較。
    • MNISTを15度刻みで回転させた場合の認識精度、VLCSデータセットにおける物体認識、IXMASにおける行動認識においてstate-of-the-artよりも高い精度を達成。
    • AAEにおける事前分布の違いによる精度も議論しており、ラプラシアン分布が最も精度が良かったと主張。

    コメント・リンク集

    [#337]
    Adversarial Feature Augmentation for Unsupervised Domain Adaptation
    Riccardo Volpi, Pietro Morerio, Silvio Savarese, Vittorio Murino
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    特徴量空間におけるデータオーギュメンテーションとソースドメインとターゲットドメインに不変な特徴量を取得することでunsupervised data adaptationを行う手法を提案。 右図にあるようにstep1で、ソースドメインとノイズをデコードして生成されたベクトルをGANにかけ、 特徴量空間においてソースドメインに対するオーギュメンテーションを行う。 続いてstep2において、ソースドメインとターゲットドメインを同一のエンコーダーに入力することでドメインに不変な特徴量を取得する。 ベースラインであるAdversarial discriminative domain adaptationではドメインごとにエンコーダーを使用していたが、提案手法ではエンコーダーは一つ。

    新規性・結果・なぜ通ったか?

    • GANを用いてソースドメインの特徴量空間でデータオーギュメンテーションを行い、かつソースドメインとターゲットドメインに不変な特徴量を推定することで、unsupervised data adaptationを行った。
    • ベースラインであるAdversarial discriminative domain adaptationに対して上記の2つの拡張の有効性を議論している。
    • state-of-the-artと比較して、数字の識別、物体の識別において既存手法と同等かそれ以上の精度を達成。

    コメント・リンク集

    • Limitationにも書かれているようにsourceとtargetのラベが同じになる保証はなく、最終的な精度はsourceのエンコーダーがどれほどうまく学習できているかに強く依存する。
    • 論文
    • GitHub
    [#338]
    Dynamic Video Segmentation Network
    Yu-Syuan Xu, Tsu-Jui Fu, Hsuan-Kung Yang, Chun-Yi Lee
    CVPR 2018

    概要

    動画像セグメンテーションの問題に対してネットワーク選択(Decision Network)を行い適応的にCNNモデルを処理するDynamic Video Segmentation Network (DVSNet)を提案する。同手法では性質の異なるふたつのネットワーク(深くて精度が高いが低速/浅くて精度は低いが高速)を組み合わせて交通シーンにおけるシーン解析にて高速な処理を実現する。

    180605DynamicVideoSegmentationNetwork

    新規性・結果・なぜ通ったか?

    DVSNetは低速なもので70.1%/20fps、高速なものだと65.2%/34.4fps(いずれもCityScapes datasetにて処理した結果)を達成する。両者を、トレードオフを考慮してあらゆる場面に適応することができるという意味で新規性がある。

    コメント・リンク集

    こういう通し方があったのか、と勉強になる。実利用を想定し、トレードオフを考慮、それを解決することも重要な問題である。

    [#339]
    2018.6.5 21:14:03
    Deep Cross-media Knowledge Transfer
    Xin Huang, et al.
    1803.03777
    Munetaka Minoguchi

    概要

    画像とテキストなどの異なるメディアタイプ間で検索する、クロスメディア検索手法のcross-media knowledge transfer(DCKT)の提案。大規模なクロスメディアデータセットの知識を、小規模なデータセットのモデルに転移学習する。メディアレベルと相関性レベルでのドメインの違いを最小化するために、2レベルでドメイン変換することで精度向上。また、ドメインの違いを徐々に減らすようにトレーニングサンプルを選択することで、モデルがより頑健になる。

    20180605_DCKT.jpg

    新規性

    マルチメディア分野における検索。既存の手法では、ラベル付きデータを学習する方法が多いが、大規模なデータの収集とラベル付けは手間取るため問題とされる。そこで、既存のデータを転移して解決する。

    リンク集

    [#340]
    Dynamic Graph Generation Network: Generating Relational Knowledge from Diagrams
    Daesik Kim, et al.
    1711.09528
    Munetaka Minoguchi

    概要

    視覚情報とテキストの情報が抽象的に統合された図であるダイアグラムを解析するためのunified diagram parsing network(UDPnet)の提案。入力は様々なイラストやテキスト、レイアウトを持つ図のみ。物体検出器によって、図内のグラフ構造を推論し、新手法であるdynamic graph generation network(DGGN)によってグラフを生成。生成されたグラフからテキストで関係性を出力する。

    20180605_DGGN.jpg

    新規性

    ダイアグラムのような図には、豊富な知識が含まれているが、固有の特性やレイアウトの問題から、コンピュータに自動的に理解させる方法はあまり提案されていない。本手法では、物体検出器やRNNを統合し、ダイアグラムから知識をテキストとして生成する。

    結果・リンク集

    自然画像でなく,人間による作為的なグラフ理解において優れている。人間の意図や、人間にとって自然な解釈を学習できているのではないか。

    [#341]
    Instance Embedding Transfer to Unsupervised Video Object Segmentation
    Siyang Li, Bryan Seybold, Alexey Vorobyov, Alireza Fathi, Qin Huang, C.-C. Jay Kuo
    CVPR 2018

    概要

    物体インスタンス特有の特徴(同じ物体領域に属しているか?)を捉えることでビデオに対する教師なしの物体セグメンテーションを実施する。ここでは静止画で捉えた特徴を、ビデオに表れる物体候補/オプティカルフローと組み合わせて物体のインスタンスセグメンテーションを実施。本論文ではさらに、ビデオに対するfine-tuningなしに高精度なセグメンテーション手法を構築したと主張している。

    180605InstanceEmbeddingTransfer

    新規性・結果・なぜ通ったか?

    静止画の学習パラメータを動画に適用していく、その際に物体候補/オプティカルフローと統合していくことで動画的な表現を教師なしで獲得していく。DAVIS datasetを用いた評価で78.5%、FBMS datasetにて71.9%(いずれもmean Intersection-over-Union (mIoU)の評価にて)を達成し、それぞれのデータセットでState-of-the-art。

    コメント・リンク集

    "Without finetuning"というのもアピールになるということを勉強した(ただしそれでstate-of-the-artである必要がある?)。

    [#342]
    2018.6.5 08:58:32
    Depth-Aware Stereo Video Retargeting
    Bing Li, Chia-Wen Lin, Boxin Shi, Tiejun Huang, Wen Gao, C.-C. Jay Kuo
    CVPR 2018

    概要

    ステレオビデオ(Stereo Video)に対するリターゲティング(Retargeting)を扱う。ステレオ(かつビデオ)に対するリターゲティングは従来のリターゲティングと比較すると、動画中の顕著性が高い物体の把握やダイナミクスを含むためまだ新しくチャレンジングな課題である。ここに対して、Depth-aware Fidelity Constraint(距離画像から推定される信頼性のようなもの)を適用することで物体の顕著性を把握しつつ3次元空間を再構成することができる(リターゲティングと3次元再構成の同時推定問題)。最適化にはTotalCost関数を適用して物体の顕著性を把握しつつ形状、時間情報、距離画像のディストーションを推定。

    180605DepthRetargeting

    新規性・結果・なぜ通ったか?

    ステレオビデオの入力から、顕著性の把握、形状推定、時間情報、距離画像のディストーションを同時推定し、従来法であるCVWよりも綺麗なリターゲティング画像を生成することに成功した。

    コメント・リンク集

    VR/AR、3D映画などに使える!より自然に見せることで映像酔いを軽減することができる?

    [#343]
    2018.6.5 08:23:28
    Frustum PointNets for 3D Object Detection from RGB-D Data
    Charles R. Qi, et al.
    1711.08488
    Munetaka Minoguchi

    概要

    屋内および屋外シーンにおける3D物体検出手法のfrustum PointNetsの提案。まず、RGBデータからCNNで2Dの物体候補領域を推定する。次に、点群の深度情報を用いて、各物体領域の視錐台(viewing frustum)を推定する。最後に、frustum PointNetsによって3Dバウンディングボックスを推定。

    20180604_PointNets.jpg

    新規性

    従来の手法では、画像や3Dボクセルに処理を加えて、3Dデータの自然なパターンや不変性を曖昧にしている。本手法では、RGB-Dスキャンによって生の点群データを直接操作する。

    結果・リンク集

    2Dと3Dで別々のネットワークを使うことで、小さな物体やオクルージョン、まばらな点群についても正確に推定することができる。リアルタイムも実現。

    [#344]
    PhaseNet for Video Frame Interpolation
    Mingfei Gao, et al.
    1711.05187
    Munetaka Minoguchi

    概要

    高解像度画像に出現する様々なサイズの物体を、精度の維持と処理コストの低減を実現しながら検出するフレームワークの提案。最初はダウンサンプリングされた粗い画像から、次に高解像度の細かい画像から検出する。強化学習を用いた2つのネットワークで構成。R-net:低解像度の画像を入力し、その検出結果を用いて高解像度領域を解析する。これにより、どの順番にズームインすべき判断できる。Q-net:ズームの履歴を使用し、拡大領域を順次選択。

    180604Dynamic_Zoom-in.jpg

    新規性

    しっかり検出する範囲を絞ることで処理量を低減、効率化を図ることができる。基本的な検出の構造はいじっていない。処理する画素数を約70%、処理時間を50%以上短縮し、なおかつ高い検出性能を維持できる。

    結果・リンク集

    YOLOやSSDなどの物体検出手法の精度向上にも使える。

    [#345]
    Efficient Video Object Segmentation via Network Modulation
    Linjie Yang, Yanran Wang, Xuehan Xiong, Jianchao Yang, Aggelos K. Katsaggelos
    CVPR 2018

    概要

    セグメンテーションを実行する際に任意のアノテーション済み物体を事前情報(Spatial Prior)として高精度化を図るための技術を提供する。本論文では、最初の一フレームに対してセグメンテーションを行うだけで、動画中の物体に対してセグメンテーションを行うモデルを提案する。アノテーションから抽出した事前情報はニューラルネットの中間層にて情報を挿入して抽象化を行う。図は提案のフレームワークを示しており、VisualModulator(初期フレームのアノテーションから視覚的なガイドを行う)、SegmentationNet(VisualModulator/SpatialModulatorの補助を受けつつ、RGB画像の入力からセグメンテーションを実行)、SpatialModulator(空間的にどこらへんに対象物体があるかをサポート)の3つのコンポーネントから構成される。

    180604NetworkModulation

    新規性・結果・なぜ通ったか?

    最初のフレームのアノテーションのみから動画セグメンテーションを実行するという問題を提供した、さらに視覚的な特徴量/位置的な事前知識をセグメンテーションのネットワークに導入し、動画セグメンテーションを高精度化した点が評価された。動画セグメンテーションタスクであるDAVIS2016にて74.0、YoutubeOjbsにて69.0(処理速度は0.14second/image)であった。State-of-the-artには劣る(それぞれ79.8, 74.1)が、処理速度では優っている(提案 0.14 vs. 従来 10.0)。

    コメント・リンク集

    メタ学習の枠組みを使用している。

    [#346]
    2018.6.4 20:56:17
    Real-world Anomaly Detection in Surveillance Videos
    Waqas Sultani, Chen Chen, Mubarak Shah
    CVPR 2018

    概要

    監視カメラの文脈において異常検出を実行する研究である。ここで、異常検出においてビデオに対して時間のアノテーションを付与するのは非常にコストのかかる作業であるが、ここに対して弱教師付き学習の一種であるMultiple Instance Learning (MIL)を適用して正常/異常ラベルが付いたビデオから異常検出を行うモデルDeep Anomaly Ranking Modelを提案する。さらに、13種類の異常シーン(e.g. road accident, robbery)を収集したデータセットを提供することで同問題の解決を実践した。

    180604AnomalyDetection

    新規性・結果・なぜ通ったか?

    弱教師付き学習であるMILをベースとして異常検出を行なった、おそらく初めての例であり、その精度は従来法による精度を上回りState-of-the-artとなった(AUCにて75.41を達成)。また、1900の動画に対して13種類の異常を収集したデータセットを構築し、公開した。同データセットは合計で128時間にも及ぶ。

    コメント・リンク集

    異常の動画データセットを公開したことが評価できるポイント。現在ではYouTube検索とダウンロードである程度のデータセットは構築できそう?(ここらへんを効率化する研究自体があってもよい)

    [#347]
    2018.6.4 20:22:54
    Normalized Cut Loss for Weakly-supervised CNN Segmentation
    M. Tang, A. Djelouah, F. Perazzi, Y. Boykov, C. Schroers
    CVPR2018
    Ryota Suzuki

    概要

    Weakly-supervisedなセマンティックセグメンテーション手法があって,その方針はインタラクティブに部分的に正解(シードとか)を与えるというものである.そこで,よく用いられるロス関数(クロスエントロピー等)で評価しようとすると,教示の塗りミスが致命的になったりする.そもそも設計的にエラーが考慮されていないからである.

    本論文では,非Deepな手法で行われていた評価指標に基づく新たなロス関数Normalized Cut Lossを提案.

    従来法と違うところは,提案するロス関数におけるクロスエントロピーの部分は,ラベルが既知のシードの部分での評価だけやっているという点.Normalized Cutはゆるく全ピクセルに対する一貫性の評価を行う.

    Figure1

    新規性・結果・なぜ通ったか?

    Fully-supervisedな手法と同レベルの性能を実現できた.

    従来法の知見を活かした橋渡し的手法.

    コメント・リンク集

    Disney Researchのインターンでやった模様.

    [#348]
    2018.6.4 12:33:29
    Burst Denoising with Kernel Prediction Networks
    B. Mildenhall, J.T. Barron, J. Chen, D. Sharlet, R. Ng, R. Carroll
    CVPR2018
    Ryota Suzuki

    概要

    携帯含む最近のカメラは連写機能が付いているので,手ブレのあるようなハンドヘルドカメラの連写で撮ったノイズ入り画像をデノイズしようという話.連続撮影における手ブレに頑健なデノイズCNNを提案する.

    写実的ノイズ定式化に基づく,インターネットから拾ってきた加工済み画像からカメラで撮ったような写実的画像を生成する合成データ生成手法で学習データを作成.学習中に空間的に変化するカーネルを使い,位置調整とデノイズを実現. 不慮の局所解落ち回避のための,焼きなましロス関数をガイドとした最適化.

    Figure1

    新規性・結果・なぜ通ったか?

    流行に乗った手法(合成データによる学習,適応的パラメータ調整)を使って実現.問題設定も地に足がついている感じがする.

    コメント・リンク集

    Google Researchのインターンでやった模様.

    [#349]
    2018.6.4 10:40:17
    MaskLab: Instance Segmentation by Refining Object Detection with Semantic and Direction Features
    Liang-Chieh Chen, Alexander Hermans, George Papandreou, Florian Schroff, Peng Wang and Hartwig Adam
    CVPR2018
    525

    概要

    物体のBounding-box detection, Semantic segmentationとDirection predictionを同時に行うモデル「MaskLab」を提案する.Faster R-CNN・ResNet-101をベースに,Bounding-box内の前景と背景をわけることでSegmentationを行う.Mask R-CNNと違い,Segmentationを行うときは単純に前景背景分割をするだけでなくクラス分類も行い,また,各ピクセルのDirectionを予測して同じクラスの重なっている物体のInstance segmentationも可能である.また,検出されたBox内でさらに切り出しを行い,小さな物体の検出をしやすくする仕組みも入れている.

    20180604_MaskLab1.jpg20180604_MaskLab2.jpg

    新規性・結果・なぜ通ったか?

    Object detectionとSemantic segmentationを同時にEnd-to-endで解くモデルの提案.それだけでなく,Semantic segmentationではDirectionを考慮して高精度な認識が可能である.MSCOCOで性能評価を行い,FCIS+++(mAP,Seg:33.6),Mask R-CNN(Seg:35.7,Det:38.2)よりも高い性能(学習時にScale augmentationを行いSeg:38.1,Det:43.0)を達成した.Res-NeXtを用いたMask R-CNN(Seg:37.1,Det:39.8)よりも高性能である.

    コメント・リンク集

    最近,Detection + Segmentationがいくつか出てきているので今後に注目.検出速度に関する記述は見当たらなかったが,Faster R-CNNベースなのでそれ相応の速度だと思われる.ワンショット系の検出器に適応してこの精度を保ちつつ高速な検出ができればウケそう?

    [#350]
    2018.6.4 10:00:39
    Making Convolutional Networks Recurrent for Visual Sequence Learning
    Xiaodong Yang, Pavlo Molchanov, Jan Kautz
    CVPR 2018

    概要

    RNNの改良であり、畳み込み層や全結合層の役割を前処理として構造に入れ込むPreRNNを提案した。従来のRNNとPreRNNの違いは図に示すとおりである(従来型TraditionalなRNNは構造内にfc/conv+avepoolを要するが、PreRNNではそれらを内包している)。このPreRNNを用いて、より有効だと思われるタスクーSequential Face Alighnment, Dynamic Hand Gesture Recognition, Action Recognitionにて適用した。

    180604PreRNN

    新規性・結果・なぜ通ったか?

    従来型のRNNを改善して、fc-layer/conv+avepool-layerをその構造の中に取り込んだPreRNNを提案し、複数タスク(顔アライメント推定、ジェスチャ認識、人物行動認識)にて従来法よりも高い精度を達成した。

    コメント・リンク集

    画像キャプションなどにも効果あり?どのように説明文が改善されるのか試してみたい。

    [#351]
    2018.6.4 09:29:31
    Inferring Shared Attention in Social Scene Videos
    Lifeng Fan, Yixin Chen, Ping Wei, Wenguan Wang, Song-Chun Zhu
    CVPR 2018

    概要

    複数人いる人物が同時に同領域に注意を向けることをCo-attention/Shared-attentionといい、本論文では三人称視点の入力からこの推定に取り組む。ここに対してConvLSTM(Convolutional Long-Short Term Memory)を用いたモデルを適用、さらにはVideoCoAttと呼ばれるTV番組をメインとしたビデオからデータ収集を行なった。モデルは視線推定(YOLOv2による顔検出も含む)、領域推定(Region Proposal Map)、空間推定(Convolution)と時系列最適化(LSTM)から構成される。データは380ビデオ/492,000フレームから構成される。

    180604SharedAttention

    新規性・結果・なぜ通ったか?

    新しい問題である、三人称視点からの共注視を設定し、データとモデルを公開したことが採択された理由である。また、実験により従来法を抑えて、提案法が71.4%の精度かつ誤差がもっとも小さい手法であることを明らかにした。

    コメント・リンク集

    共注視、面白い!(が、ビデオを見てみると曖昧な部分もありもうすこしアノテーションなどに改善の余地がある?)

    [#352]
    2018.6.4 09:07:48
    Aperture Supervision for Monocular Depth Estimation
    Pratul P. Srinivasan, Rahul Garg, Neal Wadhwa, Ren Ng, Jonathan T. Barron
    CVPR 2018

    概要

    Aperture Supervision(カメラのフォーカスによる教示)により単眼画像からデプスマップを推定する研究である。これを推定するために、Focus/Defocusを処理して、領域ごとの反応を確認することでデプスの教示に相当する。CNNベースの距離画像推定では、確率的距離マップ、Shallow Depth-of-field(各距離における重み付けされたマップ)を適用する。図は本論文における単眼カメラによる距離画像推定のパイプラインである。

    180604MonoDepth

    新規性・結果・なぜ通ったか?

    RGB-Depthを変換する、いわゆるダイレクトな距離画像推定では計算コストも高く、かつ解像度も低かったが、本論文ではフォーカスに関係する教示によりこの問題を解決し、単眼による距離画像推定を実現した。

    コメント・リンク集

    距離画像を直接的には使わなくても、LightFieldなどの情報から距離画像を推定することができるので、他の関連手法とは異なるアプローチを与えている。

    [#353]
    2018.6.4 08:48:55
    Deep End-to-End Time-of-Flight Imaging
    Shuochen Su, Felix Heide, Gordon Wetzstein, Wolfgang Heidrich
    CVPR 2018

    概要

    End-to-EndでセンサデータからToFセンサの出力を行うToFNet (Time-of-Flight Network)を提案する。従来のシステムであh、センサーデータの入力からデノイジング、Phase Unwrapping (PU)やMultipath Correction (MP)を行っていたが、ToFNetでは一括処理が可能となるだけでなく、ノイズがない鮮明な画像を出力可能、リアルタイムで動作可能である。ToFNetはPatchGANという枠組みにより最適化が行われる。PatchGANはEncoder-Decoderの構造をした生成器と非常にシンプルな構造の識別器により構成される。誤差はL1+DepthGradient+Adversarialと、その重み付き和により計算される。

    180604E2EToF

    新規性・結果・なぜ通ったか?

    従来のカスケード型処理(デノイジング、PU、MP)ではノイズが蓄積してしまいがちだが、提案のToFNetは一括での処理を行い、(1)ノイズを鮮明に除去できるのみならず(2)リアルタイムでの処理が可能である。主にこの2点が採択された理由であると考える。

    コメント・リンク集

    Depth推定、すでに数値や見た目による判断が曖昧になりつつある?屋内だけでなく、多様なドメインでの適応が待たれる。

    [#354]
    2018.6.4 08:26:21
    Don't Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering
    Xiaojun Xu, Xinyun Chen, Chang Liu, Anna Rohrbach, Trevor Darrel and Dawn Song
    CVPR 2018

    概要

    VQAの学習は学習データの答えの分布に依存してしまう。そこで、答えの分布が異なる学習データを用いて学習した場合でもGrounded Visual Question Answering(GVQA)を提案した。 GVQAでは質問に答える上で、(1)必要な情報を認識する(例:物体の色を聞かれている場合対象となる物体を認識する)(2)必要な答えを推測する(例:物体の色を聞かれている場合色を答える)の2つが重要であると仮定する。 そこで、画像から質問に答えるために必要な情報を抽出する部分と答えを推定する部分の2つに分けたモデルを構築した。 その際、質問から質問のタイプ(yes/noで答えられるか)を推定することで、質問の答えを異なるネットワークによって出力させる。

    Item3Image

    新規性・結果・なぜ通ったか?

    質問の答えの分布を学習データとテストデータで異なる分布にしたVQA-CPデータセットを提案した。同データセットを用いて従来手法及びGVQAの精度を調べたところ、従来のデータセットと比べた際の従来手法の精度低下及びGVQAの方が高い精度を記録したことを示した。 また、GVQAによって答えの根拠を説明することが可能となった。

    コメント・リンク集

    [#355]
    2018.6.4 02:20:01
    Fooling Vision and Language Models Despite Localization and Attention Mechanism
    Xiaojun Xu, Xinyun Chen, Chang Liu, Anna Rohrbach, Trevor Darrel and Dawn Song
    CVPR 2018

    概要

    Adversarial attackが、VisionとLanguageの融合問題のようにより複雑な問題に対しても有効であるかを調査した。対象とするタスクは、画像キャプショニング及びVQAとして画像のAdversarial exampleによる出力の変化を調べた。 また、これらの手法におけるlocalizationがAdversarial Attackに影響されるかを確認した。

    Item3Image

    新規性・結果・なぜ通ったか?

    Dense Captionについては、97%の確率で騙すことに成功した。同じ画像の同じ領域に対しても目標とするキャプションが異なると異なるキャプションを出力させることが可能なことを確認した。 VQAについてもごく一部を除いて騙すことができることを確認した。 Attention Mapを確認すると、Adversarial exampleを入力した場合異なる領域に注目していることが明らかになった。

    コメント・リンク集

    [#356]
    2018.6.4 00:26:41
    Visual Question Reasoning on General Dependency Tree
    Qingxing Cao, Xiaodan Liang, Bailing Li, Guanbin Li, Liang Lin
    CVPR 2018

    概要

    VQAの答えだけでなく判断根拠も出力する手法を提案。質問をtree構造に分解し、各nodeに関する情報(例:plane)が画像中のどこに存在するかを示すattention mapを求める。 既に得られているattentionマップ及びhidden stateを更新していくことで、質問の答えとたどり着いていく。 最終的な質問の答えはhidden stateを用いて求める。

    Item3Image

    新規性・結果・なぜ通ったか?

    質問への回答の精度は従来手法と比べて大きく向上されているわけではない。従来の判断根拠を求める研究はルールを人間が設計するもしくはground truthが必要であるのに対してこれらを必要とせずに回答根拠を得ることに成功。

    コメント・リンク集

    [#357]
    2018.5.29 19:59:57
    Blind Predicting Similar Quality Map for Image Quality Assessment
    Da Pan, Ping Shi, Ming Hou, Zefeng Ying, Sizhe Fu and Yuan Zhang
    CVPR 2018

    概要

    画像の品質を評価するためのBlind Predicting Similar Quality Map for IQA(BPSQM)を提案した。CNNを用いた画像の品質評価手法は数多く提案されているが、その大半はブラックボックスとなっている。 本研究は、ピクセル単位の画像の損失度合いを示すquality mapを始めに推定することで、画像圧縮などに伴いどのように画像の品質が低下してるかの可視化を可能とした。 また、qualityマップから画像の損失度合いを表すスコアの算出を行う。

    Item3Image

    新規性・結果・なぜ通ったか?

    従来のquality mapを求める手法は、損失前の画像(reference)が必要なものが大半であり、reference不要なCNNベースの手法はパッチ単位で推定するのみであった。それに対して本研究は、referenceなしでピクセル単位のquality mapを推定することを可能とした。 損失度合いの推定に関しても、referenceなしの手法と比べて精度の向上を実現した。

    コメント・リンク集

    [#358]
    2018.6.3 21:52:18
    AMNet: Memorability Estimation with Attention
    Jiri Fajtl, Vasileios Argyriou, Dorothy Monekosso, Paolo Remagnino
    CVPR 2018

    概要

    画像中の記憶に残りやすい領域(Memorability)を可視化するネットワークであるAMNet(Attention and Memorability Network?)の提案。ResNet50による特徴表現、LSTMにより実装されたAttention構造の仕組みによりMemorabilityスコアを算出する。アノテーションは従来研究であるLaMem(下記リンク参照)に使用したデータセットであるSUN Memorability(同じく下記参照)を用いて学習を行った。

    180603AMNet

    新規性・結果・なぜ通ったか?

    従来法よりも精度が良かった(より人間の記憶の構造に近かった?)ことを示した。これはアテンション構造を用いていることが、より人間の記憶の仕組みにおいて再現性が良かったことを示しているといえる。

    コメント・リンク集

    記憶の仕組みも人間の直感が必要な高次機能の再現である。このように高次なラベリングが今後は増えてくると思うし、人間のタスクをカバーする意味でも重要になるか?

    [#359]
    2018.6.3 23:48:57
    Lose The Views: Limited Angle CT Reconstruction via Implicit Sinogram Completion
    Rushil Anirudh, Hyojin Kim, Jayaraman J. Thiagarajan, K. Aditya Mohan, Kyle Champley, Timo Bremer
    CVPR 2018

    概要

    手荷物検査や医療用として用いられるComputed Tomography (CT)画像の復元を、限られた角度のSinogramの入力から行う技術(CTNet)を提案する。CTNetは1D/2D畳み込みで構成され、SinogramからFull-viewのCT画像を復元することができる。図はCTNetの学習とテストを示したものである。学習時にはGAN-likeな手法により構成され、入力から1DCNNにより特徴量を生成、GeneratorがCT画像を復元、DiscriminatorがReal/Fakeを判断することでGeneratorを鍛える。テスト時にはさらにFBP (Filtered Back Projection)/WLS (Weighted Least Squares)なども用いて最終的な結果を得る。

    180527CTNet

    新規性・結果・なぜ通ったか?

    角度が限定されたx線画像から、360度のCT画像を生成するというチャレンジングな試みを行ったことが評価された。同課題に対してGAN-likeな手法を提案し、手法的な新規性も打ち出せたことが採択された基準であると考える。PSNRやセグメンテーションベースの方法で評価を行い、従来法よりも優れた手法であることを示した。

    コメント・リンク集

    CT画像を復元できてしまうのがすごい!

    [#360]
    2018.5.28 00:07:00
    Learning to Extract a Video Sequence from a Single Motion-Blurred Image
    Meiguang Jin, Givi Meishvili, Paolo Favaro
    CVPR 2018

    概要

    1枚のブラー画像から時系列フレームを推定して動画像を生成するアプローチを提案。モーションブラーは通常、カメラなどセンサによる露光により発生するが、その分解は非常に困難な問題として扱われていた。本論文では平均化を除去してフレームを時系列方向に並べ、次にDeconvolutionを復元して同問題に取り組む(この問題は通常、Blind Deconvolutionと言われる)。提案法では、深層学習の手法としてこの両者を実現する構造を構築。

    180527SingleMotionBlurredImage

    新規性・結果・なぜ通ったか?

    Blind Deconvolutionの課題を取り扱っているが、さらにここでは単一のブラー画像から動画像を生成するアルゴリズムや深層学習アーキテクチャを提案した。特に、ブラー画像から時系列画像を順次復元するための誤差関数を提案したことが最も大きな新規性である。

    コメント・リンク集

    もともとあった問題に少し味付けして、新しい問題を作り出すセンスが欲しい。。

    [#361]
    2018.5.27 23:44:14
    Learning to Detect Features in Texture Images
    Linguang Zhang, Szymon Rusinkiewicz
    CVPR 2018

    概要

    テクスチャに対して有効かつスケーラブル、さらに学習可能な局所特徴量を提案する。さらに提案手法は既存のランキングロスやFully-Convolutional Networks (FCN; 全層畳み込みネットワーク)と統合可能である。著者らは、新規の学習誤差関数であるPeakednessという指標を畳み込みマップに対して導入した。画像はテスト画像に対して提案手法を施した結果であり、Repeatableな特徴量(画像の中に再帰的に登場するテクスチャ特徴)が検出されている。

    180527LearningToDetectFeatures

    新規性・結果・なぜ通ったか?

    (i)FCN構造によりフルサイズの再帰的なテクスチャパターンを評価することに成功した、(ii)Peakednessという指標を導入し、これを最大化することでテクスチャを評価するための畳み込みマップを洗練化することに成功、という点がもっとも重要な新規性である。実験ではcarpet/asphalt/wood/tile/granite/concrete/coarseといったテクスチャパターンに対して有効であることを示した。

    コメント・リンク集

    複雑かつ特徴が比較的取りづらいテクスチャの解析は今後さらに重要性を増すと考えられる(道路面のひび割れ調査など)。ここに教師なし学習(Self-Supervision含む)が導入されていくことになると思う。

    [#362]
    2018.5.27 23:19:17
    Smart, Sparse Contours to Represent and Edit Images
    T.Dekel, C.Gan, D.Krishnan, C.Liu and W.T.Freeman
    CVPR2018
    arXiv:1712.08232
    Kota Yoshida

    概要

    元画像の輪郭情報から画像を再構成する手法を提案.GANをベースとして,入力情報が与えられない領域のテクスチャと細部を合成する.実験では,顔認証システムや人間を対象にして元画像と再構成された画像と区別されないという結果となった.

    画像

    新規性・結果・なぜ通ったか?

    • Pix2pixなどの既存の手法よりも大幅に向上している.
    • 2つのネットワークで構成されており,1つ目のネットワークでは,画像全体の構造,色を再構成,2つ目のネットワークでは画像のテクスチャと細部の表現をしている.
    • 直感的な操作が可能で,顔のパーツを移動させたり,追加させることもできる.

    コメント・リンク集

    • 入力情報がない輪郭と輪郭の間の画像部分の再構成にも力を入れてる

    • Paper

    [#363]
    2018.6.3 19:36:19
    R-FCN-3000 at 30fps: Decoupling Detection and Classification
    Bharat Singh, Hengduo Li, Abhishek Sharma and Larry S. Davis
    CVPR2018
    Kodai Nakashima

    概要

    オブジェクト性検出と分類を分離した物体検出器であるR-FCN-3000を提案した.RoIのための検出スコアを得るために,オブジェクト性検出と分類スコアをかける. R-FCNで提案されたposition-sensitive filterはfine-grained classificationには必要ないというのが基本アイディア. また本論文では,R-FCN-3000はオブジェクト数が増えると性能が向上することが示されている.

    R-FCN-3000_1.PNGR-FCN-3000_2.PNGR-FCN-3000_3.PNG

    新規性・結果・なぜ通ったか?

    ImageNet detection datasetで一秒あたり30枚の画像を処理したところ,mAPが34.9%であった(YOLO9000は18%).

    コメント・リンク集

    [#364]
    2018.6.2 21:48:26
    Learning to See in the Dark
    Chen Chen, Qifeng Chen, Jia Xu and Vladlen Koltun
    CVPR 2018
    Kodai Nakashima

    概要

    暗い環境において,同じシーンを短時間露光で撮影した暗い画像と長時間露光で撮影した明るい画像のrawデータを集めたデータセットを提案した.このデータセットは,5094個の暗い画像のrawデータと424個の明るい画像のrawデータが1対多で対応付けられている. インドアとアウトドアの両方で撮影を行った.

    Learning-to-see-in-the-dark-1.PNGLearning-to-see-in-the-dark-2.PNG

    新規性・結果・なぜ通ったか?

    このデータセットを用いてFCNをトレーニングし,テストしたところ図に示すような結果が得られた.このネットワークはrawデータを直接扱うため,図に示すように,従来の画像処理パイプラインの多くの代わりになる.

    コメント・リンク集

    [#365]
    2018.6.2 18:44:28
    AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions
    C. Gu et al.,
    CVPR 2018
    Kensho Hara

    概要

    大規模な新規動画データセットを構築. 従来の動画データセットが複合的な行動ラベルを扱うのに対して, このデータセットではStand, Sit, WatchのようなAtomicな行動ラベル (80 classes) を扱う. このようなラベルが1秒間隔で動画中のすべての人にアノテーションされており, しかもBounding Boxまで付いているというのがこのデータセットの強み. 80種類ものAtomicな行動ラベルが大規模にしかも密に付いているデータセットは初. 加えて,Two-stream I3D & Faster R-CNNというような手法を提案. 従来のSpatio-temporal Action Localization用のデータセットではSOTAを達成したものの, このデータセットは15.6% mAPと問題の難しさも主張している.

    新規性・結果・なぜ通ったか?

    • Bounding Boxまでアノテーションされている初の大規模動画データセットを構築
    • 動画中の一部ではなく密にAtomicな行動のラベルがアノテーションされている
    • Spatio-temporal Localizationをするためのベンチマークとなる新規手法も提案
    [#366]
    2018.6.1 14:53:37
    SGAN: An Alternative Training of Generative Adversarial Networks
    Tatjana Chavdarova, Idiap and EPFL; Francois Fleuret, Idiap Research Institute
    CVPR2018
    1712.02330
    KenichiroWani

    概要

    General Advesarial Networks(GAN)は現在,コンピュータビジョン分野で広く使われている手法である.しかしながら,複雑な学習をするには時間がかかり,人の手が必要となる.そこでSGANというトレーニングプロセスを検討する.SGANではいくつかの敵対的でローカルなネットワークの組み合わせを独立させて学習させることでグローバルな一対のネットワークの組み合わせを学習することができる.SGANの学習はローカルディスクリミネータとジェネレータによってグローバルディスクリミネータとジェネレータが学習される.

    Item3Image

    新規性・結果・なぜ通ったか?

    adversarial pairs (G1,D1),...,(GN,DN)を学習し, G0はD1,...,DNによって学習, D0はG1,...,GNによって学習させることでグローバルな一対のネットワークを学習する。

    コメント・リンク集

    [#367]
    2018.5.30 21:15:54
    Learning from Noisy Web Data with Category-level Supervision
    L.Niu, Q.Tang, A.Veeraraghavan, and A.Sabharwal
    CVPR 2018
    996
    Kazuma Asano

    概要

    日に日に増えるウェブデータから学習することはポピュラーになりつつあるが,従来の学習とウェブデータを使用した学習では,ラベルが時々間違っているなどの大きなギャップが存在する.これを解決する従来手法では,さらに情報を追加してウェブデータから学習する傾向があったが,この論文では,より活発なカテゴリレベルの監視をすることによりラベルノイズを減らすWSCI(Webly Supervised learning with Category-level Information)を提案. 分類を行うネットワークをVAE(Variational AutoEncoder)の隠れ層に接続し,分類ネットワークとVAEがカテゴリレベルのHybrid Semantic Informationを共有する. 提案手法の有効性はAwA2, CUB, SUNの3つデータセットで評価している.

    Item3Image

    新規性・結果

    いずれのデータセットにおいても,提案手法は従来手法に比べ2~5%ほど精度が向上しており,AwA2のデータセットにおいては90%を超える評価を出している.

    コメント・リンク集

    人間がわざわざデータを集めるのではなく,機械が自動的にデータセットを作ることで今までの負担を大きく減らすことができると考えられる.

    [#368]
    2018.6.22 20:15:55
    Geometry-Aware Learning of Maps for Camera Localization
    S.Brahmbhatt, J.Gu, K.Kim, J.Hays and J.Kautz
    CVPR 2018
    340
    Kazuma Asano

    概要

    DNNを使用したデータ駆動型による学習を可能するカメラ位置推定手法, MapNetを提案.MapNetではイメージ間の絶対的な位置姿勢と相対的な位置姿勢のロスを最小限に抑えることができる. さらに画像だけでなく,Visual odometry(VO)やGPSなどのユビキタスセンサ,Inertial Measurement Unit(IMU)などをカメラ位置推定に加え, ラベルなしのビデオを利用した,自己教師あり学習によるMapNet+の提案もした. Pose Graph Optimization(PGO)によって入力データをrefineしてAccurancyの改善を行う. データセットには小規模な位置推定のトレーニングに7-Senes,大規模なものにはOxford RobotCarsを用いている.

    Item3ImageItem3Image

    新規性・結果・なぜ通ったか?

    MapNet+は自己教師あり学習とマルチセンサによってパフォーマンスを向上させており,特に大規模な位置推定ではStereo VOやPoseNetなどの従来手法と比較し精度が劇的に向上している.

    コメント・リンク集

    [#369]
    2018.6.11 14:01:28
    Conditional Generative Adversarial Network for Structured Domain Adaptation
    W.Hong, Z.Wang, M.Yang and J.Yuan
    CVPR2018
    KotaYoshida

    概要

    コンピュータによって学習用のアノテーションを生成し,実画像のような合成画像として用いることが流行.しかし,ドメインの不一致という問題が起きる.それを解決するために,GANをFCNフレームワークに統合することでSemanticSegmentationのためのドメイン適用のための手法を提案.

    画像

    新規性・結果・なぜ通ったか?

    • 合成画像の特徴を実画像のように変換する条件付きジェネ−レータとディスクリメーターを学習
    • ジェネレータは合成画像を実画像のようにディスクリメーターを騙すように学習させることでFCNのパラメータを更新.
    • 本手法である実際のラベルを用いずに実験を行い,CityscapesデータセットのIoU平均が12〜20上回りSoTA.

    コメント・リンク集

    • FCN+GANでSemanticSegmentation
    • Paper
    [#370]
    2018.5.28 15:36:39
    Learning to Sketch with Shortcut Cycle Consistency
    Jifei Song, Kaiyue Pang, Yi-Zhe Song, Tao Xiang, Timothy M. Hospedales
    CVPR 2018

    概要

    画像からスケッチのストロークを取得する手法の提案。人間が画像からスケッチをすると、同じ画像に対しても様々なバリエーションが生じてしまう。 そこで、教師有学習と教師無学習を組み合わせることによって画像からスケッチの取得を実現する。 教師有学習は、画像からスケッチもしくはスケッチから画像という変換を学習する。 教師無学習は、オートエンコーダのように画像もしくはスケッチを符号化し、元に戻すという処理を学習する。 その際、CycleGANのようにドメイン変換を繰り返すのではなく、符号化したものをそのまま復号化する(Shortcut Cycle)。

    Item3Image

    新規性・結果・なぜ通ったか?

    Pix2pixやCycleGANなどの手法と比較を行い、いずれの手法と比較してもスケッチとして抽象化されつつもセマンティックな特徴を捉えていることを確認した。また、数値評価としてスケッチの認識及び検索タスクを行って評価した。 どちらのタスクにおいても、従来手法と比較して高い精度でスケッチへの変換ができていることを示した。

    コメント・リンク集

    [#371]
    2018.5.29 14:10:18
    Show Me a Story: Towards Coherent Neural Story Illustration
    Hareesh Ravi, Lezi Wang, Carlos M. Muniz, Leonid Sigal, Dimitris N. Metaxas, Mubbasir Kapadia
    CVPR 2018

    概要

    複数の文で構成されたテキストの内容を表す画像シークエンスを検索する手法を提案。文章から抽出される特徴と画像から抽出された特徴を対応付けることにより、各文に対して1枚の画像を選択する。 その際、文章特徴はGRUによって前後の文章との関係を含めて抽出する。 また、heやitなどの代名詞が何を指しているかを明らかにするために、テキスト全体としての一貫性を測るcoherence vectorを導入した。

    Item3Image

    新規性・結果・なぜ通ったか?

    ベースラインとなる手法では、文単位で画像の検索を行っているために画像シークエンスとしての一貫性が損なわれてしまう。そこで、GRU及びcoherence vectorによって前後の文で登場した単語などを考慮することが可能となり、テキスト全体を表す画像シークエンスの検索が可能となった。 ユーザースタディにより、ベースライン、coherence vector無し、coherence vector有りの比較を行い、coherence vector有りが最も好まれる結果を得た。 また、画像シークエンスがテキストに合っているかは主観的な評価であるため、saliencyベースの新たな評価指標を提案した。

    コメント・リンク集

    [#372]
    2018.5.29 12:03:27
    SO-Net: Self-Organizing Network for Point Cloud Analysis
    Jiaxin Li et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    順序構造に対して不変な3次元 Point Cloud のための deep learning アーキテクチャー SO-Net を提案. Self-Organizing Map (SOM) を作ることで点群の空間分布をモデル化し, SOMのノードを用いて階層的な特徴量の抽出を行う. Point Cloud のクラス分類やセグメンテーションなどのタスクを用いた評価実験では, 先行研究と同等以上の結果をより短い学習時間で達成した.

    fukuhara-fukuhara-SO-Net-Self-Organizing-Network-for-Point-Cloud-Analysis.png

    新規性・結果・なぜ通ったか?

    • SOM を用いることで Point Cloud を複数の Point Cloud の部分集合に分割し, 各部分集合ごとの特徴量を抽出した後, 全体の特徴量を階層的に抽出する.
    • 初期ノードの位置を固定し, 学習を batch 単位で行うことで, SOM の学習が順序構造に対して不変となるようにしている.
    • 様々なタスクの事前学習として用いるための Point Cloud の autoencoder を提案.
    • ネットワークの構造が単純かつ並列計算可能なため, 先行研究よりも短時間で学習をすることが可能.
    • point cloud reconstruction, classification, object part segmentation, shape retrieval などの複数のタスクを用いて評価実験を行った.
    • 評価実験の結果では Point-Net++ や Kd-Net などとの先行研究と同等以上の結果を半分以下の学習時間で達成した.
    [#373]
    2018.5.17 12:19:55
    Large-scale Point Cloud Semantic Segmentation with Superpoint Graphs
    Yoshihiro Fukuhara et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    大規模(数百万規模)な point clouds データに対して効率的に Semantic Segmentation を行う研究. まず, point clouds 全体を形状が単純で, 意味的に同じ点が属する部分集合(superpoint)に分類し, superpoint が作るグラフ(SPG)に graph convorution を適用することで segmentation を行う. Semantic3D と S3DIS dataset を用いた評価実験では先行研究よりも良い結果を達成した.

    fukuhara-Large-scale-Point-Cloud-Semantic-Segmentation-with-Superpoint-Graphs.png

    新規性・結果・なぜ通ったか?

    • superpoint の構成は先行研究(Guinard+17)で提案された, Global Energy を用いて行う.
    • 各 superpoint の特徴量を PointNet を用いて抽出する. (大規模なデータを扱うため, 各 superpoint 内でダウンサンプリングを行っている.)
    • 抽出された各 superpoint の特徴量に対して Gated Recurrent Unit (GRU) を用いた graph convorution を適用することで, 各 superpoint のクラス分類を行う.
    • Semantic3D と S3DIS dataset を用いた評価実験では, ShapeNet などの先行研究と比較して複数の評価尺度で最も優位な結果を達成した.
    [#374]
    2018.5.28 00:47:55
    FoldingNet: Point Cloud Auto-encoder via Deep Grid Deformation
    Yaoqing Yang et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    3次元点群処理のための autoencoder を提案. Folding という新しい decoding 演算を導入することで, 2次元グリッド上の点から3次元点群の表面上への射影を教師なしで学習した.

    fukuhara-FoldingNet-Point-Cloud-Auto-encoder-via-Deep-Grid-Deformation.png

    新規性・結果・なぜ通ったか?

    • 新しい end-to-end な3次元点群処理のための deep autoencoder を提案した.
    • 提案手法のdecoderのパラメータ数は既存手法の7%であるが, これで2次元グリッドと任意の3次元点群表面への写像が構成できることを理論的に証明した.
    • MN40 や MN10 dataset を用いた classification タスクの評価実験では, 最先端の教師あり手法(Achlioptas+17)などと同等の精度を達成した.
    [#375]
    2018.5.22 12:19:55
    FFNet: Video Fast-Forwarding via Reinforcement Learning
    Shuyue Lan et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    Video Fast-forwarding のタスクを MDP(Markov Decision Process) として定式化し, 強化学習を用いて解く方法を提案. 評価実験では精度と効率の両方に置いて先行研究よりも優れた結果を示した.

    fukuhara-FFNet-Video-Fast-Forwarding-via-Reinforcement-Learning.png

    新規性・結果・なぜ通ったか?

    • Video Fast-forwarding を MDP (Markov Decision Process) として定式化した.
    • 現在の Frame の特徴量を状態, スキップする Frame 数を行動として, Q-learningで強化学習を行う.
    • 報酬はスキップした Frame の中に重要なものがどの程度含まれていたかに基づいて計算される.
    • Tour20 や TVSum dataset を用いた先行研究との比較実験では, 主観評価と定量的評価の両方に置いて最も良い結果となった.(6-20%程度、重要なframeを含んでいる割合が増加)
    • 先行研究と比較して80%近く処理するフレーム数を削減し, 効率化することに成功した.
    [#376]
    2018.5.17 17:25:55
    Egocentric Activity Recognition on a Budget
    Rafael Possas et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    ウェアラブルデバイスのような使用可能な電力が限られる状況において, 電力消費と精度を強化学習を用いてバランスするフレームワークを提案. 複数のセンサー情報を用いた行動認識のタスクにおいて, 高精度・高電力消費な predictor と低精度・低電力消費な predictor を強化学習の結果に基づいて適宜切り替えることで少ない消費電力で先行研究と同等の精度を達成した. また, 一人称視点動画行動認識のための新しいデータセットを作成した.

    fukuhara-Egocentric-Activity-Recognition-on-a-Budget.png

    新規性・結果・なぜ通ったか?

    • ウェアラブルカメラの情報を用いた高精度・高コストな predictor とモーションセンサーの情報を用いた低精度・低コストな predictor のどちらを使用して推定を行うべきかを A3C の agent が判断する.
    • どちらのセンサーの情報を用いても正しい推定結果となるような状況では低精度・低コストな predictor を使用した場合に大きな報酬が得られるように agent の学習を行う.
    • 提案手法では報酬についてのパラメータ1つを調整する事で精度と消費電力の簡単なトレードオフが可能.
    • 一人称視点動画行動認識のための新しいデータセット(DataEgo)を作成.
    • Multimodal egocentric dataset を用いた評価実験では従来手法(Song+16)とほぼ同等の精度を少ない消費電力で達成.
    [#377]
    2018.5.19 13:40:55
    A2-RL: Aesthetics Aware Reinforcement Learning for Image Cropping
    Debang Li et al.
    CVPR 2018
    Yoshihiro Fukuhara

    概要

    強化学習 (A3C) を用いて Image cropping を行う手法を提案. 従来の sliding winodow に基づく手法のように膨大な数の cropping 候補を評価する必要がないため, 先行研究よりも短時間で結果の計算が可能. また, 評価実験では精度についても先行研究よりも優位な結果を達成した.

    fukuhara-A2-RL-Aesthetics-Aware-Reinforcement-Learning-for-Image-Cropping.png

    新規性・結果・なぜ通ったか?

    • Image cropping を sequential decision-making process として定式化した. (14種類の cropping を action として, Markov 過程としてモデル化.)
    • 上記の問題を A3C を用いた強化学習を用いて解いた.
    • 報酬については学習済みの View Finding Network (Chen+2017)を使用.
    • 各ステップで候補となる cropping の種類の数が少ないため, 先行研究と比較して非常に短い計算時間で結果を出力することが可能となった.
    • Flickr Cropping Dataset, CUHK Image Cropping Dataset, Human Cropping Dataset を用いて行った評価実験ではいずれも先行研究よりも優位な結果を達成した.
    [#378]
    2018.5.22 18:27:55
    Good View Hunting: Learning Photo Composition from Dense View Pairs
    Zijun Wei, Jianming Zhang, Xiaohui Shen, Zhe Lin, Radomir Mech, Minh Hoai, Dimitris Samaras
    CVPR 2018

    概要

    画像の構図の良し悪しを評価するComparative Photo Compositionデータセットを構築。10800枚の画像から24の構図の画像を作成し、クラウドソーシングによって2つの構図のどちらがいいかをアノテーションした。 また、入力画像をどのようにクロッピングすると良い構図になるかを提示するシステムを構築した。 その際、IOUを評価尺度にすると構図的に評価が低いものも高いスコアになるため、画像を評価するネットワークから得られるスコアを指標とした。

    Item3Image

    新規性・結果・なぜ通ったか?

    従来のデータセットでは画像に対してスコアがついていたのに対して、構図の異なる2枚の画像どちらがいいかを100万ペアアノテーションを行った。構図推薦システムは、ユーザースタディの結果従来手法よりも良いと感じる人が多いことを確認した。 また、計算速度も従来手法と比べはるかに向上した(75FPS+).

    コメント・リンク集

    [#379]
    2018.5.28 00:50:47
    DVQA: Understanding Data Visualization via Question Answering
    Kushal Kafle, Brian Price, Scott Cohen, Christopher Kanan
    CVPR 2018
    694
    Yue Qiu

    概要

    • 新規なバーグラフに対して質問回答タスクDVQA及びデータセットの提案.
    • バーグラフが情報の一つとしてより豊かな統計的な情報を表現できる.提案手法がバーグラフを対象としたDVQAを提案し,バーグラフの自動的情報抽出と理解を可能にした.
    • 大規模なバーグラフQAデータセットDVQAを提案した.DVQAが3Mのグラフ‐質問ペアから構成され,バーグラフに対し3種類の質問(構造理解,データ検索,reasoning)を設定した.また,全部の質問がopen-endedである.
    • DVQAタスクにおいて,2種類のネットワーク構造を提案した.①MOM:グラフの局所領域を抽出し文章を生成ことにより回答できる問題を対応するネットワークboundingbox OCR及びグラフの局所領域を抽出せずに回答する一般的な問題を対応するClassifierの二つのサブネットから構成される.どのネットにより回答するかを2クラス分類問題として取り扱っている②SANDY:従来手法SANにダイナミックエンコーディングモデルを用いて,質問文中のchart-specific単語をエンコーディングし,それをベースに直接chart-specificな回答文を生成できる.

    DVQA

    新規性・結果・なぜ通ったか?

    • 実用性が高い新規なバーグラフに対し質問回答タスクを提案.
    • 提案データセットDVQAに対し5種類の従来のVQA手法と提案のMOM,SANDYの比較実験を行った.一般的問題・chart-specific問題の両方に対し提案のSANDYモデルが最も良い精度を達成した.
    • 提案のデータセットDVQAがバーグラフの理解と質問文・回答文によりバーグラフ自動生成に用いられる.

    コメント・リンク集

    • VQAタスクのVを画像からバーグラフに変更し実用性が高い提案である.
    • 類似した考えで従来の”V”か“Q”か“A”を同じ処理で別の似た概念に変更する研究をするも面白そう
    • 論文
    [#380]
    2018.5.25 17:28:12
    RotationNet: Joint Object Categorization and Pose Estimation Using Multiviews from Unsupervised Viewpoints
    Asako Kanezaki, Yasuyuki Matsushita, Yoshifumi Nishida
    CVPR 2018
    628
    Yue Qiu

    概要

    • 物体のマルチ視点の画像からジョイントで3D姿勢推定及び物体認識を行う手法RotationNetの提案.
    • 3D MFPにより作成されたマルチ視点画像データセットMIROを提案した.(12classes, 10 instances/class,160viewpoints)
    • 物体を観測する視点及び物体のカテゴリをジョイントで推定した方がより良い精度を達成できると指摘し,更にトレーニングする際に物体を観測する視点をlatent variablesとして取り扱い,視点unalignedな学習データセットからunsupervisedで物体の姿勢推定を学習する.
    • また,視点-specificな特徴をクラス内だけではなく,異なるクラス間の姿勢アライメントを行う.
    • RotationNetのネットワーク構造はマルチ視点の画像から画像ごとにそ全部の視点の確率(その画像がその視点であるか)及び物体カテゴリを予測し,全部の画像から予測した結果から正解ラベルのクラスの確率*視点の確率の統合を最大化するように学習する.

    RotationNet

    新規性・結果・なぜ通ったか?

    • 物体認識においてはSHREC’17のnormalデータに対し優勝した.また,ModelNet-10,ModelNet-40に対し従来のマルチ視点・ポイントクラウド・ボクセルベースな様々な手法より良い精度を達成.
    • 物体姿勢推定において,無監督な方法で従来の監督方法レベルな結果が得られた.
    • 実環境で,良い姿勢な画像をと撮影できるとは限らない.RotationNetで物体の姿勢及び認識を行う際,画像枚数(>=1)で動作でき,観測が更新したら予測結果を更新する.そのため,RotationNetはAR応用などの実環境の応用に適応する.

    コメント・リンク集

    • クラス間のViewpoint-specificな特徴を学習することが面白い.可視化手法を加えて学習済みモデルに対しどういうようにアライメントしているのかを知りたい.また,問題定義を詳細的に考える必要がありそう
    • 疑問点としては予測したそれぞれの視点の結果の統合は平均をとる?
    • 論文
    • コード
    [#381]
    2018.5.25 17:21:58
    Visual to Sound: Generating Natural Sound for Videos in the Wild
    Yipin Zhou, Zhaowen Wang, Chen Fang, Trung Bui, Tamara Berg
    CVPR 2018
    435
    Yue Qiu

    概要

    • ビデオからリアルな音声を生成する(waveformな)手法及びビデオ―音声データセットを提案した.
    • 人がビジョンとサウンド間の関連性をある程度把握できる.そこで,in-the-wildビデオから音声(waveform型)を自動生成するタスクを提案し,また,このタスクのためのデータセットVEGASを提案した.VEGASはAudioSetデータセットをAMTよりクリーンし,10カテゴリのビデオ及び対応した音声28109ペアから構成される.データセットのビデオの総時間が55時間となる.
    • 提案タスクに対応したフレームワークはビデオエンコーダー及び音声ジェネレータから構成される.音声ジェネレータは階層的RNNを用いた.ビデオエンコーダーに対し:①frame-to-frame②sequence-to-sequence③flow-basedの3種類の設計を用いた.3種類モデルの生成結果に対し定量評価及びヒューマンテストを用いて評価し,flow-based構造が最も良い性能とヒューマン評価を達成した.

    VisualToSound_InTheWild

    新規性・結果・なぜ通ったか?

    • 従来のビデオから音声を生成する手法はビデオに対し拘束条件を加えている.提案手法は初めてのin-the-wildビデオから音声を生成する手法.
    • ビデオから音声を自動生成する手法の応用場面が広い.(VRシステムでの没入感の増強,音声編集作業の自動化,視覚障害の人に視覚体験を聴覚体験として提供)
    • ヒューマンテスト (ビデオがリアルかフェクか)に対し,ビデオエンコーダーをflow-basedな構造を用いた場合,平均73.36%の生成音声がリアル音声と評価された.

    コメント・リンク集

    ・視覚情報の抽出機に更にコンテンツと物体relationなどを重視したネットワークを用いたら更なる良い結果が得られそう・逆設定として,音声情報からビデオの予測も面白そう

    [#382]
    2018.5.25 17:15:56
    Functional Map of the World
    Gordon Christie, Neil Fendley, James Wilson, Ryan Mukherjee
    CVPR 2018
    795
    Yue Qiu

    概要

    • 建物や土地などの機能的目的を予測するタスクに用いられる大規模な衛星画像データセットfMoWの提案(bounding box, 時系列,カテゴリ,メタ情報などのアノテーションがあり)
    • データセットの具体的な統計情報は①200以上の国の1,047,691 枚画像②63カテゴリ③一枚の画像1つ以上のバウンディングボクス定義④時系列画像が大量に含む.
    • このデータセットに対応した新たなタスクを設定した:連続な時系列画像によりバウンディングボクス内の物体を認識する.提案データセットfMoWを用いて5つのネットワーク構造:LSTM-M,CNN-I,CNN-IM,LSTM-I,LSTM-IM(I:画像M:メタ特徴)に対し比較実験を行た.平均F1スコアにおいてLSTM-IMが最も高い精度を示したので,時系列情報及びメタ情報をジョイントでreasoningするアプローチの有効性を証明した

    FunctionalMapOfTheWorld

    新規性・結果・なぜ通ったか?

    • 公開されている最も大規模な衛星画像データセット.
    • 異なる国・撮影時間・撮影年代などで撮影された画像から構成され,提案データセットを統計比較などにも用いられる.
    • 従来の衛星画像データセットは主にbrief momentsの情報だけをキャプチャーし,メタ情報(ロケーション,時間,太陽角度など)がアノテーションされていない.提案データセットはメタ情報をアノテーションし,様々な応用を可能にした.(例:パーキングエリアの時系列駐車量の統計・影と時間情報によりオブジェクトの高さ推定など)
    • 検出と識別タスクの間に位置付ける新たな問題設定“時系列画像のバウンディングボックス内の物体識別”をして,更に実験を通してメタ情報と時系列情報をジョイントで処理することの重要性を示した.

    コメント・リンク集

    • 地理情報に関する分析の研究に用いられるデータセット

    • 国のバリエーションが豊かなデータセットなので,国ごと上空シーン特徴の比較などにも用いられる

    • 論文

    • コード

    • データセット

    • fMoW Challenge

    [#383]
    2018.5.25 17:05:45
    Deep Cocktail Networks: Multi-source Unsupervised Domain Adaptation with Category Shift
    Ruijia Xu, Ziliang Chen, Wangmeng Zuo, Junjie Yan, Liang Lin
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    ソースドメインのラベル付きデータセットが複数ある場合のunsupervised domain adaptation(UDA)であるmultiple domain adaptation(MDA)によってターゲットドメインのクラシフィケーションを行う Deep Cocktail Network(DCTN)を提案。MDAではUDAで問題視されるドメインシフトに加えて、 ソースドメインのデータセット間で全てのカテゴリが共有されていないカテゴリシフトが存在する。 DCTNでは、k番目のソースドメインのデータセットとターゲットドメインのデータセットを入力として discriminatorによってperplexity scoreを算出することでどのソースドメインのデータセットの分布に近いかを算出し、 これを全てのソースドメインのデータセットに対して行い、perplexity scoreを重み付けるすることで最終的な識別結果を出力する。

    新規性・結果・なぜ通ったか?

    • discriminatorによってターゲットドメインがソースドメインのデータセットのうちどのデータの分布に近いかを計算することで、MDAに取り組むDCTNを提案。
    • 3つのベンチマークにおいてUDAのstate-of-the-artと比較し他結果、提案手法が最も高い精度を達成。
    • カテゴリシフトを解決できているかどうかを確認するために、ターゲットドメイン内でカテゴリの重複あり/なしにおける識別結果を比較したところ、 state-of-the-artと同等以上の精度を達成。

    コメント・リンク集

    • discriminatorが算出したperplexity scoreによって重み付けをするというシンプルな手法だが、UDAに取り組むstate-of-the-artよりも高い精度を達成している。
    • 論文
    [#384]
    Unsupervised Correlation Analysis
    Yedid Hoshen, Lior Wolf
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    2つのドメインを結合する手法であるCanonical Correlation Analysis(CCA、正準相関分析)を教師なし学習に対して行うUnsupervised Correlation Analysis(UCA)を提案。 既存のCCAは教師あり学習かつ2つのドメインが何らかの対応関係を持っていることを前提としていたが、 UCAは教師なし学習かつ2つのドメインに対応関係がない場合を想定している。 教師あり学習とは異なり、トレーニング時に2つのドメインにおける相関係数を計算することができないため、入力する2つのドメインと、 ネットワークによって射影された潜在変数空間の3つのドメイン間の射影、逆射影がうまくいくように様々なロスをとることで学習を行う。 ロスに対するablationも行なっている。

    新規性・結果・なぜ通ったか?

    • 教師なしかつ2つのドメインに対応関係がない状況におけるCCAの拡張であるUCAを提案。
    • 評価尺度として潜在変数空間における相関係数、AUCを用いて以下の5つの状況で実験を行なった。1.MNISTの画像とそのミラー画像、2.MNISTの上半分の画像と下半分の画像、3.鳥の画像とそのキャプション、4.花の画像とそのキャプション、5.Flickerの画像とそれに付随する5つの文章。 関節位置のエラーを測定したところ上記のstate-of-the-artの手法と同等、あるいは上回る精度を達成。
    • 教師なし学習の結果をGANと比較しており、全ての実験においてGANよりも高い精度を達成。
    • 教師あり学習をUCAで行なった結果も乗せられており、実験3、4、5において通常のCCAよりも高い精度を達成。

    コメント・リンク集

    • 現状のネットワークを見ると、それぞれのドメインにおける直交性と、それぞれのドメインの射影先が同じ空間になるように様々なロスをとっているだけなので、 もう少しアップデートすることができるかもしれない。
    • CCAの特徴であるL_Orthだけを除いた場合に、どれほどの影響が出るのかが気になった。
    • 論文
    [#385]
    Transferable Joint Attribute-Identity Deep Learning for Unsupervised Person Re-Identification
    Jingya Wang, Xiatian Zhu, Shaogang Gong, Wei Li
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    ラベルなしデータセットにおいてperson re-identification(re-id)を教師なしで行うために、ラベルありデータセットからdomain adaptationを行うTransferable Joint Attribute-Identity Deep Learning(TJ-AIDL)を提案。person re-idとは、街中の監視カメラのような異なる視点、 重複のない領域を撮影された映像内の同一人物を探すことである。 TJ-AIDLにはアイデンティティーを推定するIdentity branch、アトリビュートを推定するAttribute branch、 アトリビュートからアイデンティティーを推定するモジュールであるIdentity Inferred Attirbute(IIA)からなる。 domain adaptationの際には、Attribute branch、IIAの更新のみを行う。

    新規性・結果・なぜ通ったか?

    • domain adaptationを用いて教師なしでperson re-idを行うために、画像のアトリビュートからアイデンティティーを推定するTJ-AIDLを提案。
    • personn re-idのベンチマークである4つのデータセットを使用しており、Rank-1mAPにおいてre-idを教師なしで行うstate-of-the-artよりも高い精度を達成。
    • TJ-AIDLにおいてアトリビュート/アイデンティティーのみ学習した際の結果、adaptation有り/無しの結果についても議論しており、提案したTJ-AIDLが最も高い精度となった。

    コメント・リンク集

    [#386]
    Duplex Generative Adversarial Network for Unsupervised Domain Adaptation
    Lanqing Hu, Meina Kan, Shiguang Shan, Xilin Chen
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    同一カテゴリのdomain間におけるadaptation, transferをラベル識別と2つのdiscriminatorを用いるネットワークDupGANを提案。target domainにはラベルがない状況である教師なし学習を対象としている。 DupGANはencoderでそれぞれのドメインの潜在変数をエンコードし、generatorでデコードを行い、 2つのdiscriminatorでそれぞれのドメインに対してfake/realとラベルの認識を行う。 結果はdomain transferされた数字画像のラベル認識・生成結果、物体認識の精度において比較を行う。

    新規性・結果・なぜ通ったか?

    • ラベル認識と2つのdiscriminatorによってdomain adaptaion/transferをおこなうDupGANを提案。
    • 既存手法であるDANNADDAはadversarial lossを使用してtarget→source のマッピングを行うが、 これらの手法ではマッピングされたtarget domainの分布が歪んでいないことは保証できない。 一方DupGANではラベルの認識を行わせることでカテゴリ構造を保つことができる。また提案手法では画像の生成も可能である。
    • state-of-the-artと比較して、数字画像データセットであるMNIST、USPS、SVHN、SVHN-extraそれぞれのデータセット間におけるdomain transferに対するラベル認識の結果、 最も高い精度を達成。またdomain transferによる画像も生成することが可能。
    • 31種類のラベル、3つのドメインを持つOffice-31データセットにおける物体認識結果がstate-of-the-artよりも高い精度を達成。

    コメント・リンク集

    • クラシフィケーション生成された画像ではなくはエンコードされた潜在変数に対して行われている。
    • 画像の生成力はそこまで高くなく、実際Office31に対する画像生成は難しかったと主張している。
    • 論文
    [#387]
    Pixels, voxels, and views: A study of shape representations for single view 3D object shape prediction
    Daeyun Shin, Charless Fowlkes, Derek Hoiem
    CVPR 2018
    384
    Yue Qiu

    概要

    • 1枚の画像から3次元形状を推定するタスクにおいて,異なる形状representation及びcoordinate framesを用いた場合,精度がどのように変化するのかの徹底的比較実験に関する研究.
    • 従来形状推定タスクにおいて異なる設計の比較分析の研究がないので,著者達が異なる設計を比較できるフレームワーク及び具体的な実験を行った.
    • 比較実験は具体的に,a.RGB画像b.デプス画像からの形状推定タスクにおいて,“①マルチサーフェス画像VS volumetricデータ表示②viewer-centered VS object-centeredな座標”などの設定に対し,定量的及び定性的な比較実験を行った.
    • 提案の比較用フレームワークはencoder-decoderベースなネットワークを用いて,decoderに変更を加えることで, マルチサーフェス画像及び volumetricデータの2種類を生成できるようにした.また,coordinate frameをスイッチすることにより,viewer/object centeredを変更できる.

    A_Study_Of_Shape_Representations

    新規性・結果・なぜ通ったか?

    • 3次元形状推定タスクにおいて,異なる設定の比較実験を行った.
    • 形状representationの設定において,Multi-surfaceの方がvoxel と比べunseenクラスにおいてより良い性能を達成した. Multi-surfaceの方が高い解像度をエンコーディングできるのが理由な可能性があると指摘した.
    • coordinate framesの設定において,意外なことに従来広く採用されているobject-centeredはviewer-centeredと比べunseenクラスにおいて精度が劣っていて, object-centeredの方がカテゴリ認識に対応が強いのが原因となることを指摘した.
    • 以上の結論を元に,object centeredなsurface-basedな1枚の画像から3次元形状推定の手法3D-R2N2を提案し,PASCAL 3D+データセットにおいてmean IoU0.414を達成した.

    コメント・リンク集

    • 比較をしていない設計(Oct-tree based representationなど)もあるので,そういった構造に対して比較実験を行うのも面白い.

    • 3次元あたりの徹底的比較を行って,何らかの結論を出すような研究がまだ少ないので,研究テーマを沢山作れるかも?

    • 論文

    [#388]
    2018.5.24 18:20:50
    PlaneNet: Piece-wise Planar Reconstruction from a Single RGB Image
    Chen Liu, Jimei Yang, Duygu Ceylan, Ersin Yumer, Yasutaka Furukawa
    CVPR 2018
    336
    Yue Qiu

    概要

    • 1枚のRGB画像から“piece-wise planar depthmap”を推定するend-to-endなネットワークを提案した.提案手法を用いてRGB画像から平面パラメータ及び平面セグメンテーションマスク及びデプスマップを同時に推定できる.
    • 画像からpiece-wiseな平面を検出するタスクはARの応用に一つ重要なタスクとなっている.しかし従来,デプス推定とpiece-wiseな平面検出を同時に行う研究がない.著者達が新たにこのタスク及びタスクに対応できるネットワークを定義した.
    • 提案フレームワークは:①DRNs(Dilated Residual Networks)を用いて入力画像から特徴抽出を行う②平面パラメータ推定・non-planarデプスマップ推定・セグメンテーションマスク推定の3つの推定ネットワークを用いる③推定した3つの結果から“piece-wise planar depthmap”を生成する.

    PlaneNet_PieceWise_PlaneEstimation

    新規性・結果・なぜ通ったか?

    • 新規な問題定義.実験で提案手法が部屋のレイアウト推定・ARアプリ(テクスチャー編集・バーチャルルーラーなど)に応用できることを指摘した.
    • 51,000枚ほどの学習データを作成した.(これが大変そう)
    • plane segmentationタスクにおいてNYUデータセットでの精度が従来の三つの手法より優れている(比較している手法は2009年,2009年,2012年の手法だけど。。)
    • デプスマップ推定タスクにおいてNYUv2データセットにおいて前述した3つの手法より精度良い

    コメント・リンク集

    • ARアプリに応用できるところから考えると単純なデプス推定より実用性が高い

    • 平面検出も同時に行うので,部屋レイアウト推定に良い精度を達成したのが理解できる.しかし,疑問としては提案手法が平面検出+デプス推定だけで部屋の幾何構造実際は学習していないので,デプス推定+平面パーツ検出の従来研究と比べると新規性と技術的の難しさがどこなのかちょっとわからない

    • 論文

    • コード

    • プロジェクト

    [#389]
    2018.5.24 18:13:54
    PointNetVLAD: Deep Point Cloud Based Retrieval for Large-Scale Place Recognition
    Mikaela Angelina Uy, Gim Hee Lee
    CVPR 2018
    573
    Yue Qiu

    概要

    • PointNetとNetVLADを用いたポイントクラウドベースな“場所検索”ネットワークPointNetVLAD及びデータセットの提案.
    • 従来の自動運転などに用いられる場所検索技術では2次元画像ベースで行われている.しかし,照明条件などに対しロバスト性が低い.ポイントクラウドベースな場所検索が従来良いグローバル特徴抽出機がないため,まだ研究されていない.近年PointNetなどの良いポイントクラウド特徴抽出機が提案され,そこで著者達がPointNetとNetVLADを用いたLiDARで撮ったポイントクラウドをベースとした場所検索手法を提案した.
    • 提案データセットの収集過程は:①Oxford RobotCar などのdatasetからフルールートを選択する②フルールートから局所を選択する③選択した局所ポイントクラウドをダウンサンプルと正規処理を行う.また,Oxford RobotCar 以外,3種類の他のデータセットからデータを集めた.
    • fixedサイズなポイントクラウドからグローバル特徴を抽出できるPointNet,NetVLADと全結合層をコンバインたend-to-endなグローバル特徴抽出機を構築した.

    PointNetVLAD

    新規性・結果・なぜ通ったか?

    • 新規なポイントクラウドベースな場所検索及び場所検索3次元ポイントクラウドデータセットの提案.
    • 従来の2次元画像ベースな場所検索と比べ,提案したポイントクラウドベースな場所検索が照明条件にロバストである.
    • PointNetとNetVLADを用いているので,ポイントクラウドの無順序性及びpermulationを対応できる.
    • 新規なロス関数Lazy quadrupletを定義した.
    • 提案データセットにおいて,PointNetとModelNetなどの従来手法と比べ良い検索精度達成した.

    コメント・リンク集

    • PointNet,PointNet++, Kd-networkなどのポイントクラウドデータを扱えるネットワークでポイントクラウドから情報抽出を利用した研究がこれからまだ増えるのかな?

    • ポイントクラウドデータを直接処理できるネットワークがいくつかあるが,主にPointNet,PointNet++が引用されていそう.ほかの手法があまり使われていない理由が知りたい

    • 論文

    • コード

    [#390]
    2018.5.24 18:03:54
    Pix3D: Dataset and Methods for 3D Object Modeling from a Single Image
    Xingyuan Sun, Jiajun Wu, Xiuming Zhang, Zhoutong Zhang, Tianfan Xue, Joshua Tenenbaum, William Freeman
    CVPR 2018
    375
    Yue Qiu

    概要

    • 大規模なピクセルレベルに対応付けられたimage-shape pairsデータセットPix3Dの提案及び画像から同時に三次元形状及び姿勢を推定するネットワークの提案.
    • 従来のimage-shape pairsデータセットは①合成データセットを用いる②image-shapeの対応が精密ではない③データセット規模が小さいなどの問題点がある.そこで,著者達が大規模なピクセルレベルに対応付けられたデータセットを提案した.Pix3Dは395個の3次元物体モデル(9カテゴリ),10069ペアの画像―形状ペアから構成される.画像と形状のペアはピクセルレベルの精密的に対応付けられている.
    • データセットの収集段階では:①IKEA及び自撮りで大量な画像―形状ペアを集める②AMTにより画像からキーポイントをアノテーションする③Efficient PnP及びLevenberg-Marquardtを用いて粗い・精密なposeを求める.
    • 更に,提案手法は画像から同時に姿勢及び3次元形状を予測できるネットワークを提案した.提案ネットワークはまず画像から2.5Dスケッチを推定し,推定したスケッチをエンコーディングする.また,デコーディングにより3次元形状を推定し,同時にview estimatorネットワークにより姿勢を推定する.

    Pix3D

    新規性・結果・なぜ通ったか?

    • 従来のデータセットではCGモデルで合成されている方が多く,提案のデータセットが実物体を用い,更にピクセルレベルな精密度の画像―形状対応付けアノテーションがある.
    • 画像から同時に形状姿勢を推定するフレームワークの定量化結果は提案したデータセットでは3D-VAE-GAN,MarrNetなどの従来手法より良い精度を達成した.

    コメント・リンク集

    • 現在の学習データアノテーション段階でAmazon Mechanical Turkを用いている.Semantic Keypointの自動的検出を用いたら自動化できることはデータセットの更なる拡大化につなぎられそう

    • 論文

    • コード

    [#391]
    2018.5.24 17:57:53
    Learning to Look Around: Intelligently Exploring Unseen Environments for Unknown Tasks
    Dinesh Jayaraman, Kristen Grauman
    CVPR 2018
    152
    Yue Qiu

    概要

    • 新規な問題設定“シーンや物体を有効的に観測できる視点を学習する”及びこの問題を対応できる “アクティブ観測補完”ネットワークの提案.
    • 従来のCVタスクは主に与えられた観測(画像・ビデオ・ポイントクラウドなど)から視覚性質(クラス分類・検出など)の分析を行う.しかし,リアルな知能はまず環境から目的を達成するための観測を取得することから始まる.また,異なる観測から得られる情報量も異なる.そこで,著者達が“active observation completion”タスクを提案し,未知なシーンかオブジェクトからシーン及び物体のより多く3次元情報が含めた数が限られた観測視点の推定を目標とする.
    • 提案手法は強化学習を用いる.RNNベースなネットワークを用いて選択された視点からシーンか物体のパーツ情報を統合する.また,統合されたモデルから推定できるunobserved視点とgt間の誤差をベースにロス関数を設定した.

    LearningToLookAround

    新規性・結果・なぜ通ったか?

    • 学習データを手動でラベリングする必要がないので,大量な学習が行える.
    • 提案フレームワークを“シーン”の補完及び“物体モデル”の補完の2種類だいぶ異なったタスクに実験を行い,良い精度を達成したので,”提案した“無監督探索的な”フレームワークを遷移学習でほかのタスクに用いられる.
    • SUN360(Scene dataset)及び”ModelNet” (Object dataset)を用いて,従来のいくつかベースとなる手法より良い精度を達成した.

    コメント・リンク集

    • Interactive 環境でのVQAタスク(Embodied Question Answeringなど)は環境から“情報量が豊かな画像”を集めるのが重要の一環なので,提案フレームワークを用いられそう.

    • 論文

    [#392]
    2018.5.24 17:50:58
    PU-Net: Point Cloud Upsampling Network
    Lequan Yu, XIANZHI LI, Chi-Wing Fu, Daniel Cohen-Or, Pheng-Ann Heng
    CVPR 2018
    355
    Yue Qiu

    概要

    • data-drivenなポイントクラウドアップサンプリング手法の提案.スパースなポイントクラウドから,もっとデンスでユニフォームなポイントクラウドを取得できる.
    • 従来の2D画像super-resolutionタスクと比べ,3D Upsamplingでは処理対象が空間オーダーとレギュラー構造がないポイントクラウドで,物体の本当のサーフェス(ポイントクラウドのリアル物体)に近づき,点の密度も均等であることがタスクの目標となる.こういったことから,提案手法はポイントクラウドからマルチレベルの特徴を抽出し,更にマルチブランチで特徴を拡張することにより,ポイントクラウドの局所及びグローバルな情報を取得できる.
    • 提案ネットワークPU-Netは入力のポイントクラウド(N points)に対し①ポイントクラウドに対し異なるスケールのパッチを抽出し,②パッチからPointNet++を用いたマルチレベルの特徴抽出を行う.③feature expansion構造により特徴を拡張し,④全結合層を用いて出力のポイントクラウド(N*r points)を生成する.また,物体のサーフェスまでの距離及びポイントクラウドの過密程度を基準に,ジョイントロスを設計した.

    PU_Net

    新規性・結果・なぜ通ったか?

    • 新たな評価指標:“物体のサーフェスまでの距離偏差”及び“ポイントクラウド分布のユニフォーム性”を評価できる指標を提案し,この2つの指標においてSHREC2015データセットに対し従来研究より優れた精度と指摘した.
    • Pointnet++を用いてローカル及びグローバル情報抽出を行うので,ポイントクラウドの幾何的無オーダーを対応できる

    コメント・リンク集

    • 提案手法を更に発展し物体モデルの補完およびアップサンプリング同時にできることを期待される

    • Pointnet++を基本構造として使っていることがすごそう

    • 論文

    [#393]
    2018.5.24 17:36:47
    Deep Unsupervised Saliency Detection: A Multiple Noisy Labeling Perspective
    J.Zhang, T.Zhang, Y.Daiy, M.Harandi, and R.Hartley
    CVPR2018
    arXiv:1803.10910
    KotaYoshdia

    概要

    深層学習を用いた教師あり学習による顕著性の検出方法は教師データに依存する.そこで,“汎化能力を改善しつつ教師データなしで顕著性マップを学習することは可能か?”という問いに対して,弱いものやのノイズのある教師なし顕著性検出手法によって生成される多数のノイズラベルを学習することによって教師なしで顕著性の検出を行った.

    画像

    新規性・結果・なぜ通ったか?

    • 従来の教師なし顕著性検出に新たな顕著性を推定し,複数のノイズの多い顕著性検出方法から顕著性マップを学習する.
    • 我々の深層学を用いた顕著性検出モデルは,人間のアノテーションなしでEnd to Endで学習できとても簡潔である.

    結果・リンク集

    • 評価実験をしたところ従来の教師なしの顕著性検出方法を大きく上回り,深層学習を用いた顕著性の精度と同等のものとなった.
    • Paper
    [#394]
    2018.5.23 20:28:11
    Cross-View Image Synthesis using Conditional GANs
    Krishna Regmi and Ali Borji
    CVPR2018

    概要

    対応する航空写真とストリートビュー写真間の変換を行うcGANを提案.pix2pixによる変換に比べて,オブジェクトの正しいセマンティックスを捉え維持する変換が可能となっている.提案したcGANモデルは2つあり,X-Fork とX-Seq と呼んでいる.出力が変換画像とセグメンテーションマップであることが特徴.Inception Scoreの比較実験をすると,航空写真からストリートビュー方向の変換ではがX-Forkが優れ,逆方向の変換ではX-Seqの生成結果が優れていることがわかった.

    Image
    256x256の解像度で生成可能.gがストリートビューで,aが航空写真に当たる.

    手法

    • X-Forkは1つのGeneratorと1つのDiscriminatorから成るシンプルな構成のcGAN.出力は変換後の画像とセグメンテーションマップの2つであることが特徴.
    • X-Seqは2つのGeneratorと2つのDiscriminatorから成るcGAN.1つ目のGeneratorで変換後の画像を生成.それを元に2つ目のGeneratorでセグメンテーションマップを生成する.
      セグメンテーションマップのGround-Truthには,学習済みのRefineNetを用いた生成結果を使用している.

    コメント・リンク集

    • 航空写真とストリートビューという劇的に見た目が変わる場合の変換において,どのようなことが問題点となるのか5つ挙げられていたので気になる場合は元論文を参照してください.
    • コードやデータは公開予定
    • arXiv
    [#395]
    2018.5.23 20:24:52
    Multimodal Explanations: Justifying Decisions and Pointing to the Evidence
    D. H. Park et al.,
    CVPR 2018
    Kensho Hara

    概要

    性能がよく,かつ説明可能なモデルの実現のための新規手法の提案. これまでの説明可能なモデルは視覚的なAttentionのみやテキストの説明のみという単一のmodalだけだったのに対して, この論文では両者を合わせたmulti-modalな説明を出力可能にした. それを行う手法の提案と,学習と評価に使うデータセットを構築したのがこの論文のContribution. データセットはVQAと静止画からのActivity Recognitionのタスクで, 従来あったデータセットに,理由のテキスト説明と視覚的な根拠となった領域のアノテーションを追加して作成. 手法は,まず答えを出力して,それを元に根拠となった理由を出力するという形式のネットワーク構造を採用.
    Multimodal_Explanations_Justifying_Decisions_and_Pointing_to_the_Evidence.png

    新規性・結果・なぜ通ったか?

    • モデルの出力に加えて視覚的,テキストのmulti-modalな根拠説明をする手法を提案
    • VQAとActivity Recognitionでそれを評価可能なデータセット(追加アノテーション)を構築

    コメント・リンク集

    • 論文 (arXiv)
    • データセットはまだ公開されていない模様
    [#396]
    2018.5.8 12:00:18
    A Variational U-Net for Conditional Appearance and Shape Generation
    Patrick Esser, Ekaterina Sutter, Björn Ommer
    CVPR 2018 Spotlight
    Kazuki Inoue

    概要

    画像を構成する成分はshape(ジオメトリ、ポーズなど)とappearanceであるという考えのもと、VAEによってappearanceを推定し、 U-Netにshapeを学習させることで入力画像のappearanceとshapeの 片方を保ったままもう一方を変更することが可能なVariational U-Netを提案。 通常のVAEではshape、appearanceの分布を分離することが不可能なため、 VAEに画像とshapeを入力することでappearanceの特徴量を抽出し、U-Netによってshape情報を保つように学習を行う。 shapeとして体のポーズや線画が入力される。トレーニングデータには同一物体に対する様々なバリエーションの画像は必要としない。

    新規性・結果・なぜ通ったか?

    • VAEでappearanceを、U-Netでshapeを学習させることで画像に内在する2つの事前分布を別々に学習することができるVarational U-Netを提案。
    • コンディションによって画像を編集するpix2pixとポーズをコンディションとして人物画像を編集するPG2と比較を行った。COCO、DeepFashion、Market-1501データセットにおいてSSIMやIS、 関節位置のエラーを測定したところ上記のstate-of-the-artの手法と同等、あるいは上回る精度を達成。

    コメント・リンク集

    • VAEとU-Netのいいとこ取りをすることで、2つの変数を扱うことが可能になった。
    • 論文
    • Project page
    • GitHub
    [#397]
    Total Capture: A 3D Deformation Model for Tracking Faces, Hands, and Bodies
    Hanbyul Joo, Tomas Simon, Yaser Sheikh
    CVPR 2018 Oral
    Kazuki Inoue

    概要

    表情、体全体の動き、手のジェスチャといった様々なスケールの動きをマーカー無しでキャプチャするdeformation modelである”Frankenstein”と”Adam"を提案。 3Dキャプチャシステムに置いて、画像の解像度と3Dキャプチャシステムの視野はトレードオフであるため、 体の局所的な動きと全体的な動きを同時に捉えことは難しかった。提案手法では顔、両手、両足、 手の指における3Dキーポイントと3D Point Cloudを用いて表情などの 局所的モーションと体全体のモーションをキャプチャすることができるFrankensteinを構築。 また70人のトラッキングデータを用いてFrankensteinモデルを最適化することで、 髪と服を表現することが可能なAdamモデルを提案。結果は既存手法とのトラッキングの精度によって比較している。

    新規性・結果・なぜ通ったか?

    • 表情や手のジェスチャといった局所的なモーションと、体全体の動きを同時にトラッキングすることが可能なdefromation modelを提案。620台のVGAカメラと31台のHDカメラが必要とする。
    • state-of-the-artであるSMPLでは顔の表情を表現することは不可能だが、提案手法では可能になっている。
    • SMPLとトラッキングにおけるGTとのオーバーラップを計算した結果、SMPLが84.79%であるのに対し提案手法は87.74%となり、提案手法の方が高い精度を達成

    コメント・リンク集

    [#398]
    SfSNet: Learning Shape, Reflectance and Illuminance of Faces in the Wild
    Soumyadip Sengupta, Angjoo Kanazawa, Carlos D. Castillo, ; David Jacobs
    CVPR 2018 Spotlight
    Kazuki Inoue

    概要

    ラベル付き合成顔画像とin-the-wildなラベルなし実顔画像のどちらもトレーニングデータとして使用することで、実顔画像からシェイプ、リフレクタンス、イルミネーションを推定してリコンストラクションをend-to-endに行うSfSNetを提案。 実顔画像に十分なラベルがついているデータセットが存在しない、という問題を解決。Shape from Shading(SfS)のアイディアに基づき、 低周波成分を合成顔画像から、高周波成分を実顔画像から推定する。リコンストラクションされた画像のL1ロスを取ることで、 トレーニングにおける合成顔画像と実画像の橋渡しが行われる。リコンストラクションにはランバーシアンレンダリングモデルを使用する。

    新規性・結果・なぜ通ったか?

    • ラベル付きの合成顔画像とラベルなしの実世界顔画像でトレーニングすることで、実世界顔画像の法線、アルベド、シェーディングを推定しインバースレンダリングを行うSfSNetを提案。
    • インバースレンダリングによってリコンストラクションされた画像のロスを取ることで、合成顔画像と実世界顔画像の橋渡しを実現。
    • インバースレンダリングの見た目がstate-of-the-artよりも良い結果となった。
    • 法線・シェーディングの推定精度が、法線・シェーディング単体をそれぞれ推定するstate-of-the-artよりも良い結果となった。

    コメント・リンク集

    • 画像をリコンストラクションする際によく使われるU-NetではなくResNetを使った理由についても議論されている。
    • 論文
    • Project Page
    • GitHub
    [#399]
    Who's Better? Who's Best? Pairwise Deep Ranking for Skill Determination
    Hazel Doughty, Dima Damen and Walterio Mayol-Cuevas
    CVPR 2018

    概要

    2つの動画から、手術や絵を描くなどの技能がどちらが上かを予測する手法の提案。入力動画をTemporal Segment Networks(リンク参照)によりいくつかのセグメントに分割し,技能評価に用いるフレームを3枚選択する。 技能評価の学習は、2つの動画のどちらが技能が上か、2つの動画の技能が同じであるとき同じであると判定できるかの2つの尺度をロスとして行う。 技能を表すスコアは、Two Stream CNN(リンク参照)によって空間と時間それぞれについてスコアを取得する。

    Item3Image

    新規性・結果・なぜ通ったか?

    手術、ピザ生地をこねる、絵を描く、箸を使うの4つの技能を撮影したデータセットにより実験を行った。そのうち絵を描く、箸を使うは新たにデータセットを構築した。 全てのタスクで70%以上の精度を達成し、箸を使う以外のタスクではベースラインと比べ精度が向上した。

    [#400]
    2018.5.22 17:48:35
    LiteFlowNet: A Lightweight Convolutional Neural Network for Optical Flow Estimation
    T. Hui et al.,
    CVPR 2018
    Kensho Hara

    概要

    FlowNet2よりも,性能が良く,モデルサイズが小さく,高速に動作するOptical Flow推定手法を提案. FlowNet2(Feature Warping, Correlation)は性能が良いけどモデルサイズが大きい, SPyNet(ピラミッド構造を採用)はモデルが小さいけど性能はあまり良くない, ということで,提案手法は両者の良いところを合わせることをしている. 2フレームを入力として,各フレームをCNNに入れてピラミッド構造の特徴表現を得る. 一番解像度の低いところから順にFlow推定を繰り返していって洗練化していく. 各Flow推定では軽量な2つのモデルをカスケードさせたりして2フレーム間の大きな移動にも対応しながら, 軽量かつ高速な推定を実現.
    LiteFlowNet_A_Lightweight_Convolutional_Neural_Network_for_Optical_Flow_Estimation.png

    新規性・結果・なぜ通ったか?

    • 軽量な2つのネットワークをカスケードさせて使うCascaded flow inferenceの提案
    • CNNベースのFlow推定にFlow Regularizationを導入
    • 高性能,省メモリ,高速な推定を実現

    コメント・リンク集

    [#401]
    2018.5.8 12:00:18
    Person Transfer GAN to Bridge Domain Gap for Person Re-Identification
    Longhui Wei, Shiliang Zhang, Wen Gao and Qi Tian
    CVPR2018
    Yuta Matsuzaki

    概要

    Person Re-identification (ReID)のパフォーマンスは大きく向上したが,複雑なシーンや照明の変化、視点や姿勢の変化といった問題の調査は未だなされていない.本稿ではこれらの問題に関する調査を行った.このためにMulti-Scene MultiTime person ReID dataset (MSMT17)を構築した.またドメインギャップがデータ間に存在するため,このドメインギャップを埋めるためのPerson Transfer Generative Adversarial Network (PTGAN)を提案した.実験ではPTGANによってドメインギャップを実質的に狭められることを示した.

    123

    新規性・結果・なぜ通ったか?

    • ReIDを行う際の現実的な問題について網羅的に調査
    • 新たなReIDデータセットMSMT17を構築
    • データ間のドメインギャップを埋めるPTGANを提案

    コメント・リンク集

    [#402]
    2018.5.22 17:09:22
    Zero-Shot Sketch-Image Hashing
    Yuming Shen, Li Liu, Fumin Shen and Ling Shao
    CVPR2018
    Yuta Matsuzaki

    概要

    大規模スケッチベース画像検索において,既存の手法では学習中にカテゴリの存在しないスケッチクエリがある場合失敗するという問題がある.本稿ではそのような問題を解決するZero-shot Sketch-image Hashing(ZSIH)モデルを提案した.2つのバイナリエンコーダとデータ間の関係を強化する計3つのネットワークで構成される.重要な点として,Zero-shot検索での意味的な表現を再構成する際に生成的ハッシングスキームを定式化する点である.Zero-shotハッシュ処理を行う初のモデルであり,関連する研究と比較しても著しく精度が向上した.

    12

    新規性・結果・なぜ通ったか?

    • スケッチイメージハッシングの研究において初のZero-shot
    • 意味的な表現を再構成する際に生成的ハッシングスキームを定式化

    コメント・リンク集

    [#403]
    2018.5.22 16:03:53
    Lions and Tigers and Bears: Capturing Non-Rigid, 3D, Articulated Shape from Images
    Silvia Zuffi, Angjoo Kanazawa and Michael J. Black
    CVPR 2018
    Yuta Matsuzaki

    概要

    3Dスキャンは人間をキャプチャするために設計されており,自然環境での使用や野生動物のスキャンおよびモデリングには不向きという問題がある.この問題を解決する方法として,画像から3Dの形状を取得する方法を提案した.SMALモデルを画像内の動物にフィット,形状が一致するようにモデルの形状を変形(SMALR),さらに複数の画像においても整合性がとれるよう姿勢を変形させ、詳細な形状を復元する.本手法は,従来の手法に比べ大幅に3D形状を詳細に抽出することを可能にするだけでなく,正確なテクスチャマップを抽出し,絶滅した動物といった新しい種についてもモデル化できることを可能にした.

    Item3ImageItem3Image

    新規性・結果・なぜ通ったか?

    • 3Dスキャンが困難な動物のモデルを構築する方法を提案
    • SMALモデルを基として形状を変形させることで,より詳細な3D復元が可能
    • 上記手法により,一貫したテクスチャマップの抽出が可能

    コメント・リンク集

    [#404]
    2018.5.22 15:06:58
    DOTA: A Large-scale Dataset for Object Detection in Aerial Images
    Gui-Song Xia, Xiang Bai, Jian Ding, Zhen Zhu, Serge Belongie, Jiebo Luo, Mihai Datcu, Marcello Pelillo, Liangpei Zhang
    CVPR2018
    Tetsuya Narita

    概要

    俯瞰画像から物体検出するためのデータセットを提案.従来のデータセットのものよりも小さい物体が多いデータセットである.各画像は4000×4000ピクセルであり,さまざまな大きさ,向き,形状を示す物体を含む.データセットは15カテゴリに分類されており,188282のインスタンスを含み,それぞれは任意の四角形でラベリングされている.人工衛星での物体検出の基礎構築のために,DOTA上の最先端の物体検出アルゴリズムを評価した.

    DOTA.png

    新規性・結果・なぜ通ったか?

    俯瞰画像データセット内のインスタンスは小さいものの割合が高く,細かいものも検出可能人工衛星による物体検出に応用が利く可能性を示唆.

    コメント・リンク集

    [#405]
    2018.5.21 18:34:11
    Illuminant Spectra-based Source Separation Using Flash Photography
    Zhuo Hui, Kalyan Sunkavalli, Sunil Hadap, and Aswin C. Sankaranarayanan
    CVPR2018
    752
    Kouyou OTSU

    概要

    フラッシュを当てた状態の写真とそうでない写真の2種類を利用して,画像を光源の違いに基づく構成画像へと自動的に分離するアルゴリズムの提案.2つの写真の色情報の違いに基づき,光源に対応するスペクトルや陰影との関係を見出す.従来手法と比較して,光の色合いや陰影を忠実に反映した低ノイズでの分離が可能であることを示した(従来手法(Hsu et.al.)でのSNR:10.13dB 提案手法でのSNR 20.43dB).また,提案手法が画像のライティングの編集,カラー測光ステレオに有用であることを示した.

    Item3Image

    新規性・結果・なぜ通ったか?

    • 光源分離にカメラのフラッシュを利用(手軽)
    • 従来手法を上回る性能.

    リンク集

    [#406]
    2018.5.21 20:53:52
    Multi-Label Zero-Shot Learning with Structured Knowledge Graphs
    Chung-Wei Lee, Wei Fang, Chih-Kuan Yeh, Yu-Chiang Frank Wang
    CVPR 2018
    Shusuke Shigenaka

    概要

    この論文は,各々の入力インスタンスに対して,複数の見えないクラスラベルを予測できるmulti-label learning及びmulti-label zero-shot learning(ML-ZSL)の新しい深層学習の提案した研究. 提案手法は複数のラベル間で人間が関心を持つsemantic knowledgeをグラフの中に組み込むことにより, 情報伝播メカニズムを学習し見えているクラスと見えないクラスの間の相互依存関係をモデル化することに適用できる. 本手法はstate-of-the-artと比較して,同等または改善されたパフォーマンスとして達成をすることができる.

    171106526

    新規性・結果・なぜ通ったか?

    ・見た目だけでなく,経験を通して学んだ知識を使って物体を認識・WordNetから観察された知識グラフをend-to-endの学習フレームワークに組み込み,意味空間に電番されるラベル表現と情報を学習 ・NUS-81およびMS-COCOの結果をWSABIE,WARP,Fast0Tag,Logisticsと比べたところ精度について一番高い結果を残した. ・ML-ZSLについてもFast0Tagと比べて高い精度を残している.

    リンク集

    [#407]
    2018.5.22 14:28:22
    Nonlinear 3D Face Morphable Model
    Luan Tran, Xiaoming Liu
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    generatorとdiscriminatorを一つのモデルで表現するIntrospective Neural Network(INN)に対してwasserstein distanceを導入することで、INNと同等の生成能力・識別能力を保ちつつclassifierにおけるCNNの数を20分の1にしたWasserstein INN(WINN)を提案。 生成された画像の比較はDCGAN、INN for generative(INNg)、INNgのclassifierにおけるCNNを一つにしたINNg-singleと行った。 またadversarial exampleに対して頑健な識別精度を達成した。

    新規性・結果・なぜ通ったか?

    • INNにwasserstein distanceを導入することで、生成・識別においてINNと同等以上の性能を持ちながら識別器におけるCNNの数が20分の1であるIWNNを提案。
    • テクスチャの生成やCelebA・SVHNを学習することで生成された画像はDCGANと比べてはっきりとしており質が高い。
    • CIFAR-10の学習によって生成された画像におけるInception scoreはDCGANの方が良い結果となった。
    • CNN、ReosNet、ICNと比較して、adversarial exampleに対する誤識別率が低く、 adversarial examples に惑わされずに識別を行うことが可能。
    [#408]
    Nonlinear 3D Face Morphable Model
    Luan Tran, Xiaoming Liu
    CVPR 2018 Spotlight
    Kazuki Inoue

    概要

    3Dスキャンデータを使用せずにin-the-wildな顔画像のみを用いてencoder-decoderによって3D Morphable Model(3DMM)を生成する手法を提案。生成された3DMMを nolinear 3DMMと呼んでいる。 従来のlinear 3DMMは学習のために3Dスキャンデータが必要であり、かつPCAによって次元削減を行うため表現力に乏しいという問題点があった。 提案手法ではencoderによってプロジェクション、シェイプ、テクスチャのパラメタを取得し、decoderによってシェイプ、テクスチャを推定する。 また初期の学習では既存手法によって得られる3DMMのプロジェクションパラメタ、 シェイプパラメタとUV空間から得られるテクスチャを擬似的なGTとすることで弱教師学習を行う。

    新規性・結果・なぜ通ったか?

    • 3Dスキャンデータを使用せずに、in-the-wildな顔画像のみを学習させることで、入力画像から3D Morphalbe Modelを生成する。
    • linear 3DMMと比較して、3次元形状、テクスチャの精度が高い。また見た目もGTにより近い。
    • 顔のアラインメントにおいてstate-of-the-artよりも高い精度を達成。
    • 3次元形状における精度はstate-of-the-artと同等であった。

    コメント・リンク集

  • 弱教師学習がどれほど影響を持つかが気になった。
  • [#409]
    UV-GAN: Adversarial Facial UV Map Completion for Pose-invariant Face Recognition
    Jiankang Deng, Shiyang Cheng, Niannan Xue, Yuxiang Zhou, Stefanos Zafeiriou
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    in-the-wildな入力顔画像から得られるUVマップの補完をU-Netで行う手法を提案。入力画像に対して3D Morphalbe Modelを適用し不完全なUVマップを取得し、U-Netで補完を行うように学習を行う。 discriminatorにはUVマップ全体と顔領域の判定をさせる。 またUVマップの個人性が失われないように、アイデンティティーに関するロスを取る。 1892人のUVマップをもつWildUVデータセットの構築も行った。

    新規性・結果・なぜ通ったか?

    • in-the-wildな顔画像に対してもリアルかつ精度の高いUVマップの補完を達成。入力されるUVマップが50%欠けていても補完可能。
    • 入力画像からUVマップと3D shapeを取得するため、入力画像を任意の顔向きに編集可能。
    • 横向き顔画像から生成されたUVマップはPSNR, SSIMにおいて既存手法を上回る精度を達成。
    • frontal-profile face verificationにおいてstate-of-the-artを上回る94.05%を達成。
    • 1892のアイデンティティーのUVマップをもつ大規模UVマップデータセットであるWildUVデータセットを公開(予定)。

    コメント・リンク集

    [#410]
    LIME: Live Intrinsic Material Estimation
    A. Meka, M. Maximov, M. Zollhöfer, A. Chatterjee, H.P. Seidel, C. Richardt and Ch. Theobalt
    CVPR2018
    Ryota Suzuki

    概要

    単RGB画像で,リアルタイムに材質反射特性を推定する手法を提案し,デモシステムを作った.

    構造は,主に複数のU-Netからなり,それぞれ前景セグメンテーション,スペキュラー推定,鏡面反射推定を行う.ロス関数も定義.

    さらに,形状情報も使えるのなら,低・高周波光源情報の推定も可能.連続撮影時の光源情報の連続性を考慮した時系列統合の枠組みも提案.

    Figure1

    新規性・結果・なぜ通ったか?

    • 実用的なシチュエーション(リアルタイム,複雑な光源下,連続撮影)で利用可能であることを示している.
    • 定性,定量評価を行い,性能の良さを示している.

    コメント・リンク集

    デモビデオを作り慣れているように見えるあたり,CG勢と思われる.デモも結構評価されているだろうか. アプリケーション枠で評価されるように書いているかもしれない.

    [#411]
    2018.5.21 21:08:44
    Fast End-to-End Trainable Guided Filter
    H. Wu, S. Zheng, J. Zhang, K. Huang
    CVPR2018
    Ryota Suzuki

    概要

    低解像度+高解像ガイダンスマップを与えると,高解像度画像を効率的(省計算時間,省メモリ)に出力できるGuided Filtering Layerなるものを提案.

    GuidedFilterは, 空間的に変化する線形変換行列のグループとして表現でき, CNNに統合可能.つまり,end-to-endで最適化可能な 深層ガイデッドフィルタネットワークを構成できる.

    Figure1

    新規性・結果・なぜ通ったか?

    • Context Aggregation NetworkにGuided Filtering Layerを載せたものを、5つの先進的な画像処理タスクで試したところ,10~100倍高速であり,SoTA性能も出た.

    コメント・リンク集

    かなり省コストになっている.DNN導入可能にするように(エレガントに)定式化し,コストダウンしつつ深層学習できるようにする手法がいくつか見られている.

    [#412]
    2018.5.21 20:01:20
    Guide Me: Interacting with Deep Networks
    Christian Rupprecht, Iro Laina, Nassir Navab, Gregory D. Hager and Federico Tombari
    CVPR 2018

    概要

    CNNにより学習したタスクの出力結果に対して、人間がヒント(例:画像中に空は見えない)を与えていくことで精度向上を図る研究。CNNモデルをheadとtailの2つのパートに分割し、headから得られた特徴マップをヒントによって修正していくことで精度の向上を実現する。 その際、ネットワークの重みを更新するのではなく修正に用いるパラメータを言語情報から推測することで行う。 ネットワークの予測結果とground truthの差分を取り、正しく予測できていない物体の種類や位置を推定することで学習に用いる文章は自動で生成する。

    Item3Image

    新規性・結果・なぜ通ったか?

    セマンティックセグメンテーションにより実験を実施したところ、クラス間違い、物体の一部が欠けている、物体の一部のみが見えるといったケースにおいて精度が向上することを確認した。ヒントを繰り返し与えていくことはノイズとなってしまうためあまり精度が向上しなかった。 従来のディープラーニングは一度学習をしてしまうと得られる出力が固定されてしまうのに対して、人間が介入することで結果を変えるという新しい応用方法を提案している。

    コメント・リンク集

    [#413]
    2018.5.21 16:15:43
    Face Detector Adaptation without Negative Transfer or Catastrophic Forgetting
    Muhammad Abdullah Jamal, Haoxiang Li, Boqing Gong
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    顔検出におけるターゲットドメインからソースドメインへのadaptationを、negative transferとcatastrophic forgettingの両方を引き起こさずに行う手法を提案。negative transferとはターゲットドメインに対する検出精度がadaptation後よりも前の方が良い場合を指しし、catastorophic forgettingとはadaption後におけるソースドメインの検出精度が著しく下がることを指す。提案手法では、ソースドメインとターゲットドメインの違いを、ロス関数とDNNの重みの差分で表現し、この差分がなくなるように学習を行う手法を提案。またターゲットドメインにface or notのラベルがないという状況も考えて教師あり学習だけでなく教師なし学習、半教師あり学習の結果についても議論を行った。

    新規性・結果・なぜ通ったか?

    • ソースドメインとターゲットドメインの違いを、DNNのロス関数・重みの差分で表現することでadaptationを行った。
    • 実験は、CascadeCNN+AFLW(25000 faces), Faster-R CNN+WIDER FACE dataset(393,703 faces, highly labeled)の2つのモデルでソースドメインの学習を行い、ターゲットドメインははFDDB(5171 labeled faces)、COFWで行った。
    • 検出結果はターゲットドメインのみを学習した検出器、ソースドメインからターゲットドメインへfine tuningされた検出器、domain adaptaionを行うstate-of-the-artと比較を行った。提案手法はターゲットドメインにおける検出においてもっとも高い精度を達成。 またソースドメインにおける検出においてもターゲットドメインのみを学習した識別器と同等の精度を達成。

    コメント・リンク集

    • adaptationというより、もはやトレーニングデータセットの事後拡張となっており、後でトレーニングデータを追加したくなった時に有用なのではないだろうか。
    • 論文
    • Supplementary
    [#414]
    Extreme 3D Face Reconstruction: Looking Past Occlusions
    Anh Tuấn Trần, Tal Hassner, Iacopo Masi, Eran Paz, Yuval Nirkin, Gérard Medioni
    CVPR 2018 Poster
    Kazuki Inoue

    概要s

    入力顔画像からバンプマップや視点を推定することで、入力画像からは見えていない側面や、強いオクルージョンがある顔画像からも精度の高い三次元形状を取得する手法を提案。 入力画像から帯域的な情報として三次元の大まかな形と、 局所的な情報としてしわなどのディティールを表現するバンプマップを別々のDNNモデルを使って取得する。 続いてオクルージョンがある場合には、バンプマップが不自然な起伏を持つため深層学習による修正を行う。 最後に顔の対称性を利用して、入力画像からは見えていない側面などをルールベースで復元する。

    新規性・結果・なぜ通ったか?

    • 入力画像から3Dモデル全体を一気に復元するのではなく、帯域的な特徴と局所的な情報を分けて取り扱うことで精度の高い三次元復元を可能にした。
    • 結果の評価は復元された三次元形状による個人認証の精度で行っている。画像にオクルージョンがない場合にはstate-of-the-artよりも高い精度を達成。オクルージョンがある場合でも、オクルージョンがない場合よりと比べて2%ほどしか劣らなかった。(state-of-the-artはそもそもオクルージョンを考慮できない。)
    • 復元された三次元形状は、既存手法がオクルージョンを考慮することができなかったりシワなどの復元ができていないのに対して、提案手法ではオクルージョンがある場合でもシワなどの詳細な情報を復元できている。

    コメント・リンク集

    • 帯域的な顔形状の復元やバンプマップの修正などを既存手法に頼っているものの、復元された三次元形状は既存手法に比べて圧倒的なクオリティを持つ。 しかし形状自体のGTとの比較がなかったのが残念。
    • 論文
    • GitHub
    [#415]
    InverseFaceNet: Deep Monocular Inverse Face Rendering
    Hyeongwoo Kim, Michael Zollhöfer, Ayush Tewari, Justus Thies, Christian Richardt, Christian Theobalt
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    実世界の3D顔モデルを使用せず合成された3DモデルのみでCNNをトレーニングすることで、実世界の顔画像から顔向き、形、表情、リフレクタンス、イルミネーションの3D復元を行う手法を提案。 CNNをトレーニング際の問題点として、実世界の3D顔モデルに対するアノテーションが足りないという問題があった。 これに対して、実世界の顔画像から推定されるパラメタと合成顔から推定されるパラメタに対してself-supervised bootstrappingを行うことで、 トレーニングに使用する合成顔3Dモデルのパラメタの分布を実世界のパラメタの分布に近づくようにトレーニングデータを逐次的に更新を行うことで、 CNNの学習を行った。

    新規性・結果・なぜ通ったか?

    • self-supervised bootstrappingを使用することで、実世界のパラメータを再現するように合成顔のデータセットを再構築することで、データセットがないという問題に取り組んだ。
    • 既存の学習ベースの手法に比べて、ジオメトリーにおいて最も高い精度を達成。
    • 最適化ベースの手法に比べると、パーツのディティールやシワの再現の精度が悪い。
    • リミテーションとして、データセットにない顔向きや髪によるオクルージョンを考量することができない。

    コメント・リンク集

    • 異なるドメインを使ったトレーニングの方法として、GANを使ってcross domainの分布を近づける方法が提案されているなど、トレーニングデータ不足を解決する方法が提案されてきている。
    • 論文
    • Supplementary
    [#416]
    Towards Pose Invariant Face Recognition in the Wild
    Jian Zhao, Yu Cheng, Yan Xu, Lin Xiong, Jianshu Li, Fang Zhao
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    様々な照明環境、表情をした横向き顔画像を入力として、正面顔画像を生成することで高い個人認証率を達成するGANベースのPose Invariant Model(PIM)というネットワークを提案。 学習で使用できるトレーニングデータが少ないため、効率的かつ過学習を防ぐために以下のようにPIMを構築。

  • 顔全体を生成するgeneratorと両目・鼻・口の4つのパーツを生成するgeneratorを用意。
  • 4つのパーツが検出された画像と取得できない画像(横顔画像など)を異なるドメインの画像とみなして、cross-domain adversarial trainingを行うことで、両目・鼻・口を復元。
  • 上記のGANを2セット用意し、discriminator同士でlearning to learnを行うことで効率的な学習を行った。
  • 新規性・結果・なぜ通ったか?

    • 2つのGANをもつTP-GANやDR-GANは最適化が困難で合ったが、これに対してlearning-to-learnを導入することでこの問題を解決。
    • MultiPIE、CFPデータセットにおいて様々な角度の顔画像に対する個人識別においてほぼ全てのケースにおいてstate-of-the-artよりも優れた精度を達成。(唯一Multi-PIEで顔向きが±30°の場合にTP-GANに劣った。)
    • 横向き顔画像から生成される正面顔画像において、既存手法ではテクスチャが崩れていたり完全に正面を向いていない場合があったが、提案手法では見た目が良い正面顔画像を生成。

    コメント・リンク集

    • データセットが少ないという根本的な問題に対して、cross-domain adversarial training、learing to learnを行うことで解決しているが、これがデータベースが欠乏している他の問題設定でも解決できるのかを試してみたい。
    • 論文
    [#417]
    Ring loss: Convex Feature Normalization for Face Recognition
    Yutong Zheng, Dipan K. Pal and Marios Savvides
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    DNNによって得られた特徴量を超球面上に配置するように正規化を行うロス関数であるRing lossを提案。特に教師あり識別問題においてはDNNによる特徴量を正規化することでより精度の高いモデルを構築することができる、 というアイディアもとにRing lossを提案。 SoftMaxといった基本的なロス関数と組み合わせることでより高い精度を達成。 実験には様々な識別タスクを行うことができる顔データセットを用いることで、精度の向上を確認した。

    新規性・結果・なぜ通ったか?

    • SoftMaxとSphereFaceにRing lossを組み合わせることでLFW, IJB-A Janus, Janus CS3, CFP, MegaFaceデータセットにおけるface verification, identificationにおいて他のロス関数と同等あるいはそれ以上の精度を達成。
    • 極端に低解像度の画像におけるface matchingにおいてベースラインの手法を凌駕した。
    • 実験ではResNet64を使用。

    コメント・リンク集

    [#418]
    Label Denoising Adversarial Network (LDAN) for Inverse Lighting of Face Images
    Hao Zhou, Jin Sun, Yaser Yacoob, David W. Jacobs
    CVPR 2018 Spotlight
    Kazuki Inoue

    概要

    3Dモデルから実画像へのドメイン変換をGANによって行うことで、単一顔画像から照明パラメタを推定するLabel Denoising Adversarial Network(LDAN)を提案。 人の顔画像に対して照明パラメタ(論文で使用されているのは37次元の球面調和関数)がアノテーションされたデータセットがないため、 3Dモデルを使用してFeature Netと呼ばれるネットワークで中間特徴量を取得し、 中間特徴量からLightning Netを用いて照明パラメタの推定を学習。 続いて人の顔画像に対して、既存手法を用いてノイズが乗った照明パラメタを取得し、 人の顔画像に対してもFeature Netを新しく学習し、 3D モデルから得られた中間特徴量と共にGANに入力することでドメインの変換を行うことでノイズが除去された照明パラメタを取得。

    新規性・結果・なぜ通ったか?

    • 単一画像からの照明パラメタの推定という問題に対して、初めて学習ベースの手法を提案。
    • 結果の比較は19の照明環境が用意されているMultiPieデータセットで行い、推定されたパラメータに対する識別を行うことで精度を評価。state-of-the-artに比べて識別精度およびユークリッド距離・Q値におけるAUCで最も高い精度を達成。
    • 同問題を扱う既存手法が最適化ベースということもあり、既存手法と比べて10万倍のスピードで実行可能。

    コメント・リンク集

    • GANを使って異なるドメインの特徴量を同じ空間にマップする考え方は既にAdversarial Discriminative Domain Adaptationによって提案されているが、異なる点としては[Eric et al.]はGANのロスしか使っていないが、この方法では写像がうまく行かず、 A→A', B→Bと学習して欲しいところをやA→B', B→A'といった写像を学習してしまう。 これを解消するために、lightning netで得られたパラメータに対するL2ロスを取ることでこれを解消。
    • 論文
    [#419]
    Disentangling 3D Pose in A Dendritic CNN for Unconstrained 2D Face Alignment
    Amit Kumar, Rama Chellappa
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    顔向きをコンディションとして与え木構造で表された顔のランドマークを学習させることで、顔のランドマーク推定を行うPose Conditioned Dendritic CNN(PCD-CNN)を提案。 顔のコンディションはPoseNetにより出力された値を使用する。 顔のランドマークを木構造として与えることで、ランドマークの位置関係を利用してCNNを学習させた。 また提案ネットワークはPCD-CNNと通常のCNNの二段階になっており、 後段のCNNをファインチューニングすることでランドマークのポイント数が違うデータセットや顔向き推定などの他のタスクにも適用可能。

    新規性・結果・なぜ通ったか?

    • ネットワークをPCD-CNNとCNNの二段階で構成することで、異なるランドマークのポイント数や顔向き推定といった他のタスクにも適用可能。
    • 顔向きをコンディションとして与えることで推定精度が向上。また、20FPSで実行が可能。 
    • AFLW, AFWデータセットにおいてランドマークの推定精度がstate-of-the-artよりも高い推定精度を達成。

    コメント・リンク集

    [#420]
    Multi-Image Semantic Matching by Mining Consistent Features
    Qianqian Wang, Xiaowei Zhou and Kostas Daniilidis
    CVPR2018
    Kazuho Kito

    概要

    ノイズを考慮しつつ、数千もの画像セット全てにおいて一致する(信頼できる)特徴を見出すことで、画像間の対応を図るマッチング手法。マッチングはセマンティック性を考慮することができる(目と目、耳先と耳先など)これにより、一貫性がある画像セット内で信頼できる特徴の関係を確立。何千もの画像を処理する場合にスケーラブルな手法。つまりは数に頑健。

    Multi-Image_Semantic_Matching_by_Mining_Consistent_Features.PNG

    新規性・結果・なぜ通ったか?

    従来手法では、全てのペアで対応する関係を最適化していたが、本手法では、特徴の選択とラベリングに着目し、信頼度の高い特徴のみを用いた疎なセットのみで識別、マッチングする。

    コメント・リンク集

    図は中の左が出力結果であり、目は青、耳は黄色、鼻は赤など各特長の意味を理解し、マッチングを成功させている。

    [#421]
    2018.5.21 11:27:27
    Learning Intrinsic Image Decomposition from Watching the World
    A. Uthors, B. Uthors and C. Uthors
    CVPR2018

    概要

    Intrinsic Image Decompositionのために,時間経過とともに照明が変化するビデオを使ったCNNの学習方法を提案.正解の Intrinsic Imageが不要な点が強みである.学習が完了したモデルは単一画像に対して適用できるよう汎化しており,いくつかのベンチマークに対して良い結果となった.
    Contribution:
    ・データセット(BigTime)の公開.室内,室外両方での照明変化のあるビデオと画像シーケンスのデータセット.
    ・このGround Truthを含まないデータを使った手法の提案.

    Image
    学習時:ラベル無しで,視点が固定され照明が変化するビデオを学習に利用する.
    テスト時:単一画像からintrinsic image decompositionを行う.

    手法

    最適化ベースのIntrinsic Decomposition手法と,機械学習手法の間に位置する手法と言える.
    ・U-netに似た構造のCNN.
    ・Lossの工夫:画像ペア全てを考慮するall-pairs weighted least squares lossとシーケンス全体のピクセル全てを考慮するdense, spatio-temporal smoothness loss.最適化ベースのlossをフィードフォワードネットワークのlossとして利用する.

    コメント・リンク集

    Intrinsic image decompositionとは,入力された1枚の画像をreflectance画像とshading画像の積に分解する問題のこと.
    intrinsic imagesのGround Truthを大規模に揃えることは困難.

    [#422]
    2018.5.21 11:26:41
    Photographic Text-to-Image Synthesis with a Hierarchically-nested Adversarial Network
    Zizhao Zhang, Yuanpu Xie, Lin Yang
    CVPR2018

    概要

    階層的入れ子構造の識別器を使用し,テキストから高解像画像を生成するGANを提案.end-to-endの学習で高解像画像の統計量を直接モデルリングすることが可能な手法.これは,step-by-stepで高解像画像を生成するStackGANとは異なる点である.複数のスケールの中間層に対して階層的入れ子構造の識別器を使用することで中間サイズレベルでの表現に制約を加え,生成器が真の学習データの分布を獲得しやすくする.

    Image

    手法

    新しい構造と,lossの工夫でtext-to-imageのタスクで高解像画像の生成を可能とした.
    ・hierarchical-nested Discriminatorを使用.
    ・lossには,pair lossとlocal adversarial lossを使用する.pair lossでは入力テキストと生成画像が一致しているかを評価.local adversarial lossでは生成画像の細部の質を評価する.

    コメント・リンク集

    [#423]
    2018.5.21 11:22:05
    Connecting Pixels to Privacy and Utility: Automatic Redaction of Private Information in Images
    Tribhuvanesh Orekondy, Mario Fritz, Bernt Schiele
    CVPR2018

    概要

    プライバシー保護のために画像に含まれる個人的な情報を自動的に改変する手法の提案.プライバシーを守りつつ画像の有用性を保つためのトレードオフが問題となる.有用性を保つためには改変する領域サイズが最小限である必要があり,これをセグメンテーションの問題として取り組む.

    Contribution:

    • データセットの公開.様々な種類のプライバシーのラベルが,ピクセルレベルとインスタンスレベルで与えられている自然画像の初のデータセット.
    • モデルの提案.多様な個人情報を自動的に改変するモデルを提案する.正解のアノテーションに対して83%の正解率を達成した.

    Image
    指紋,日時,人,顔,ナンバープレートを黒く塗りつぶせている.
    他にも,住所やメールアドレスのようなテキスト情報や顔や車椅子などの視覚情報,あるいはテキストと視覚情報を合わせたものなど,多様な個人情報に対応するデータセットとモデルを提案.

    手法

    どのような対象(Textual, Visual, Multimodal)を扱うかで使用するモデルは異なる.
    Textualな対象では,Sequence Labelingを使用する.
    VisualとMultimodalな対象では,Fully convolutional instance-aware semantic segmentationを使用する.
    Nearest Neighborなどのベースライン手法と比較を行なっている.

    コメント・リンク集

    画像全体を黒く塗ればプライバシーは保護されるが,画像の価値がなくなるので,トレードオフが存在する.
    データセットを作った貢献がメイン.プライバシー保護のためのアノテーションを行ったことで,それなりの正解率で個人情報の改変を行えるようになった.

    [#424]
    2018.5.21 11:17:12
    Disentangling Structure and Aesthetics for Style-aware Image Completion
    Andrew Gilbert, John Collomosse, Hailin Jin, and Brian Price
    CVPR2018

    概要

    ノンパラメトリックのInapinting手法を提案.
    視覚的な構造とスタイルをdeep embeddingすることで,パッチの検索と選択の際に視覚的なスタイルを考慮することが可能で,さらに,パッチのコンテンツを補完画像のスタイルに合わせるためのneural stylizationが可能となる.この手法は,patch-basedの手法とgenerativeベースの手法の架け橋的な補完手法である.
    技術的貢献:
    ・style-aware optimization
    ・adaptive stylization

    Image

    手法

    以下の手順で画像補完を行う.
    1.スタイルを考慮して穴に埋める候補を検索する
    2.補完画像と構造とスタイルが合うパッチをMRFで複数集め,選択する
    3.選択されたパッチを補完画像のスタイルに変換する

    コメント・リンク集

    [#425]
    2018.5.21 11:09:50
    DeblurGAN: Blind Motion Deblurring Using Conditional Adversarial Networks
    Orest Kupyn, Volodymyr Budzan, Mykola Mykhailych, Dmytro Mishkin, Jiˇri Matas
    CVPR2018

    概要

    motion deblurringのためのGAN(DeblurGAN)を提案.structural similarity measureとアピアランスでSoTA.ブラーを除去した画像で物体検出の精度を出すことで,ブラー除去モデルの質を評価するという方法を提案.提案手法は,質だけでなく実行速度も優れており,従来手法の5倍の速さがある.モーションブラーのかかった画像を合成するための方法を紹介し,そのデータセットもコード,モデルとともに公開.

    Image
    ブレを除去してからYOLOで検出すると精度が良くなることを示している.これをDeblurモデルの指標にすることができると主張.

    手法

    • loss:WGANによるAdversarial lossとPerceptual loss
    • 構造:畳み込み,instance normalization層,ReLU関数から成るResBlockの繰り返しがメインで,出力するときに入力画像を加算するglobal skip connectionを持つ.

    コメント・リンク集

    最近のGAN手法やテクニックを詰め込んで,新しく作ったデータセットを利用したらSoTAがでたという感じ.テクニカルな貢献はあまりなさそう.

    [#426]
    2018.5.21 11:05:29
    Learning to Understand Image Blur
    Shanghang Zhang, Xiaohui Shen, Zhe Lin, Radom ́ır Meˇch, Joa ̃o P. Costeira, Jose ́ M. F. Moura
    CVPR2018

    概要

    ボケ(blur)が望ましいのか否かと,そのボケが写真のクオリティーにどのような影響を与えているのかを,自動的に理解するアルゴリズムは少ない.この論文では,blur mapの推定とこのボケの望ましさの分類を同時に行うフレームワークを提案する.

    貢献:

    • ボケを検出することと,画像の質という点でボケを理解することを同時に行うのは,おそらく初めての研究.ABC-FuseNetというネットワークを提案.
    • 1万枚のデータセット(SmartBlur)の公開.ピクセルごとにボケがかかっているか3段階でラベルづけ.さらに,画像ごとにボケの望ましさ(desirability)をラベルづけ.
    • SmartBlurと他の公開データセットで実験を行い.blur mapの推定とボケの望ましさの分類がSoTAを超えた.

    Item3Image
    ボケ具合をピクセルごとに3段階で示し,ボケの望ましさも出力する.

    手法

    ABC-FuseNetでは,低レベルのボケの推定と高レベルの画像内で重要コンテンツの理解の二つを行う.
    A: attention map,FCNである.
    B: blur map,Dilated Convolutionとpyramid pooling, Boundary Refinement用の層を使ってblurの推定を行う.
    C: content feature map,ResNet-50を使ってコンテンツの特徴を抽出.
    ボケの推定はBによって行い,ボケの望ましさの分類はA, B, Cから得られた特徴を用いて行う.ネットワーク全体をEnd-to-endで学習することができる.

    コメント・リンク集

    ボケを軽減するための研究は多いが,ボケが全て邪魔とは言えない.ボケを効果的に利用することで,写真の印象が良くなることもある.いいボケなのか,悪いボケなのかの判断も必要だというモチベーションがある.

    コード,データセットは以下に公開予定

    [#427]
    2018.5.21 10:50:21
    Tags2Parts: Discovering Semantic Regions from Shape Tags
    Sanjeev Muralikrishnan, Vladimir G. Kim, Siddhartha Chaudhuri
    CVPR2018

    概要

    指定された形状のタグに強く関係する領域を検出する手法の提案.明示的に領域ごとのラベリングはなく,さらにあらかじめセグメンテーションされていない状況で,形状のタグを与えた時に領域を発見するという問題設定.難しい点は,オブジェクトのタグという弱い教師情報からポイントごとのラベルを細かく出力する必要があること.このために分類とセグメンテーションを同時に行うネットワークを使う.形状ごとのタグからポイントごとの予測を得るためのネットワーク構造(WU-net)を提案したことがメインの貢献.

    学習が完了すれば,タグが不明な形状に対しても手法を適用することができる.また,元々Weakly-supervised用に提案しているが,strongly-supervised用としても利用できる手法となった.

    Item3Image

    手法

    U-net風のWU-netを提案.U-netから修正した点は,
    ・浅いU型の構造を3回くりかし,skip-connectionで密に繋がっている.深いU型1回の場合との結果の違いを図示している.
    ・セグメンテーションの用の隠れ層にタグ分類用の層を追加.(元々のは,strongly-supervised セグメンテーション用に設計されているので.)

    コメント・リンク集

    3D形状としてはボクセル表現を使用.64×64×64 cubical gridを入力する.

    [#428]
    2018.5.21 10:40:57
    Neural 3D Mesh Renderer
    Hiroharu Kato, Yoshitaka Ushiku, and Tatsuya Harada
    CVPR2018

    概要

    ニューラルネットワークに組み込むことができる3Dメッシュのレンダラーである Neural Renderer を提案。レンダリングの『逆伝播』と呼ばれる処理をニューラルネットワークに適した形に定義し直した.そしてこのレンダラーを
    ・一枚の画像からの3Dメッシュの再構成(ボクセルベースの再構成との比較あり)
    ・画像から3Dへのスタイル転移と3D版ディープドリーム
    に応用できることを示した.

    Image
    2D-to-3Dスタイルトランスファーの例

    方法

    従来のままでレンダリングの操作が処理の途中にあると逆伝播が行えない状態であるので,レンダリングのための勾配を定義することでニューラルネットワークの中にレンダリング操作を加えても学習を行えるようにした.

    コメント・リンク集

    • プロジェクトサイト
    • GitHub
    • 3Dの形式には様々ある(ポイントクラウド,ボクセル,メッシュなど)が,3Dメッシュは効率的で表現能力が高く直感的な形式だそう.
    [#429]
    2018.5.21 10:28:19
    Demo2Vec: Reasoning Object Affordances from Online Videos
    Kuan Fang, Te-Lin Wu, Daniel Yang, Silvio Savarese and Joseph J. Lim
    CVPR2018
    1387
    KazuhoKito

    概要

    商品などのデモンストレーションの映像の特徴を通してその商品などのアフォーダンスを推論する研究.映像から埋め込みベクトルを抜き出すことで,ヒートマップと行動のラベルとして特定のもののアフォーダンスを予測するDemo2Vecモデルを提案.また,YouTubeの製品レビュー動画を集め,ラベリングすることでOnline Product Review detaset for Affordande(OPRA)を構築.

    Demo2Vec_Reasoning_Object_Affordances_from_Online_Videos.PNG

    新規性・結果・なぜ通ったか?

    アフォーダンスのヒートマップと行動のラベルの予測に関し,RNNの基準よりよいパフォーマンスを達成

    コメント・リンク集

    YouTubeで公開されている動画では,Demo2Vecを用いてある物体のデモ動画からSawyer robotのEnd Effectorを予測したヒートマップの地点に移動するように制御させている様子を見ることができる.

    [#430]
    2018.5.20 22:42:02
    Probabilistic Plant Modeling via Multi-View Image-to-Image Translation
    Takahiro Isokane, Fumio Okura, Ayaka Ide, Yasuyuki Matsushita, Yasushi Yagi
    CVPR 2018
    368
    Goshi Sasaki

    概要

    葉に隠れていても3次元の枝構造を多視点画像から推測できるようにした。多視点からの植物画像を入力として枝構造の2次元確率マップをdropoutを取り入れたPix2Pixで推測して、それらから3次元の確率構造を作成した。最後にpartical flowシュミレーションによって明確な3次元の枝構造を生成した。

    architecture

    新規性・結果・なぜ通ったか?

    葉や他の枝によって隠れてしまっていても枝構造を生成できるようにした。ベイジアンPix2Pixを利用することで植物の3次元構造をより正確に表せるようにした。

    コメント・リンク集

    [#431]
    2018.5.20 20:53:44
    ROAD: Reality Oriented Adaptation for Semantic Segmentation of Urban Scenes
    Yuhua Chen, Wen Li, Luc Van Gool
    CVPR2018
    Hiroaki Aizawa

    概要

    synthetic-to-realな変換を行う際に、1)モデルがsyntheticにoverfitするstyleの側面と、2)syntheticとrealの分布の違いの側面から発生する2つの問題があることに著者らは着目している。解決するために、前者はtarget guided distillation、後者はspatial-aware adaptationという手法を提案し、それを組み合わせた Reality Oriented ADaptation Network(ROAD-Net)を考案。GTAV/SYNTHIA - Cityscapesの適合タスクで評価し、sotaのsemantic segmentationモデルの汎化性能を向上したことを確認。

    ROAD_Reality_Oriented_Adaptation_for_Semantic_Segmentation_of_Urban_Scenes.PNG

    新規性・結果・なぜ通ったか?

    • Semantic SegmentationへのDomain Adaptationの適用が新しい。
    • 結果もまたNonAdaptなPSPNetからmIoUが約11.6%向上している。

    コメント・リンク集

    • Learning to Adapt Structured Output Space for Semantic Segmentationと目的と対象が似通っている。どちらもクラス分類で得られる特徴(ImageNetで学習されたpretrain model)がsegmentationでは有効ではないという主張であり、これをもとにそれぞれmulti-scaleな手法と、distillationによる手法と異なるアプローチをとっているのが興味深い。
    • spatial-aware adaptationはPatchGANと似通っており同様の性質を持つ?
    [#432]
    2018.5.20 19:20:29
    Gated Fusion Network for Single Image Dehazing
    Wenqi Ren Lin Ma, Jiawei Zhang, Jinshan Pan, Xiaochun Cao, Wei Liu, Ming-Hsuan Yang
    CVPR2018
    404
    Kazuma Asano

    概要

    霧がかかった画像(hazy input)から更に3つの入力,White balanced input,Contrast enhanced input,Gamma corrected inputを計算して導出し,これらの異なる入力間の外観差に基づきピクセル単位のConfidence Mapを計算する.これらを学習することで鮮明な画像を生成するMulti-scale Gated Fusion Network(GFN)を開発した.

    Item3ImageItem3Image

    新規性・結果・なぜ通ったか?

    従来手法と比較し,実装や再現が容易であり,また出力結果もPSNR,SSIMともに従来手法より高い評価となっている.

    コメント・リンク集

    [#433]
    2018.5.14 12:31:27
    AdaDepth: Unsupervised Content Congruent Adaptation for Depth Estimation
    J.Nath, K.Phani, K.Uppala, A.Pahuja and R.V.Babu
    CVPR2018
    arXiv:1803.01599
    KotaYoshida

    概要

    教師あり深層学習による手法は単眼カメラ画像における深さ推定に対して良い結果を出している.しかし.grand truthを得るためにはノイズに影響され,コストもかかる.合成データセットを用いた場合の深度推定では固有のドメインにしか対応していなく,自然なシーンに対して対応するのが難しいと言われる.この問題に対応するため,Adversalな学習と対応したターゲットの明確な一貫性をかすこと事によりAdaDepthを提案.

    画像

    新規性・結果・なぜ通ったか?

    • 高次元の構造化エンコーダ表現に作用する,教師なしの敵対的適応設定AdaDepthを提案.
    • 新規の特徴を再構成する正則化フレームワークを使用して適応表現にコンテンツ一貫性を課すことでモード崩壊の問題に取り組んだ.
    • 最小限の教師データでの自然シーンの深度推定タスクにおいてSoTAを達成.

    コメント・リンク集

    [#434]
    2018.5.20 15:52:52
    End-to-end learning of keypoint detector and descriptor for pose invariant 3D matching
    Georgios Georgakis, Srikrishna Karanam,Ziyan Wu,Jan Ernst,Jana Kosecka
    CVPR 2018
    227
    Goshi Sasaki

    概要

    End-to-Endで3次元空間における特徴点の抽出とマッチングを行う手法を提案した。2つの距離画像を入力とし、VGG-16 を利用したFaster R-CNNを基本構造としている。 2つの距離画像からそれぞれVGG−16を利用して特徴マップを作成し、RPNにより領域候補を推定して、ROIプーリング層、全結合層を経て特徴量ベクトルを作り出す。最終的にcontrastive lossを利用して得られた特徴量間の対応関係を求めた。

    architecture

    新規性・結果・なぜ通ったか?

    初めてEnd-to-Endで3次元マッチングを行えるようにした。ノイズ環境下においてキーポイントマッチングで従来手法のHarris3D +FPFHなどよりも10%以上高い精度を出した。

    コメント・リンク集

    [#435]
    AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks
    Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, Xiaodong He
    CVPR2018

    概要

    アテンションドリブン,複数ステージでのRefineによって,テキストから詳細な画像を生成するGANを提案.CUBデータセットとCOCOデータセットでinception scoreがstate of the artを超えた.生成画像の特定の位置をワードレベルで条件付けしていることを示した.

    貢献:
    ・Attentional Generative Adversarial NetworkとDeep Attentional Multimodal Similarity Model(DAMSM)の提案.
    ・実験でstate-of-the-art GAN modelsを超えたことを示す.
    ・ワードレベルで自動的に生成画像の一部をアテンションするのは初である.

    Item3Image

    手法

    ・Attentional Generative Networkはセンテンスの特徴から始めて段階的に画像を高精細にしていくネットワークで,途中にアテンションレイヤーからのワード特徴を入力して条件付けする.
    ・各解像度に対してそれぞれDiscriminatorがある.
    ・最終的な解像度になったあと,Image Encoderにて局所的な画像特徴量とし,ワード特徴量とDAMSMにて比較することで,生成画像の細部がどれくらい単語に忠実であるか評価する.

    コメント・リンク集

    ・StackGANの著者も共著にいる.
    ・アテンションにより生成箇所を局所に向けることで,COCOのような複雑なシーンでも対応できるようになっている.

    [#436]
    2018.5.19 13:50:16
    From source to target and back: Symmetric Bi-Directional Adaptive GAN
    Paolo Russo, Fabio M. Carlucci, Tatiana Tommasi and Barbara Caputo

    概要

    SBADA-GANの提案.(Symmetric Bi-Directional ADAptive Generative Adversarial Network)
    unsupervised cross domain classificationにフォーカス.
    ラベルが与えられるSourceのサンプルを利用して,最終的にはTargetの分類問題を解く.SourceのサンプルをTargetのドメインに(Image-to-Imageの)マッピングをし,同時に逆方向も行う.分類器の学習に利用するのは,Sourceサンプル,TargetをSource風にしたもの,SourceをTarget風にしてさらにSource風に戻した3種類を使う.それぞれにラベルもしくは擬似ラベルを付与して学習する.テスト時はTargetサンプルのクラスを予測したいので,Target用の分類器と,TargetサンプルをSource風にしてから入力するSource用の分類器の2つを使用する.

    Item3Image

    手法

    • セルフラベリングの使用.Source用の分類器に制約を課す
    • class consistency lossの導入.Generatorとともに利用することで両方向のドメイン変換がお互いに影響し合うようになる.安定性と質向上の効果.最終的な目標である分類問題を解くことに有効.
    • 例えばSource側のDiscriminatorは,RealサンプルとしてSource画像を使い,FakeサンプルとしてTarget画像をSource画像風にGeneratorでドメイン変換した画像を使う.
    • (問題設定的に)Source側の分類器にはクラスラベルによる学習ができる.
    • SourceとTargetの双方向のサンプル生成のための二つadversarial lossと,二つのclassification lossを同時に最小化する.

    コメント・リンク集

    [#437]
    2018.5.19 14:15:18
    Deep Photo Enhancer: Unpaired Learning for Image Enhancement from Photographs with GANs
    Yu-Sheng Chen, Yu-Ching Wang, Man-Hsin Kao, Yung-Yu Chuang
    CVPR2018

    概要

    学習ベースで画像のエンハンスメントを行う手法の提案.入力として「良い」写真のセットを使う.このセットに含まれる特色を持つように変換することが「エンハンスメント」に繋がると定義する.エンハンスメント問題をimage-to-imageの問題として扱い,提案手法は「良い」写真のセットの中で共通の特色を発見することを狙っている.普通の写真のドメインを「良い」写真のドメインに変換すれば良いとし,(CycleGANのような)2方向GANを以下の3つの工夫とともに利用する.

    Image

    Contribution

    • global featureを使ったU-netの利用.これがシーンの状況,照明条件,対象のタイプの情報を捉える.
    • WGANのためのadaptive weighting schemeを提案.収束を早める.
    • individual batch normalization layersの利用.Generatorは入力データの分布により適応するようになる.

    コメント・リンク集

    • Flickerのレタッチされた写真を利用するなどしている.
    • Adobeがプロ写真家一人一人のレタッチ方法を再現するという機能を実装するのも近いかもしれない.
    • ハイダイナミックレンジの写真にしたらエンハンスされていると思っている節がある.
    • 論文
    [#438]
    2018.5.19 13:33:54
    Imagine it for me: Generative Adversarial Approach for Zero-Shot Learning from Noisy Texts
    Yizhe Zhu, Mohamed Elhoseiny, Bingchen Liu, and Ahmed Elgammal
    CVPR2018

    概要

    Wikipediaのようにノイズの多いテキストからzero-shot learningを行うためのGAN用いる方法を提案.GANを使ってテキストが表現するオブジェクトのビジュアル的な特徴を生成する.オブジェクトのクラスごとに特徴を近い位置にembeddingできれば良い.これができれば後は教師あり手法で分類を行えることになる.
    コントリビューション:

    • zero-shot learningにおいてUnseenであるクラスのテキスト記述からvisual featureを生成することで,zero-shot learningを従来の分類問題にしてしまう.generative adversarial approach for ZSL (GAZSL) .
    • ノイズを抑制するためのFC層と埋め込み後のクラス識別性を高めるvisual pivot regularizationの提案.
    • zero-shot recognition, generalized zero-shot learning, and zero-shot retrievalという複数のタスクでstate-of-the-art手法を超えた.

    Image

    左上段がFakeデータを作るストリーム.左下段がRealデータを作るストリーム.

    手法

    Unseenクラスについてのノイズを含むテキスト記述を入力とし,このクラスのvisual featureを生成するGANを提案.テキストから生成されるvisual featureをFakeデータとし,真の画像から得られるvisual featureをRealデータとしてGANを学習.

    • テキストのembedding後,FC層で次元圧縮をし,ノイズの影響を軽減.
    • 生成された特徴のクラス間の識別性を保存するために, visual pivot regularizationを利用.Generatorの更新に利用.
    • Realデータとして真の画像からvisual feature得る際にはVGGを利用.

    コメント・リンク集

    [#439]
    2018.5.19 13:28:25
    MoCoGAN: Decomposing Motion and Content for Video Generation
    Sergey Tulyakov, Ming-Yu Liu, Xiaodong Yang, Jan Kautz
    CVPR2018

    概要

    教師不要でコンテンツとモーションという要素に分解し,ビデオを生成するGANを提案.コンテンツを固定しモーションのみ変化させることや,逆も可能.広範囲の実験を行い,量と質ともにSoTAであることを確認.人の服装とモーションの分離や,顔のアイデンティティーと表情の分離が可能であることを示している.

    Contribution:・ノイズからビデオを生成する,条件なしでのビデオ生成GANの提案. ・従来手法では不可能である,コンテンツとモーションのコントロールが可能なこと ・従来のSoTA手法との比較

    Image

    手法

    • GAN.
    • ランダムベクトルのシーケンスをビデオフレームのシーケンスにマッピングするGenerator.ランダムベクトルの一部はコンテンツ,もう一部はモーションを指定するもの.
    • コンテンツの部分空間はガウス分布でモデル化.モーションの部分空間はRNNでモデル化.
    • Generatorは一つのフレーム分をベクトルからフレームにマップする働きだけなので,モーションを決めるのは連続するベクトルを生成するRNN部分となる.
    • 1枚のフレームを入力とするDiscriminatorと連続した数フレームを入力とするDiscriminatorを使うGAN構造を新たに提案.

    コメント・リンク集

    • ビデオはコンテンツとモーションに分けられるという前提(prior)からスタート
    • arXiv
    [#440]
    2018.5.19 13:08:06
    Finding “It”: Weakly-Supervised Reference-Aware Visual Grounding in Instructional Videos
    De-An Huang, Shyamal Buch, Lucio Dery, Animesh Garg, Li Fei-Fei, Juan Carlos Niebles
    CVPR 2018

    概要

    言語的な文脈の中で指示語からそれが何であるかを特定する問題(Visual Grounding; 「それを取ってください」の「それ」を動画中から探索するなど)を扱う論文である。この問題に対してMIL(Multiple Instance Learning)を参考にした弱教師付き学習であるReference-aware MIL(RA-MIL)を用いて解決する。

    180518VisualGrounding

    新規性・結果・なぜ通ったか?

    画像に対するVisual Groundingが空間的な関係性を捉えるのに対して、Visual Groundingは時間的な関係性を捉える課題である。YouCookII/RoboWatch datasetにて処理を行った結果、弱教師付き学習であるRA-MILを適用するとVisual Groundingに対して精度向上することを明らかにした。

    コメント・リンク集

    Language and Visionの課題はすでに動画にまで及んでいる。Visual Groundingのみならず、新規問題設定を試みた論文として精読してもよいかも?それと視覚と言語のサーベイ論文は読んでみたい

    [#441]
    2018.5.18 16:30:52
    Practical Block-wise Neural Network Architecture Generation
    Zhao Zhong, Junjie Yan, Wei Wu, Jing Shao, Cheng-Lin Liu
    CVPR 2018

    概要

    ブロック単位でのアーキテクチャ生成手法であるBlockQNNを提案。Q学習(Q-Learning)を参考にして高精度なニューラルネットを探索的(ここではEpsilon-Greedy Exploration Strategyと呼称)に生成する。基本的には生成したブロックを積み上げることによりアーキテクチャを生成するが、早期棄却の枠組みも設けることで探索を効率化している。

    180517BlockQNN

    新規性・結果・なぜ通ったか?

    ブロック単位でニューラルネットのアーキテクチャを探索するBlockQNNを提案した。同枠組みはHand-craftedなアーキテクチャに近い精度を出しており(CIFAR-10のtop-1エラー率で3.54)、探索空間を削減(32GPUを3日間使用するのみ!)、さらに生成した構造はCIFARのみならずImageNetでも同様に高精度を出すことを明らかにした。ネットワーク構造の探索問題においてブロックに着目し、性能を向上させると同時に同様の枠組みを複数のデータセットにて成功させる枠組みを提案したことが、CVPRに採択された基準である。

    コメント・リンク集

    ここから数年で、practicalなGPU数(8GPUや4GPUなど)、1日以内の探索で解決するようになると予想される(し、してくれないと一般の研究者/企業が参入できない)。

    [#442]
    2018.5.17 13:12:12
    Residual Dense Network for Image Super-Resolution
    Yulun Zhang, Yapeng Tian, Yu Kong, Bineng Zhong, Yun Fu
    CVPR 2018

    概要

    低解像画像から高解像画像(SR; super-resolution image)を復元するための研究で、DenseNet(論文中の参考文献7)を参考にしたResidual Dense Networks (RDN)を提案して同課題にとりくんだ。異なる劣化特徴をとらえたモデルであること、連続的メモリ構造(Contiguous Memory Mechanism)やコネクションを効果的にするResidual Dense Blockを提案したこと、Global Feature Fusionにより各階層から総合的な特徴表現、を行い高解像画像を復元した。DenseNetで提案されているDense Blockと比較すると、提案のResidual Dense Blockは入力チャネルからもスキップコネクションが導入されているため、よりSRの問題設定に沿ったモデルになったと言える。

    180517ResidualDenseNetwork

    新規性・結果・なぜ通ったか?

    高解像画像を復元するための改善として、DenseNetを改良したRDNを提案した。Dense Blockを置き換え、より問題に特化したResidual Dense Blockを適用。実験で使用した全てのデータセット(Set5, Set14, B100, Urban100, Manga109)の全てのスケール(x2, x3, x4)にて従来手法よりも良好なAverage PSNR/SSIMを記録した。結果画像はGitHubのページなどを参照されたい。

    コメント・リンク集

    課題の肝をつかんで、従来提案されている効果的な手法を改善できるセンスを磨きたい。

    [#443]
    2018.5.17 12:47:07
    Three Dimension Human Pose Estimation in the Wild by Adversarial Learning
    Wei Yang, Wanli Ouyang, Xiaolong Wang, Jimmy Ren, Hongsheng Li, Xiaogang Wang
    CVPR 2018

    概要

    現在でもチャレンジングな課題として位置付けられる人物に対する3次元姿勢推定に関する研究で、Adversarial Learning (AL)を用いて学習を実施。問題設定としては「多量の」2次元姿勢アノテーション+「少量の」3次元姿勢アノテーションを使用することで、新規環境にて3次元姿勢推定を実行することである。本論文で提案するALではG(生成器)として、2D/3Dのデータセットからそれぞれ2D/3Dの姿勢を推定、実際のデータセットからアノテーションを参照(リアル)して、生成されたものか、データセットのアノテーションなのかを判断(D; 識別器)させることで学習する。G側の姿勢推定ではHourglassによるConv-Deconvモデルを採用、D側には3つの対象ドメイン(オリジナルDB、関節間の相対的位置、2D姿勢位置と距離情報)を入れ込んだMulti-Source Discriminatorを適用する。

    180517PoseGAN

    新規性・結果・なぜ通ったか?

    GANに端を発する敵対的学習を用いて、3次元姿勢に関するアノテーションが少ない場合でもドメイン依存をすることなく3次元姿勢推定を可能にする技術を提案した。また、もう一つの新規性としてドメインに関する事前知識を識別器に入れ込んでおくmulti-source discriminatorについても提案した。

    コメント・リンク集

    少量のラベル付きデータが用意できていれば、ドメイン関係なく推定ができるという好例である。データとアノテーションに関連するのはCG/敵対的学習/教師なし/ドメイン適応などで、これらは現在のCVにおいても重要技術。少なくともお金がないとクラウドソーシングでデータが集められないという構図を変えたいと思っている。

    [#444]
    2018.5.17 12:03:18
    Gesture Recognition: Focus on the Hands
    Pradyumna Narayana, J. Ross Beveridge, Bruce A. Draper
    CVPR 2018

    概要

    手部領域に着目してチャネルを追加することにより、ジェスチャ認識自体の精度を高めていくという取り組み。従来型のマルチチャネル(rgb, depth, flow)のネットワークでは限定的な領域を評価して特徴評価を行なっていたが、提案のFOANetでは注目領域(global, right hand, left hand)に対して分割されたチャネルの特徴を用いて特徴評価を行い識別を実施する。図に示すアーキテクチャがFOANetである。FOANetでは12のチャネルを別々に処理・統合し、統合を行うネットワークを通り抜けて識別を実施する。

    180517FOANet

    新規性・結果・なぜ通ったか?

    手部領域に着目し、よりよい特徴量として追加できないか検討した、とういアイディア自体が面白い。また、ChaLearn IsoGD datasetの精度を従来の67.71%から82.07まで引き上げたのと、同じようにNVIDIA datasetに対しても83.8%から91.28%に引き上げた。

    コメント・リンク集

    あまりメジャーに使用されているDBではないが、重要課題を見つけてアプローチする研究は今後さらに必要になってくる?一番最初に問題を解いた人ではないが、二番目に研究をして実利用まで一気に近づけられる人も重宝される。

    [#445]
    2018.5.17 11:20:46
    Direct Shape Regression Networks for End-to-End Face Alignment
    X. Miao, X. Zhen, V. Athitsos, X. Liu, C. Deng and H. Huang
    CVPR2018
    Ryota Suzuki

    概要

    顔のアライメントにおいて,Direct shape regression networkを提案.いくつかの新しい構造を組み合わせている.(1)二重Conv, (2)フーリエ特徴プーリング, (3)線形低ランク学習. 顔画像-顔形状間の高い非線形関係性(初期化への強い依存性,ランドマーク相関導出の失敗)の問題を解決する.

    Figure1

    新規性・結果・なぜ通ったか?

    • 複数の新しい構造の定義
    • いくつかのケースでSoTAを超える性能.

    コメント・リンク集

    [#446]
    2018.5.18 11:57:02
    Scale-recurrent Network for Deep Image Deblurring
    X. Tao, H. Gao, Y. Wang, X. Shen, J. Wang, J. Jia
    CVPR2018
    Ryota Suzuki

    概要

    coarse-to-filneに単画像デブラーリングする,Scale-recurrent Network (SRN-DeblurNet)を提案.

    構造的には,(1)入出力がピラミッド画像, (2)中間はUnet, (3)最終層の出力を第1層に注入(Recurrent)し,ピラミッド画像の枚数分実行.

    Figure1

    新規性・結果・なぜ通ったか?

    • シンプルでパラメータ数が少ない.
    • SoTAを超える性能.例もすごいきれいになっているように見える.

    コメント・リンク集

    見た目明らかにきれいになっていると,やはり評価したくなる.

    [#447]
    2018.5.18 11:02:11
    Convolutional Neural Networks with Alternately Updated Clique
    Yibo Yang et al.,
    CVPR 2018
    Tomoyuki Suzuki

    概要

    従来のCNNの構造では基本的に決められた方向へのみのforwardを行うのに対して、すべてのレイヤー間で結合を持つClique blockで構成されるClique Netの提案。CIFAR-10でSoTA、その他ImangeNetやSVHNでも少ないパラメータでSoTAに匹敵する精度を記録。

    Convolutional_Neural_Networks_with_Alternately_Updated_Clique.png

    手法・なぜ通ったか?

    Clique blockでは以下のような処理が行われる。

    • 畳み込み層によってすべての層を共通の特徴マップで初期化。
    • ある層に対して、他のすべての層から畳み込み結合した値で更新。これを各層に対して順次行い、すべての層で更新したら1つのStageが終了。
    • 上記を決められたStage数行う。畳み込み結合の重みはStage間で共有する。

    DenseNetの拡張に近い構造のため妥当性があり、実際に精度が出ている点が強い。

    コメント・リンク集

    [#448]
    Geometry Guided Convolutional Neural Networks for Self-Supervised Video Representation Learning
    Chuang Gan et al.,
    CVPR 2018
    Tomoyuki Suzuki

    概要

    合成画像のペア間のフローと教師ラベルのない実画像のペア間のデプスを推定することによってシーン認識、行動認識のための表現学習を行う研究。フロー推定を行ったのち、デプス推定にfine-tuningし、さらに目的となるタスクにfine-tuningする。 直感的には、低レベルな特徴が獲得されそうだが、行動認識などの高次な問題設定でも効果を発揮した。

    Geometry_Guided_Convolutional_Neural_Networks_for_Self_Supervised_Video_Representation_Learning.png

    手法・なぜ通ったか?

    多段にfine-tuningするため、初期の問題設定によって獲得した特徴が失われてしまう可能性があるので、2段目のfine-tuning時にはfine-tuning前の出力結果への蒸留を同時に行う。ImageNetのpretrainingとも行動認識において補間的な関係がある。表現学習自体での使用データが少ないのに関わらず高い精度向上が実験的に示されたことが大きなcontributionだと考えられる。

    コメント・リンク集

    特徴のforgetを防ぐ手法は、複数のタスクで学習済みモデルを作成する際に、その順番が重要となるような状況で有用だと思われる。既存手法との比較においては今回は+αのデータを利用している点はフェアではないと感じた。 また、目的のタスクへのfine-tuningの際のフレームペアの選び方などの詳細な設定が記されていなかった。主に精度評価のみで、高次なタスクでうまくいく考察が少なく、疑問もあった。

    [#449]
    Learning to Compare: Relation Network for Few-Shot Learning
    F. Sung, Y. Yang, L. Zhang, T. Xiang, P.H.S. Torr, T.M. Hospedales
    CVPR2018
    Ryota Suzuki

    概要

    メタ学習を用いたFew-shot learningの新しい枠組み,Relation Networkの提案.一度学習されれば,ネットワークのアップデートの必要なしに新しいクラスの画像分類ができるようになる.

    1エピソードにおける少数の画像の比較によって距離メトリックを学習するメタラーニングを行う.少数の新クラスの代表画像群とクエリ画像の関連性スコアの比較により,追加学習なしに新クラス画像分類が行える.

    Figure1

    新規性・結果・なぜ通ったか?

    • 再学習しなくても,データさえ用意しておけば未知のクラスも分類可能な画像分類器ができる.
    • Zero-shot learningにも拡張可能.
    • シンプルで,高速に動作し,拡張性も高い.

    コメント・リンク集

    テスト時も少数のデータを用意しておけば,という考え方はイマドキ感がある.

    [#450]
    2018.5.18 10:30:48
    MegaDepth: Learning Single-View Depth Prediction from Internet Photos
    Z.Li and N.Snavely
    CVPR2018
    arXiv:1804.00607
    KotaYoshida

    概要

    画像における深度予測はCV分野において基本的なタスクである.既存の手法は学習データによる制約が伴う.今回提案する手法では,インターネットの画像をデータセットとするMVSの手法を改良し,既存の3D reconstructionとsemantic ラベルを組みわせて大規模な深度予測モデルであるMegaDepthを提案.

    画像

    新規性・結果・なぜ通ったか?

    • セマンティックセグメンテーションを用いた順序による深度関係を自動で拡張
    • MegaDepthが強力なモデルであることを示すために膨大なインターネット画像を使い検証

    コメント・リンク集

    • 深度予測にsemantic ラベルを取り入れることで精度が向上.
    • semanticラベルを用いており,複雑背景における物体検出にも応用可能かも!!
    • Paper
    [#451]
    2018.5.18 02:33:22
    Real-Time Rotation-Invariant Face Detection with Progressive Calibration Networks
    FXuepeng Shi, Shiguang Shan, Meina Kan, Shuzhe Wu, Xilin Chen
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    リアルタイムで顔の回転に頑健な顔検出を行うProgressive Calibration Network(PCN)を提案。PCNは3つのステージで構成されており、それぞれのステージでは検出された領域を0° or 180°回転させる、 0° or 90° or -90°回転させる、頭が上にくるように顔を回転させる、という処理をそれぞれ行う。 また各ステージ共通で検出された領域が顔であるか顔でないかという識別を行う。第1,2ステージで粗く回転を行うことで第3ステージにおける回転量と、 各ステージにおける顔識別の学習が容易になったことで、高精度かつリアルタイムに顔検出を行うことが可能となった。

    新規性・結果・なぜ通ったか?

    • 従来手法であるデータオーギュメンテーション、角度の値域を分割してそれぞれの検出器を学習させる方法、角度の回転角を推定する流手法では、どれもネットワークが大きくなりすぎるためにリアルタイムでの実行が難しかった。
    • 解像度が40x40以上の顔を検出。
    • state-of-the-artの手法と比べて同等の精度を達成し、かつGPUを使用した際の実行スピードは4.2倍となった。

    コメント・リンク集

    [#452]
    Partially Shared Multi-Task Convolutional Neural Network with Local Constraint for Face Attribute Learning
    Jiajiong Cao, Yingming Li, Zhongfei Zhang
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    顔のアトリビュート推定に有効なネットワークであるPS-MCNN/-LCを提案。従来手法のMCNNでは、類似度の高いアトリビュートの識別率を高めるために、 類似度の高いアトリビュートのごとにグループを形成し、MCNNの高い層では各グループごとにCNNを形成して学習を行なっていた。 そのため低い層で得られていた特徴量が消失するという問題が起きていた。 これを解決するために、MCNNに対して各レベルで得られた特徴量を教諭するShared Netを導入したPS-MCNNを提案。 また同一人物において推定されたアトリビュート同士のロスをとるPS-MCNN-LCも提案した。 ネットワークの構築に関する議論も行なっている。

    新規性・結果・なぜ通ったか?

    • 同一人物において推定されたアトリビュート同士のロスをとることで、アトリビュートの空間を限定することが可能となるという考えのもとPS-MCNN-LCを提案している。
    • state-of-the-artに比べて、CelebAデータセットではPS-MCNN-LCが40種全てのアトリビュートにおいて最も高い精度を達成、LFWAデータセットではPS-MCNN/-LCを合わせて37種において最も高い精度を達成。

    コメント・リンク集

    • 精度が上がったことはもちろんだが、既存研究であるMCNNのリミテーションを正確に見抜いてネット枠を改善している点が採択につながったと考えられる。
    • 論文
    [#453]
    Deep Semantic Face Deblurring
    Ziyi Shen, Wei-Sheng Lai, Tingfa Xu, Jan Kautz, Ming-Hsuan Yang
    CVPR 2018 Poster
    Kazuki Inoue

    概要

    顔に対してセマンティックセグメンテーション(face sparsing)を利用することで、モーションブラーが加えられた正面顔画像に対するCNNベースのデブラーリング手法を提案。 face sparsingによって顔のパーツの位置関係や形といった情報を利用することができると