概要

概要

Pretext taskに特化したNNでのSelf-supervised学習(SSL)により獲得した特徴表現をtarget task用のNNに蒸留する手法。従来まではpretext taskに使用したモデルをそのままfine-tuningしていたのでモデル構造の制約が存在したが、二つのtaskそれぞれに適したモデルを選択することができる。さらにjigsawに対して、tailの一つを他の画像に置き換えることによりさらに難度を上げるjigsaw++を提案。

Boosting_Self_Supervised_Learning_via_Knowledge_Transfer.png

詳細・なぜ通ったか？

(a)従来通り何かしらのラベルなし表現学習。(b)ラベルなし特徴抽出&クラスタリング。(c)target taskモデルでクラスタ(pseudo labeling)識別。(d)target taskモデルで本学習。VggからAlexに蒸留した場合は精度向上。同一モデル同士の蒸留はあまり効果がない。通常の蒸留よりもクラスタ識別させた方が効果がある。

コメント・リンク集

Self-supervisedに獲得した特徴表現ではなくても(HOGでの実験が論文内にあるように)可能なアルゴリズム。単純に蒸留するよりもクラスタ識別にしたほうが良い精度以外での裏付けもみたかった。

論文

[#32]

Perturbative Neural Networks

Felix Juefei-Xu et al.,

CVPR 2018

Tomoyuki Suzuki

概要

Pixel-wiseでの固定ノイズの加算=>ReLU=>1×1convというPerturbative layerを使用したPNNの提案。実験ではPerturbative residual moduleを用いたPNN-Resnetを使用してImageNet, Cifar-10のclassification、Pascal VOCのobject detectionによる評価でそこそこ良い性能を示した。結論としては、今回の実験結果から最適な画像認識用のNNはConvが必要であるとは限らないと言っている。

手法・なぜ通ったか？

通常のconvの代わりに固定のhand-craftなカーネルを1×1convによる重み付けで近似し、計算コスト・学習パラメータの削減を行うLBCNNを元の発想としている。（固定カーネルがPixel-wiseでの固定ノイズの加算に変わっている）実質、 Perturbative layerでの受容野は1×1領域になるので論文中では(Convは使用しないため)Pooling層などで受容野を拡大すると述べられている。

コメント・リンク集

論文

[#33]

Learning distributions of shape trajectories from longitudinal datasets: a hierarchical model on a manifold of diffeomorphisms

A.Bone, O.Colliot and Stanley Durrleman

CVPR2018

Kota Yoshida

概要

複数の時点で繰り返し観測される個々のオブジェクトの集合から形状軌道の分布を学習する方法を提案．非線形混合効果統計モデルを，マニフォールド値の縦方向データの一般統計モデル，マニホールド構造を持つ有限次元の微分同相写像を用いた形状軌道を定義する．評価実験では，アルツハイマー病の進行に関連した2Dシミュレーションデータおよび3D脳構造の大きなデータセットに関する我々の方法を検証し，時空間パターンを分類する．

新規性・結果・なぜ通ったか？

形状変化の形状，開始およびペースの変動をそれぞれ記述する空間シフト，時間シフトおよび加速因子の分布とともに，長手方向データセットからの形状変化の平均時空間軌道を推定
潜在変数の適応ブロックサンプリング、形状輪郭のランダムな局所変位に基づく形状パラメータのための特定のサンプリング戦略、および目標対数尤度の消失テンパリングに適応するためにMCMC-SAEMを導入

コメント・リンク集

シミュレートされたデータと実際のデータの両方を使用して，MCMC-SAEMアルゴリズムを使用してモデルを推定し自動診断に活用する予定

Paper

[#34]

2018.8.1 19:44:20

Learning Convolutional Networks for Content-weighted Image Compression

M.Li, W.Zuo, S.Gu, D.Zhao and D.Zhang

CVPR2018

Kota Yoshida

概要

画像圧縮はエンコーダー，デコーダー，量子化器を学習することによるジョイントレート –と歪みとの間の最適化問題として定式化される．CNNベースでの画像圧縮システムを開発することは困難とされているが本論文では，情報コンテンツが画像内で空間的に変わっているという動機づけによって画像空間の重要度マップを作成した，これらの合計を圧縮率を制御するための離散エントロピー推定の連続的代替とした．造類似性（SSIM）における評価としてJPEGおよびJPEG2000よりも著しく優れており，鮮明なエッジ，豊かな質感，および人工っぽさの少ない非常に優れた視覚的結果が得られることが実験によって示されている．

新規性・結果・なぜ通ったか？

コンテンツの重要度マップと2値量子化を画像圧縮システムに導入する
重要度マップは、ジョイントレート - 歪み最適化におけるエントロピーレート推定を代用するためのみでなく，ローカルビットレート割り当てを導くためにも用いられる
2値量子化とプロキシ関数によりend-to-endで学習できJPEGおよびJPEG 2000以上の画質にできる

コメント・リンク集

圧縮後でもオリジナルの画像とほぼ同程度の画像になっていた．
Paper

[#35]

2018.8.1 13:45:35

Learning Time/Memory-Efficient Deep Architectures with Budgeted Super Networks

T.Veniat and L.Denoyer

CVPR2018

Kota Yoshida

概要

研究指針の1つとして予測の質に加えて推論コストを考慮に入れることがある．本研究では，予測品質とコストの両方に関して効率的なニューラルネットワークアーキテクチャを発見する問題に焦点を当てるためにBudgeted Super Networks（BSN）と呼ばれるモデルを提案．計算コスト，メモリ消費コスト，および分散コストの3つのコストに対応する技術の能力を分析．

新規性・結果・なぜ通ったか？

最大認可コストを織り込んだ予測の学習目的関数に適用される勾配降下手法を使用して学習するアプローチ
FAR-10およびCIFAR-100を用いたResNetやConvolutional Neural Fabricsのアーキテクチャよりも低コストで，より正確なニューラルネットワークアーキテクチャを見つけることを実証

コメント・リンク集

今後は，メタラーニング等を使ってトレーニング時間を短縮するために適合できるかどうかを検討するようだ．
Paper

[#36]

2018.8.1 13:37:54

Learning a Discriminative Filter Bank within a CNN for Fine-grained Recognition

Y.Wang, V.I.Morariu and L.S.Davis

CVPR2018

Kota Yoshida

概要

本研究では，fine-grained認識でクラス固有の識別パッチを余分な部分や境界ボックスの注釈なしにキャプチャする畳み込みフィルタバンクを学習する．このことで，中間層の表現学習がCNNフレームワーク内で強化されることを示す．一般的なfine-grained認識のデータセットを対象に評価実験をしたところSoTAを達成．

新規性・結果・なぜ通ったか？

フィルタバンクとは畳み込みフィルタの監視と非ランダムレイヤーの初期化を備えた新規で非対称なマルチストリームアーキテクチャ
このことで適切に差別化を図り学習可能
CUB-200-2011,Stanford Cars and FGVC-Aircraftを対象に評価実験をしたところSoTAを達成

コメント・リンク集

link1

[#37]

2018.8.1 11:08:53

Seeing Temporal Modulation of Lights from Standard Cameras

N.Sakakibara, F.Sakaue and Jun Sato

CVPR2018

Kota Yoshida

概要

蛍光灯などの光の見づらいフリッカー模様は市販のカメラと鏡面反射を伴う動く物体の単純な組み合わせによって観測することができることを示し，抽出されたフリッカー模様に基づいて画像内の動きのぼやけを除去するための効率的な方法を提案する．環境光のフリッカー模様により誘発される高い周波数特性と画像のブレを除去することが可能になる．

新規性・結果・なぜ通ったか？

環境光のフリッカパターンを符号化画像の符号化光として用いることにより，高い周波数特性をもつ画像のブレを除去
高速カメラや特別に設計されたコード露光カメラを用いずに市販のカメラによってモーションブラーを正確かつ効率的に除去するのに非常に有用であることも証明

コメント・リンク集

移動車両の車載カメラを用いるだけで、移動車両と交通信号との間の高速可視光通信を実現することができるようだ．

Paper

[#38]

2018.8.1 10:52:01

Feedback-prop: Convolutional Neural Network Inference under Partial Evidence

T.Wang, K.Yamaguchi and V.Ordonez

CVPR2018

Kota Yoshida

概要

既知ラベルが利用可能であるときに、深い畳み込みニューラルネットワーク（CNN）のための推論手順を提案．一般的なフィードバックベースの伝搬手法で重なり合わない任意の組のターゲットラベルの値が分かっている場合に，未知のターゲットラベルの任意の組の予測精度を向上．マルチタスクモデルを使って実験し，feedback-propがすべてのモデルで有効であることを示す．

新規性・結果・なぜ通ったか？

以下の3つのステップで構成されている．

すべてのラベルの初期スコアを予測する完全順方向伝播
既知のラベルに基づいて中間層を更新するための逆方向伝播の切り捨て
未知のラベルのスコアを更新するための順方向伝播

コメント・リンク集

Paper

[#39]

2018.8.1 10:42:30

A Constrained Deep Neural Network for Ordinal Regression

Y.Liu, A.W.K.Kong and C.K.Goh

CVPR2018

Kota Yoshida

概要

順序回帰は、インスタンスをを順序カテゴリに分類することを目的とした教師付き学習の問題である．クラス内情報を表現するための高次な特徴と，序数関係を同時にクラス分けするための機能を自動的に抽出することは困難である．そのためにCNNによる実装が考えられる．本研究では，インスタンスの順序関係によって制約される複数のカテゴリの負の対数尤度を最小にする序数回帰問題の制約付き最適化手法 convolutional neural network with pairwise regularization for ordinal regression (CNNPOR)を提案．4つのベンチマークを用いて実験し，CNNPORは既存手法よりも良い結果であり，SoTAを示した．

新規性・結果・なぜ通ったか？

順序回帰の制約最適化問題を解くためにDNNを適応
徴抽出や予測のための復号化などの後処理を行わず，end -to-endのアプローチ
提案手法は，小規模なデータセットに適しており，大規模なデータセットに対してもスケーラブル

コメント・リンク集

Paper

[#40]

2018.8.1 10:34:25

Focus Manipulation Detection via Photometric Histogram Analysis

C.Chen, S.MacCloskey and J.Yu

CVPR2018

Kota Yoshida

概要

近年画像操作ツールの自動化とリアリティの向上によってソーシャルメディアの誤った情報が増えているため，画像の捜査が重要になる．本手法では画像の人工的なぼかしによる加工を検出し、画像強度と様々な手がかりとの間に非相関な測光関係を生成する．iPhone7Pulsなどのポートレートモードの画像の新しく収集されたデータセットと野外の画像の一般的なデータセットの両方で評価実験をしたところ，既存の手法を上回った．

新規性・結果・なぜ通ったか？

光度ヒストグラム分類のための小さい2つのCNNを融合することで手がかりを統合する．このことで，自然な画像の非対象部分をぼやかせる浅い被写界深度DoFを持つ画像を区別するため画像の捜査方法を提案

コメント・リンク集

Paper

[#41]

2018.8.1 10:26:27

Boosting Adversarial Attacks with Momentum

Yinpeng Dong, Fangzhou Liao, Tianyu Pang, Hang Su, Jun Zhu, Xiaolin Hu, Jianguo Li

CVPR2018

Kazuma Matsui

概要

DNNsは，アルゴリズムに対するセキュリティ上の懸念をもたらす，敵対的な攻撃に対して脆弱である．敵対的攻撃は，ディープ・ラーニング・モデルが展開される前の頑健性を評価する重要な代理として機能する．しかし，既存の攻撃の大半は精度の低いブラックボックスモデルしかだますことができない．この問題に対処するため，反撃攻撃を促進するために，運動量ベースの反復アルゴリズムの幅広いクラスを提案する．攻撃の成功率を向上させるために，モンテウム反復アルゴリズムをアンサンブルモデルに適用し，強力な防御能力を備えた対抗的に訓練されたモデルも攻撃に対して脆弱であることを示す．提案された方法は，様々な深いモデルや防衛方法の頑健性を評価するためのベンチマークとして役立つと考えられる．

新規性・結果・なぜ通ったか？

Ensembleの敵対的訓練は、訓練されたモデルだけでなく、他の拘束モデルからも生成された敵対的なサンプルを用いて訓練データを補強する．したがって、アンサンブルの訓練を受けたモデルは、ワンステップ攻撃とブラックボックス攻撃に対して堅牢である．本稿では，ブラックボックスモデルだけでなくホワイトボックスモデルを効果的に欺くことができる反撃攻撃を促進するための，広範なモーダルベース反復手法を提案する．この手法は，一段階のグラジエントベースの方法とバニラの反復法を一貫してブラックボックス方式より優れている．本研究では提案された方法の有効性を検証し，それらが実際に働く理由を説明するために広範な実験を行う．生成された敵対的な例の転送可能性をさらに向上させるため，ログが融合されたモデルのアンサンブルを攻撃することを提案する．アンサンブル敵対的訓練によって得られたモデルはブラックボックス攻撃に対して脆弱であり，より堅牢な深い学習モデルの開発のための新たなセキュリティ問題を引き起こすことを示している．

コメント・リンク集

論文

[#42]

2018.7.31 16:19:50

On the Duality Between Retinex and Image Dehazing

Adrian Galdran, Aitor Alvarez-Gila, Alessandro Bria, Javier Vazquez-Corral, Marcelo Bertalmio

CVPR2018

Kazuma Matsui

概要

画像曇り除去は，霧の存在による屋外画像における望ましくない可視性の喪失の除去を扱う．ほとんどのRetinexベースのアルゴリズムは，常に明るさを上げるという特長を持っている．これは、輝度が反転したぼやけた画像にRetinexを直接適用することにより，効果的な画像の曇り除去ができる可能性があることを示している．この論文では、反転強度に対するRetinexが画像の曇りの問題に対する解決策であるという理論的証明を行う．包括的な定性的および定量的結果は，Retinexのいくつかの古典的で現代的な実装が，より複雑なフォグ除去法と対になって競合する画像枯渇アルゴリズムに変換され，この問題に関連する主な課題のいくつかを克服できることを示している．

新規性・結果・なぜ通ったか？

多くの画像枯渇技術は通常、外部の情報源、または同じ場面の複数の画像を必要とする。著者は、2潜在層マルコフランダム場による深度と真の放射輝度の共同確率的推定によって、この必要性を克服する。この論文では、画像の曇りと不均一な照明分離の問題を結びつける二重の関係を厳密に数学的に証明した．倒立画像にRetinex演算を適用した後，結果を再び反転することにより，ぼかし処理された結果が得られ，逆もまた同様であることが示されている．特定のアルゴリズムに限定されるのではなく，Retinexの広範な手法に対してこれが正式かつ実験的に示されている．定性的および定量的実験は，現在の枯渇アルゴリズムと比較して競合結果を示した．

コメント・リンク集

論文

[#43]

2018.7.30 17:46:29

A Deeper Look at Power Normalizations

Piotr Koniusz, Hongguang Zhang and Fatih Porikli

CVPR2018

707

概要

特徴マップの非線形プーリングにパワー正規化（Power Normalization；PN）を実装する新しい層を導入する．PNは，Bag-of-Wordsのデータ表現コンテキストで非常に有用な非線形オペレータである．CNN（ResNet-50）の最後の畳み込み層で生成された特徴マップの特徴ベクトルφとそれを符号化した空間座標cを組み合わせる．このカーネルを線形化すると，特徴ベクトルの2次統計を獲得するpositive definite matrixが得られる．ここでは，MaxExpとGammaの2つのPN関数について研究する．

新規性・結果・なぜ通ったか？

ResNet-50モデルにPN層を実装し，fine-grained認識，シーン認識，マテリアル分類の4つのベンチマークを行い，すべてのタスクでパフォーマンスの向上を行うことができた．

コメント・リンク集

DNNでPNはあまり聞き慣れないが，機械学習や信号処理ではよく使われる手法のよう．数式や評価が細部まで行き渡っている．

論文

[#44]

2018.8.1 13:08:25

Bootstrapping the Performance of Webly Supervised Semantic Segmentation

Tong Shen, Guosheng Lin, Chunhua Shen and Ian Reid

CVPR2018

165

概要

画像のクラスラベルのみを用いてセマンティックセグメンテーションのための高品質な識別器を学習する弱教師あり学習手法を提案．ブートストラップ法を用いて学習画像の正確なピクセルレベルの教師ラベルを作成し，Ground truthの代理として用いる．Domain adaptationのような手法をとり，ターゲットデータはPASCAL VOCなどのラベルつき画像，ソースデータはWebから収集した画像（Web domain）である．Initial-SECを始めに学習して，粗いラベルを作成する．間違ってラベル付けされている画像（ノイズ）はここで除去され，セグメンテーションに適した画像のみ残される．次に，WebSECを学習してWeb画像の粗いラベルを作成し，Grabcutにより細かいラベルを得る．そして，Web-FCNを学習して，Web domain内の特徴を得る．最後に，代理GTを用いてFinal-FCNを学習する．

新規性・結果・なぜ通ったか？

セマンティックセグメンテーションの教師あり学習に必要な，多大な時間をかけてピクセル単位のクラスマスク教師画像を作成する手間を減らすことができる．ResNetをベースに用いることで，他の弱教師あり学習などと同等またはそれ以上の性能を得ることができた．

コメント・リンク集

多段のDCNNをうまく用いて教師ラベルの削減を行っている．これはEnd-to-endでは難しい？

論文

[#45]

2018.8.1 13:03:49

Regularizing Deep Networks by Modeling and Predicting Label Structure

Mohammadreza Mostajabi, Michael Maire and Gregory Shakhnarovich

CVPR2018

Yuta Matsuzaki

概要

DNNの教師あり学習時に使用するカスタム正規化関数を提案．アノテーションセットをオートエンコーダーで学習することで，正規化関数を導出．セマンティックセグメンテーション実験では，スクラッチ学習によるモデルおよびImageNet pre-trained modelを用いたファインチューニングによるモデルの両者においてベースライン以上の精度を確認．また異なるCNNにおいても一貫して精度向上を確認．

新規性・結果・なぜ通ったか？

学習の流れは以下の通り

オートエンコーダでラベルをモデル化
オートエンコーダの隠れ層を介して出力を予測する補助ブランチを接続し，ネットワークを学習(学習終了後接続したブランチは削除，通常のネットワークとして使用可能)利点および新規性

学習終了後，使用するネットワークに接続したオートエンコーダは削除されるため，テスト時の計算コストは本手法を適用する前と同様
ラベル空間の抽象化モデルを構築し，本来のタスクと抽象概念を学習することでよりよいネットワークの重みを学習可能

コメント・リンク集

論文

[#46]

2018.7.31 18:37:16

Two-Step Quantization for Low-bit Neural Networks

Peisong Wang, Qinghao Hu, Yifan Zhang, Chunjie Zhang, Yang Liu and Jian Cheng

CVPR2018

Yuta Matsuzaki

概要

ネットワーク量子化問題において起こる精度の低下に対処するアプローチを提案．学習コードと学習コードに基づく変換を学習の2つのステップに分割量子化を行うTwo-Step Quantization (TSQ) frameworkを構築．CIFAR-10 と ILSVRC-12 datasetsを用いた網羅的な実験によるTSQの有効性，SOTAであることを確認．

新規性・結果・なぜ通ったか？

既存のネットワーク量子化手法のほとんどは変換と符号化を同時に学習(これによって最適な学習が不可能)．TSQによってこの問題に対処．
コードを学習するためのスパースな量子化手法
低ビット制約つきの非線形最小二乗法による回帰問題として定式化し，反復的かつ効率的に解くアプローチ
特にAlexNet(2-bit activation and ternary weight quantization)において，TSQによる精度はオリジナルと比較しても0.5％低い程度(最新の量子化手法と比較しても5％向上)．

コメント・リンク集

論文

[#47]

2018.7.25 18:01:43

Multi-shot Pedestrian Re-identification via Sequential Decision Making

Jianfu Zhang, Naiyan Wang and Liqing Zhang

CVPR2018

Yuta Matsuzaki

概要

マルチショット(異なるカメラ間)な人物再同定(Person ReID)問題に解釈可能な強化学習ベースのアプローチを組み込んだ手法の提案．3つのベンチマークテストをでは提案手法は他の最新の手法と比較し，3％〜6％の画像しか使用することなく優れた性能を発揮．提案した手法は効率と性能の両面において，他の手法と比べ有利であると提示．

新規性・結果・なぜ通ったか？

RNNのような時系列モデルを使用する既存研究と異なり，強化学習ベースの手法(かつ解釈可能)を適用．
圧倒的少ない学習データ(既存手法の3％〜6％)で優れた性能を発揮
Re-ID Agentは一対の画像を検証するように設計されており，結果を出力(同一人物か否か)するか，再度検証するために別の画像を要求(出力結果の断定できない場合，決定の延期)
学習時の報酬を調整することで，速度と精度間のトレードオフを調整可能

コメント・リンク集

[#48]

2018.7.25 16:20:10

Optimizing Filter Size in Convolutional Neural Networks for Facial Action Unit Recognition

Shizhong Han, Zibo Meng, Zhiyuan Li, James O’Reilly, Jie Cai, Xiaofeng Wang and Yan Tong

CVPR2018

Yuta Matsuzaki

概要

本論文では，CNNの層フィルタサイズと重みを学習データと畳込みフィルタから同時に学習する新規のフィルタサイズ最適化CNN(Optimized Filter Size CNN：OFS-CNN)を提案．実験ではOFS-CNNが様々な画像解像度に対して最適なフィルタサイズを推定し，網羅的な検索によって得られた最良のフィルタサイズを有することを確認．従来手法より優れていること確認．

新規性・結果・なぜ通ったか？

既存のCNNを用いた顔認識におけるaction unitsは，予め規定された固定値の畳込みフィルタが適応される仕組み．本研究では完全に学習によってフィルタサイズを最適化(ヒューリスティックに設定した規定のフィルタサイズなし)
本研究のような学習プロセスは層が深くなるにつれ計算コストが増加し効率が下がるが，OFS-CNNでは一般のCNNと比較しより効率的に学習可能
フィルタサイズは連続関数として定義され，トレーニングロスを最小限に抑制し最適化

コメント・リンク集

[#49]

2018.7.25 14:22:26

Erase or Fill? Deep Joint Recurrent Rain Removal and Reconstruction in Videos

Jiaying Liu, Wenhan Yang, Shuai Yang and Zongming Guo

CVPR2018

Yuta Matsuzaki

概要

RNNを用いた映像中の雨を除去する手法を提案．雨による画質の劣化分類，空間的テクスチャに基づく雨の除去，時間的一貫性に基づく背景の詳細な再構築を同時に行うJoint Recurrent Rain Removal and Reconstruction Network (J4R-Net) を提案．既存手法を用いた網羅的な実験により，提案手法がSOTAであることを確認．

新規性・結果・なぜ通ったか？

分類，除去，構築をend to endに行う手法の構築
雨の除去と背景の細部再構成感のトレードオフをRNNで再現し，雨の透過率の低さによる背景の詳細が完全に失われる問題に対処
rain degradation classification(分類)によって雨による劣化箇所のバイナリマップを出力，これによって除去箇所を正確に把握

コメント・リンク集

論文

[#50]

2018.7.25 13:36:14

Easy Identification from Better Constraints: Multi-Shot Person Re-Identification from Reference Constraints

Jiahuan Zhou, Bing Su and Ying Wu1s

CVPR2018

Yuta Matsuzaki

概要

Multi-shot Person Re-IDentification (MsP-RID)に向けた類似的制約によるモデル学習方法の提案．視覚的指標を学習し，視覚的外観の大きな変化を扱うことで信頼できるモデルを構築．網羅的な実験・ベンチマークテストを行い，識別精度と速度ともに最先端のMsP-RIDの方法に比べ大幅な優位性を確認．

新規性・結果・なぜ通ったか？

視覚的指標を学習し，視覚的外観の大きな変化を扱い，モデルを構築．
新規の類似的制約(典型的な回帰メトリック学習モデルを利用)により，既存メトリックベースの手法における最適化時の制約によるパフォーマンス低下の問題や学習データの不均衡性に対応．
網羅的な実験・ベンチマークテストを実施．

コメント・リンク集

論文

[#51]

2018.7.23 19:08:59

WILDTRACK: A Multi-camera HD Dataset for Dense Unscripted Pedestrian Detection

Tatjana Chavdarova, Pierre Baque, Stephane Bouquet, Andrii Maksai, Cijo Jose, Timur Bagautdinov, Louis Lettry, Pascal Fua, Luc Van Gool, and Franc¸ois Fleuret

CVPR2018

Yuta Matsuzaki

概要

本稿では複数の同期されたカメラを利用した歩行者検出のための大規模かつ高解像度のデータセットを提案．カメラフレームと合わせて，正確なキャリブレーションと2frame/sの速度で検出するための400種類のアノテーション付きフレーム7種類を確保．これにより，40,000を超えるバウンディングボックスが注目領域に存在するすべての人に作成され、合計で300人以上の人物に対してアノテーションを付与．深層ニューラルネットワークを用いた多視点からの人物検出のベースラインアルゴリズムや非マルコフモデルを用いたベースラインアルゴリズムによるベンチマークテストを実施．

新規性・結果・なぜ通ったか？

歩行者検出のための他視点からの大規模かつ高解像度のデータセットを構築．
深層ニューラルネットワークを用いた多視点からの人物検出のベースラインアルゴリズムや非マルコフモデルを用いたベースラインアルゴリズムによるベンチマークテストによる網羅的な調査．

コメント・リンク集

論文

[#52]

2018.7.23 17:18:50

Object Referring in Videos with Language and Human Gaze

Arun Balajee Vasudevan, Dengxin Dai and Luc Van Gool

CVPR2018

Yuta Matsuzaki

概要

人間の視線情報を用いた動画中のObject Referring (OR)を行う．(OR: 言語記述を伴うシーン内のターゲットオブジェクトのローカライズの問題)．物体の外観や動き，注視(視線情報)，時空間コンテキストを1つのネットワークに統合する動画におけるORのための新規のネットワークを提案．提案した手法がモーションキューや人間の視線情報，時空間のテキストを効果的に利用可能であることを確認．従来のOR手法より優れていることを確認．

新規性・結果・なぜ通ったか？

ORの既存手法では静的物体のみ対応．提案手法では動的な物体にも対応可能．
人間の視線に着目した手法を提案．
ORのための新規のデータセットを構築(5,000以上のビデオシーケンスに30,000個のオブジェクトの説明文と視線情報のアノテーション)．

コメント・リンク集

[#53]

2018.7.23 14:20:22

Pose Transferrable Person Re-Identification

Jinxian Liu, Bingbing Ni, Yichao Yan, Peng Zhou, Shuo Cheng and Jianguo Hu

CVPR2018

Yuta Matsuzaki

概要

ReIDモデルの学習をより強化するために，Pose transferによるサンプルオーグメンテーションを利用したposetransferrable person ReID frameworkを提案． MARSデータセットのポーズインスタンスを利用し，豊富なポーズバリエーションを持つ新規データを生成，学習することでよりロバストな学習が可能．また従来のGANの識別器に加え，生成した新規データがReIDにおける損失を最適にするguider sub-networkを提案．Market-1501，DukeMTMC-reIDおよびCUHK03において精巧なモデルを使用することなくSOTAであることを確認．

新規性・結果・なぜ通ったか？

人間の姿勢変動をどのように捕捉するかを考慮したReIDアプローチ
単にMARSを用いたPose transferをするだけでなく，guider sub-networkによる最適化

コメント・リンク集

論文

[#54]

2018.7.20 16:36:42

Detect Globally, Refine Locally: A Novel Approach to Saliency Detection

Tiantian Wang, Lihe Zhang, Shuo Wang, Huchuan Lu, Gang Yang, Xiang Ruan and Ali Borji

CVPR2018

Yuta Matsuzaki

概要

salient objectの位置を正確に特定するために重み付けされた応答マップによってコンテキスト情報を利用可能にするネットワークglobal Recurrent Localization Network (RLN)を提案．また，物体境界を正確に把握するために各空間位置について局所的なコンテキスト情報を適応的に学習するlocal Boundary Refinement Network (BRN)を提案．本アプローチが既存のすべての手法に対してSOTAであることを確認．

新規性・結果・なぜ通ったか？

salient object detectionにはコンテキスト情報の効果的な統合が不可欠であるが，既存の方法のほとんどは主にCNNの階層的特徴をどのように統合するかに注力．しかしそれらは高レベルな情報と低レベルな情報組み込むために，予測の質を下げる可能性存在．RLNとBRNによってこれらの問題に対処．
複数の段階に渡り，CNNの内部構造を漸進的に改良するためにrecurrent moduleを採用
学習した伝搬係数は、各ピクセルとその近傍との間の関係を最適に捕捉

コメント・リンク集

論文

[#55]

2018.7.20 15:39:52

Wrapped Gaussian Process Regression on Riemannian Manifolds

Anton Mallasto, et al.,

CVPR 2018

Munetaka Minoguchi

概要

マニフェルドのターゲットのコンテキストにGaussian process(GP)回帰を確率的に適用し、リーマン多様体のWrapped Gaussian Processes(WGPs)によって、ベクトル空間のデータに限定されるGPを拡張する取り組み。

新規性・結果・なぜ通ったか？

図において、(a)は、通常のGP回帰。黒曲線は予測値であり、他の色の曲線は予測分布からのサンプルであり、球体から大きくずれている。(b)は、データの幾何学的制約を考慮したWGP回帰を使用している結果。

コメント・リンク集

diffusion weighted imaging(DWI)や球上の指向性データ、ケンドール形状空間で検証。多様な値の回帰のための効率的かつ柔軟な手法としてWGP回帰の有効性を示唆。

論文

[#56]

2018.8.1 8:36:40

Deep Sparse Coding for Invariant Multimodal Halle Berry Neurons

Edward Kim, Darryl Hannan, Garrett Kenyon,

CVPR 2018

Munetaka Minoguchi

概要

標準的なフィードフォワード深層学習モデルを、希薄性、トップダウンフィードバック、横方向抑制など、生物学的にインスパイアされた概念を用いて改善する取り組み。構築したモデルを解析した結果、人間の脳に見られる「ハルベリーニューロン」を模倣したニューロンが出現したことを証明。

新規性・結果・なぜ通ったか？

CNNは様々なCVタスクに貢献しており、分類問題では人間を超越しているという結果もある。一般的なアプリケーションでは、やはり人間には及ばない。希薄性、トップダウンフィードバック、横方向抑制など、人間(哺乳類)に見られる脳のしくみに着目し、深層学習においてそれを再現するようにモデリングしている。

コメント・リンク集

CVや機械学習タスク全般における、定性的および定量的な改善を証明。

論文

[#57]

2018.7.31 23:27:15

Neural Motifs: Scene Graph Parsing with Global Context

Rowan Zellers, Mark Yatskar, Sam Thomson, Yejin Choi,

CVPR 2018

Munetaka Minoguchi

概要

画像中のシーンにおいて、構造化されたグラフ表現を生成するMotif Network(MOTIFNET)の提案。シーングラフ解析を、境界領域、領域のラベルおよび関係を予測する段階に分割。各段階の間で、コンテキストをbidirectional LSTMを使用して算出し、その後の段階で使用。検出器によって領域を提案し、領域間のコンテキスト情報を計算して、伝搬する。コンテキストをラベル推定に使用。コンテキスト化された頭、尾、および領域情報を外積と組み合わせることによって、ラベルを割り当てます。

新規性・結果・なぜ通ったか？

図の犬、耳、目などのバウンディングボックスにおいて、物体間の関係性を構造化する。モチーフという考え方を利用し、Visual Genome datasetを分析。

コメント・リンク集

論文

[#58]

2018.7.30 11:01:30

Learning Generative ConvNets via Multi-grid Modeling and Sampling

Ruiqi Gao, et al.,

CVPR 2018

Munetaka Minoguchi

概要

画像エネルギーベースのCNNモデルを学習するためのマルチグリッド法の提案。各グリッドについて、エネルギー関数が、CNNによって出力するエネルギーベースの確率モデルを学習。提案学習アルゴリズムの各反復における、観察された各訓練画像について、最小1×1バージョンのトレーニング画像から複数のグリッドで合成画像を生成する。各後続グリッドにおける合成画像は、前の粗いグリッドで生成された合成画像から得られる。合成された例を得た後に、複数のグリッドにおけるモデルのパラメータを、合成された例と観測された例との間の差異に基づいて、同時に更新する。

新規性・結果・なぜ通ったか？

本マルチグリッド法は、エネルギーベースのCNNモデルを学習することができ、元のcontrastive divergence(CD)とpersistent CDより高精度。

コメント・リンク集

2つの異なるクラスのモデル間の不一致や学習の不安定性などの問題を改善することによって、GAN法の代替え法として有効。

論文

[#59]

2018.7.31 10:46:15

EPINET: A Fully-Convolutional Neural Network Using Epipolar Geometry for Depth from Light Field Images

Changha Shin, et al.,

CVPR 2018

Munetaka Minoguchi

概要

迅速かつ正確に、CNNベースでライトフィールドから深度を推定する取り組み。ライトフィールドの幾何学的形状を考慮したネットワークによって、トレーニングデータの欠落を克服。ビューシフトや回転などのライトフィールドの画像固有データの拡張方法を提案。

新規性・結果・なぜ通ったか？

ライトフィールドカメラは、光線の空間的性質および角度的性質の両方を取得できる。様々な照明環境のライトフィールドから深度を計算可能。しかし、ハンドヘルドカメラからのライトフィールド画像は、ノイズが多く深度推定が困難。これらを克服したネットワークを提案。

コメント・リンク集

HCI 4D Light Field Benchmarkにて高精度を確認し、実世界のライトフィールド画像に対する手法の有効性を確認。

論文

[#60]

2018.7.30 22:59:01

clcNet: Improving the Efficiency of Convolutional Neural Network using Channel Local Convolutions

Dong-Qing Zhang,

CVPR 2018

Munetaka Minoguchi

概要

計算の効率化のために、畳み込みの方法を工夫したchannel local convolution(CLC)の提案。Channel Dependency Graph(CDG)によって入出力チャネル間の計算依存関係を表現する。これにより、入力チャネルのサブセットを使用し、出力チャネルを算出。畳み込みのCDGを変更することによって、Interlaced Grouped Convolution(IGC)と呼ばれる新しいCLCカーネルが作成される。また、IGCとGCを組み合わせて、通常の畳み込みを近似するCLC Blockを作成。CDGを分析に利用することで、IGCとGCのメタパラメータを設定するルールと、処理コストを最小限に抑える。

新規性・結果・なぜ通ったか？

CNNの効率化のために、より深く畳み込む手法やグループ化した畳み込みが提案されている。CLC Blockによってネットワークを構成することで、パラメータ数を抑えて計算効率を向上させることができる。

コメント・リンク集

ImageNet-1Kにて効率化の有効性を証明。

論文

[#61]

2018.7.30 22:44:43

End-to-end weakly-supervised semantic alignment

Ignacio Rocco, Relja Arandjelović, Josef Sivic

CVPR 2018

Munetaka Minoguchi

概要

画像ペアをマッチングするための、End-to-Endで学習可能なセマンティックアライメント用のCNNアーキテクチャを開発する。クラス内での大きな変動、視点の変化、背景の乱れに頑健。学習時には、画像の対応点の注釈が要らず、同一のクラスであるが異なる画像における外観変化からパラメータを学習できる。

新規性・結果・なぜ通ったか？

入力画像ペア(図上)において、意味的に一致する密な対応を、幾何学変換とおもに出力し(図中) 、幾何学的に一致しないペアを破棄する(図下) CNNを提案。RANSACからインスパイアされた手法によって、ネットワークアーキテクチャとトレーニング手順を設計し、弱教師付き学習で実装可能。

コメント・リンク集

精度は高く、SOTA。しかし、依然として複数のオブジェクトが存在する場合や、違うクラスにおける画像ペアを扱うことができていない。

論文

[#62]

2018.7.30 22:37:16

Interpretable Video Captioning via Trajectory Structured Localization

Xian Wu, et al.,

CVPR 2018

Munetaka Minoguchi

概要

局所的な時空間表現を統合することで、より精度の良いビデオキャプションを可能にするTrajectory Structured Attentional Encoder-Decoder (TSA-ED)の提案。物体の細かい動き情報と、ビデオキャプションの文構造の両方を探索できる。LSTMによるエンコーダ/デコーダモデルをベースとしており、文章構造と物体の動きをとの相関を学習するスキームを組み込んでいる。これにより、より詳細なキャプションを生成できる。

新規性・結果・なぜ通ったか？

既存の手法では、RNNに入力する前にグローバルな画像特徴を取っているだけであると指摘。異なる時間において、顕著な物体に着目することや、微妙な言語表現を学習するために細かい移動や動きに対する関係性を見出す必要がある。Trajectoryレベルでの特徴を統合して学習することにより、動画中の動く物体を精度よく記述できる。

コメント・リンク集

CharadesとMSVDデータセットで実験し精度向上を確認。また、提案手法は可視化ツールとしてみなすことができ、モデルの解釈能力を向上させることができる。

論文

[#63]

2018.7.30 22:29:43

Semantic Video Segmentation by Gated Recurrent Flow Propagation

David Nilsson, Cristian Sminchisescu,

CVPR 2018

Munetaka Minoguchi

概要

ラベルなしデータの情報を活用し、セマンティックセグメンテーションの精度を向上させる、End-to-Endで学習できるGated Recurrent Flow Propagation(GRFP)の提案。オプティカルフローによってラベリング情報を時間的に伝搬できるCNNと、時空間的変換を行うリカレントレイヤーを組み合わせる。フローや認識、時間的伝搬モジュールは共同で学習することができ、弱教師付きビデオ学習をすることができる。

新規性・結果・なぜ通ったか？

アノテーションなしで余分な計算を減らしつつ学習する。ラベルのないフレームに存在する情報を順番に利用でき、セグメンテーションの精度と時間的一貫性の両方を改善することに成功。

コメント・リンク集

CityScapesやCamVidデータセットにおいて精度向上を確認。

論文

[#64]

2018.7.30 22:19:21

Event-based Vision meets Deep Learning on Steering Prediction for Self-driving Cars

Ana I. Maqueda, et al.,

CVPR 2018

Munetaka Minoguchi

概要

イベントカメラを用いて自動車のステアリング角度を予測するDNN手法の提案。約1000kmのイベントカメラデータにCNNを適用し、ステアリング角度推定が可能になる理由を定量的および定性的に示す。イベントカメラの出力は、イベントの極(正か負)別にチャンネルを使用し、一定の時間間隔Tごとにフレームを収集。ResNetによってステアリング角度を推定。

新規性・結果・なぜ通ったか？

動き推定タスクにおいて無駄のない情報を得ることができるイベントカメラを用いて、そのポテンシャルを示すことにモチベーションを置いている。イベントセンサーの出力と連携して動作するように設計することで高精度に推定できる。

コメント・リンク集

イベントベースカメラの方が、標準的なカメラよりも優れていることを実証。特に照明条件や高速な動きにも頑健。

論文

YouTube

[#65]

2018.7.30 22:05:22

Classification-Driven Dynamic Image Enhancement

Vivek Sharma, et al.,

CVPR 2018

Munetaka Minoguchi

概要

人間の感覚における画像強調ではなく、画像分類精度向上を目的としたImage Enhancement手法の提案。End-to-Endの動的フィルタ学習を介したCNNアーキテクチャとなっている。図のように、画像をCNNに直接入力するのではなく、入力画像を, weighted least squares(WLS)フィルタと畳み込みによって画像を強調し、クラス分類を改善する。

新規性・結果・なぜ通ったか？

CNNは、画像の質感や構造を利用して、分類するための識別器として使われるが、Image Enhancementによって画像を協調し、CNNの前処理として使用可能。既存の画像強調手法は、人間の画像の知覚向けに設計されている。画像強調のためにCNNを拡張し、画像分類精度が向上するように共同で学習することができる。

コメント・リンク集

CUB 200-2011、PASCAL VOC2007、MIT Indoor、DTDの4つのベンチマークデータセット(fine-grained, object, scene, and texture classification)で実証。全ての一般的なCNNにおいて精度向上を確認。

論文

[#66]

2018.7.30 21:52:44

Excitation Backprop for RNNs

Sarah Adel Bargal, et al.,

CVPR 2018

Munetaka Minoguchi

概要

動画におけるクラス推定やキャプショニングにおいて、RNNが使用されたという証拠を空間的に立証するExcitation Backprop(EB)の提案。入力動画に対して、どの部分がクラス分類/キャプショニングの根拠になったのか、顕著性マップを出力して可視化。トップダウンの顕著性によって、単一パスで空間的および時間的な証拠を同時に立証するように定式化。

新規性・結果・なぜ通ったか？

RNNが何を根拠にタスクをこなすのか、GradCamのように出力するモデルの提案。図は、CliffDivingとHorseRidingの両方を含む動画において、アクティブクラスであるCliffDivingの顕著性を強調している例。

コメント・リンク集

ActionとCaptionにて実験。単語に対するローカライズの精度は良い印象だが、キャプショニングの場合の精度は微妙。

論文

[#67]

2018.7.30 21:42:53

Guided Proofreading of Automatic Segmentations for Connectomics

Daniel Haehn, et al.,

CVPR 2018

Munetaka Minoguchi

概要

細胞画像などの、コネクトミックにおける自動的なセマンティックセグメンテーションについて、ガイド付き校正を行う。修正が必要なエラーとして、領域を分けすぎてしまったり、大きく領域を取りすぎてしまうスプリット，マージエラーを対象としている。古典的なCNNアーキテクチャで構成されており、4チャンネル(image、Prob.、Label、Border)を入力として、コンテキスト情報を取り入れながら学習。修正の際、ユーザはYes/Noで回答することで修正できるため、以前の手法と比較して7.5倍高速化に成功。

新規性・結果・なぜ通ったか？

コネクトミックという神経の分野におけるセマンティックセグメンテーションでは、エラーがたびたび発生する。これらのエラー部分を人間に提示し、マージとスプリットの候補を自動でクラシフィケーションする。CNNで自動セグメンテーションのエラーを学習することで実現。人間がYes/Noを判定する校正が基本だが、確率に閾値を設けることで自動構成モードにも切り替えられる。

コメント・リンク集

初心者と専門家による広範囲的な実験で検証。効率化を達成し、校正時間の短縮に成功。

論文

GitHub

[#68]

2018.7.30 21:34:05

SSNet: Scale Selection Network for Online 3D Action Prediction

Jun Liu, et al.,

CVPR 2018

Munetaka Minoguchi

概要

ストリーミング3Dスケルトンシーケンスにおけるオンライン行動予測のためのSSNetの提案。拡張CNNによって時間軸上に対してもスライディングウィンドウを行う。これにより、時間次元における運動をモデル化する。SSNetは、タイムステップによって適切な畳み込みレイヤーを選択することで動作を観測した部分に集中し、スケール変動に対応することができる。また、activation sharing scheme(活性化共有スキーム)によって、隣接したステップ間における重複計算に対処することで、効率化を図っている。

新規性・結果・なぜ通ったか？

行動に対して、タイムステップごとにラベル付けをおこなう行動予測において問題視されるスケール変動や計算の効率化に着目している。スケルトンを入力とし、行動ラベルや行動開始時間を出力とする。

コメント・リンク集

行動予測用データセットのPKU-MMDとOADにて実験し、従来手法と比較して高精度化を実証。

論文

[#69]

2018.7.30 21:16:15

Recurrent Saliency Transformation Network: Incorporating Multi-Stage Visual Cues for Small Organ Segmentation

Qihang Yu, et al.,

CVPR 2018

Munetaka Minoguchi

概要

腹部のCTスキャン画像から、膵臓などの小さな器官をセグメント化する研究。 saliency transformation module(顕著性変換モジュール)を搭載したRecurrent Saliency Transformation Networkを提案。確率分布マップを反復的に変換する。この結果を空間的重みとして、次の反復処理に適応させる。トレーニングは2つのスケール下で共同に行うことができる。テストでは反復的にコンテキスト情報を伝播させていくことで精度向上を図る。

新規性・結果・なぜ通ったか？

画像の大きさに対して小さな物体をセグメント化する場合、従来では1段階目の荒い予測を行い、次に2段階目の細かい予測をすることで精度向上を図っていた。しかし、コンテキスト情報の不足などにより、細かい段階での予測の精度が低い。

コメント・リンク集

膵臓のセグメンテーションと多臓器のセグメンテーションの2つのデータセットで精度評価し、SOTA。自ら収集したNIH膵臓セグメンテーションデータセットでも高精度。

論文

[#70]

2018.7.30 21:04:21

Deep Material-aware Cross-spectral Stereo Matching

Tiancheng Zhi, et al.,

CVPR 2018

Munetaka Minoguchi

概要

RGBとNIRによるステレオマッチング手法によって、画像の位置合わせや視差推定を行う研究。深層学習によって異なるスペクトル帯域間の画像を同時に変換し、視差を推定する。視差を推定するDisparity Prediction Network(DPN)とスペクトルを変換するSpectral Translation Network (STN)を提案。DPNの設計は既存の手法だが、入力をRGBとNIRに置き換えている。STNでは，RGB画像をNIR画像に置き換える。

新規性・結果・なぜ通ったか？

図に示すようなRGB画像とNIR画像の異なるスペクトル帯域の画像におけるマッチングは、外観変動の影響で困難とされる。DPNには，マテリアル(光源、フロントガラス、光沢のある表面)を意識したロスを設計することによって高精度に視差を推定。また、車載RGB-NIRステレオシステムによって、実際に路上を撮影。データセット(13.7時間)を構築して評価している。

コメント・リンク集

自ら作成したデータセットにて、高精度かつリアルタイムに処理できることを実証した。

論文

[#71]

2018.7.30 20:47:23

CNN Driven Sparse Multi-Level B-spline Image Registration

Pingge Jiang, James A. Shackleford

CVPR 2018

Kazushige Okayasu

概要

異なる時間に撮影された2つの画像や異なるモダリティを共通の座標系にマッピングする空間変換を再現しようとするタスクにおいて、2つの画像間の変換を記述するための最も適切なパラメータ化を学習することに焦点を当てたmulti-grid B-spline法を提案

CNN_Driven_Sparse_Multi-Level_B-spline_Image_Registration

新規性・結果・なぜ通ったか？

B-splineのパラメータを大幅に削減

コメント・リンク集

論文

[#72]

2018.8.1 14:43:45

Enhancing the Spatial Resolution of Stereo Images using a Parallax Prior

D.S. Jeon, S. Baek, I. Choi and M.H. Kim

CVPR2018

Ryota Suzuki

概要

複数枚画像の超解像といえば主に時系列画像で行われてきたが，本稿ではステレオで行う．このとき，それぞれのステレオで視差が異なるので，視差の考慮が必要である．ステレオ画像から視差は計算できるが，これを基に超解像を行う従来法によるとサブピクセル精度が出せずジャギーが出てしまう．

本稿では，End-to-Endにステレオ画像から視差に基づくシフト量と高解像画像の出力を行うDNNを提案する．構造的には，YCbCrにして照度，カラー成分に分けて2段階で学習するNNを構成，照度画像で，まずシフトを考慮した高解像照度画像を生成．片方の眼の画像のシフト画像を複数枚用意し，もう片方の眼の画像と併せてCNNに入力．出力の高解像照度画像と，低解像のカラー成分画像からCNNで高解像カラー画像を最終的に出力する．

新規性・結果・なぜ通ったか？

従来のステレオベース手法よりなめらかな高解像画像が出力できている．PSNRでよりよいスコアをマーク．シフト量，シフト画像の枚数についても議論．

コメント・リンク集

論文

[#73]

2018.8.1 12:12:48

Learned Shape-Tailored Descriptors for Segmentation

N. Khan and G. Sundaramoorthi

CVPR2018

Ryota Suzuki

概要

テクスチャセグメンテーションにおいて，それぞれのテクスチャ領域において照明条件などの条件に不変な特徴を取りたいが，その時にテクスチャの領域のセグメンテーションがされていないとテクスチャ間の特徴が混ざってしまうという，鶏と卵問題がある．

本研究では，Shape-Tailored Descriptorを提案．様々なスケール，任意の形状領域での向き付き勾配の基本特徴を弁別するNNを学習する．この特徴表現はROIにおける偏微分方程式により定義される．学習したメトリックにより基本特徴を弁別することで，結合最適化問題の定式化及び最適化を行う．これは学習した特徴のグルーピングで行われる．

新規性・結果・なぜ通ったか？

形状もちゃんと考慮された領域の特徴抽出を一つの枠組みで提供できている．

コメント・リンク集

論文

[#74]

2018.7.31 17:16:18

Very Large-Scale Global SfM by Distributed Motion Averaging

Siyu Zhu, Runze Zhang, Lei Zhou, Tianwei Shen, Tian Fang, Ping Tan, Long Quan

CVPR 2018

Goshi Sasaki

概要

入力画像をいくつかのグループに分けて、何百万枚のスケールでglobal SfMを行った。最初に入力画像を相関に基づいて複数のパーティションに分割する。次に、パーティションごとに回転や並進といった変換を求めてから全体の最適化を図り、パーティションの境界を明確化したり、1つの座標系ですべてのカメラを表せるようにした。最後に収束するまで部分最適と全体最適をを繰り返す。

architectur

新規性・結果・なぜ通ったか？

従来手法より多い数百万の入力画像でglobal SfMを行えるようにした入力画像が増加した場合に全体最適化で生じるメモリーの飽和を部分最適化を用いることで回避できるようにした

コメント・リンク集

論文

[#75]

2018.8.1 00:15:36

PiCANet: Learning Pixel-wise Contextual Attention for Saliency Detection

Nian Liu, Junwei Han and Ming-Hsuan Yang

CVPR 2018

Kodai Nakashima

概要

コンテキストはサリエンシー検出タスクにおいて重要な役割を果たす．しかし与えられたコンテキスト領域において，全てのcontextual informationが役に立つわけではない．この研究では，ピクセルごとにinformative context locationを選択的に関与することを学習するため，新たにピクセルワイズなcontextual attention network（PiCANet）を提案する．これにより，ピクセルごとにattention mapを生成することができる．

PiCANet_Learning_Pixel-wise_Contextual_Attention_for_Saliency_Detection.png

新規性・結果・なぜ通ったか？

PiCANetにより，サリエンシー検出のパフォーマンスが向上すること確認した．グローバルおよびローカルのPiCANetは，全体的なコントラストと均質性の学習を容易にする．その結果サリエンシーモデルは，物体をより正確かつ均一に検出することができ，SOTA手法に対して有効に機能する．

コメント・リンク集

論文URL

[#76]

2018.8.1 03:45:52

Learning Structure and Strength of CNN Filters for Small Sample Size Training

Rohit Keshari, Mayank Vatsa, Micha Singh and Afzel Moore

CVPR 2018

Kodai Nakashima

概要

CNNのパラメータが多いため，データセットのサイズが小さいと過学習するという問題がある．この研究ではこの問題を解決するため，SSF-CNNを提案する．これは，フィルタの構造と強度を学習することにフォーカスすることにより，CNNのパラメータ数を減らすことができるという方法である．ここでフィルタの構造は，辞書ベースのフィルタ学習アルゴリズムを使用して初期化され，強度は小さなサンプルトレーニングデータを用いて学習される．これによりアーキテクチャーは，小規模および大規模のトレーニングデータベースの両方を使用した柔軟なトレーニングを提供し，小規模のトレーニングデータでも優れた精度を実現することができる．

Learning_Structure_and_Strength_of_CNN_Filters_for_Small_Sample_Size_Training.png

新規性・結果・なぜ通ったか？

このアルゴリズムの効果を確認するため，はじめにMNIST，CIFAR10とNORBのトレーニングデータ数を変化させながら実験を行った．その結果，SSF-CNNはパラメータの数が減少することを確認した．次にデータセットのサイズが小さいIIITD Newborn FaceとOmniglotを用いて実験を行ったところSOTAな結果を得ることができた．

コメント・リンク集

論文URL

[#77]

2018.8.1 03:05:35

Feature Generating Networks for Zero-Shot Learning

Yongqin Xian, Tobias Lorenz, Bernt Schiele and Zeynep Akata

CVPR 2018

Kodai Nakashima

概要

未知クラスのラベル付きサンプルの必要性を回避するため，画像ではなくCNN特徴量を生成するGAN（f-CLSWGAN）を提案する．クラスレベルのセマンティック情報で条件づけることにより，よりリッチなCNN特徴空間を生成することができるとのこと．

Feature_Generating_Networks_for_Zero-ShsoetenLearning.png

新規性・結果・なぜ通ったか？

ZSL, GZSLの両方の問題設定において，CUB, FLO, SUN, AWA, ImageNetを用いて実験を行ったところ，提案手法によりSOTA手法の精度が向上した．

コメント・リンク集

論文URL

[#78]

2018.8.1 01:18:57

Towards a Mathematical Understanding of the Difficulty in Learning with Feedforward Neural Networks

Hao Shen

CVPR 2018

1462

Kazuki Inoue

概要

smooth optimisationの観点から、多層パーセプトロンに対する数学的な考察を行なった論文。DNNの学習の際に最もよく使われるアルゴリズムであるバックプロパゲーションは局所最適解に収束する可能性があることと、収束が遅いことが問題視されている。本論文ではロス関数のcritical point（停留点）に対する解析を行うことで、局所最適解に収束することなく帯域最適解に収束する条件を確認。また、より速くネットワークの学習を収束させるために、ヘッシアンに対する解析や、帯域的最適解に二次収束するという点でapproximate Newton’s algorithmと呼ばれるGeneralised Gauss-Newtonアルゴリズムを用いた学習による評価を行なった。

Item3Image

新規性・結果・なぜ通ったか？

ロス関数の停留点について解析することで、多層パーセプトロンによる学習が局所最適解に収束することなく、帯域的最適解に収束するための条件を確認。また、より収束を速くするためにヘッシアンについても解析を行なった。
Generalised Gauss-Newton algorithmのパフォーマンスを二次平面上の４つのクラス識別によって調査。二次収束し、バックプロパゲーションよりも速く収束することを確認。活性化関数としてSoftPlusやBent identityを使用することで帯域解へ収束することを確認.

コメント・リンク集

論文の多くのページをMLPについての数学的な解析に割いており、Conclusionチャプターでは”All aspects discussed in this paper require a further systematic and thorough investigation both theoretically and experimentally, and are expected to be also applicable for training recurrent neural networks.”と述べている。
式40本に対して、図が一つ、表0という数学的な論文。しかし、今後のDNNの発展のためには数学的理解はますます重要と考えられるため、積極的に読んでいく必要がある。
論文
Supplementary material

[#79]

2018.7.31 22:45:54

Statistical Tomography of Microscopic Life

Aviad Levis, Yoav Y. Schechner, Ronen Talmon

CVPR 2018

Kazushige Okayasu

概要

ランダムな3D方向、位置、およびスケールを有する3Dボリューム自然物体の断層を投影された2D画像から推定する3D-POPの提案

Statistical_Tomography_of_Microscopic_Life

新規性・結果・なぜ通ったか？

従来手法(SPR)よりスケール変化による推定誤差が少ない

コメント・リンク集

論文

[#80]

2018.7.31 23:22:17

Continuous Relaxation of MAP Inference: A Nonconvex Perspective

D. Khuê Lê-Huu, Nikos Paragios

CVPR 2018

Kazushige Okayasu

概要

MRFにおけるMAP推論の非凸連続緩和法においてADMMに基づく多重線形分解フレームワークを使用し、より効果的な解を求める手法を提案

Continuous_Relaxation_of_MAP_Inference_A_Nonconvex_Perspective

新規性・結果・なぜ通ったか？

最先端のMRF最適化アルゴリズムと比較し、変数と制約の数が少ないため、メモリ効率が良い。また、高度に並列化可能なため，分散アプリケーションやリアルタイムアプリケーションにも適している。

コメント・リンク集

[#81]

2018.7.31 21:53:12

Modeling Facial Geometry using Compositional VAEs

Timur Bagautdinov, Chenglei Wu, Jason Saragih, Pascal Fua, Yaser Sheikh

CVPR 2018

Yue Qiu

概要

Compositional VAEを用いた非線形顔幾何representation学習手法を提案した．様々な顔モデルフィッティングタスクに提案顔幾何representation用いられる．
従来の顔幾何representationがglobal, local linearの2種類に分ける．著者達が顔のglobalとlocal linearモデルがAEと類似することから， Compositional VAEにより顔のglobalとlocal linearモデルを結合できると指摘した．これにより，新たな顔の異なるレベルの詳細を表示できるマルチスケールVAEを提案し，それにより詳細的な顔幾何表現を学習できる．

ModelingFacialGeometry-CVAEs

新規性・結果・なぜ通ったか？

①dense デプスマップ②スパース2D,3D対応付け③shadingから形状リコンストラクションの3つのタスクにおいて提案手法を評価し，従来の線形モデル及びVAEをベースとした手法より良いパフォーマンスを得られた．
提案手法は16人しか含めていないデータセットにより硬質な顔幾何を学習できる．

コメント・リンク集

論文

[#82]

2018.7.31 19:41:50

Deep Adversarial Metric Learning

Yueqi Duan, Wenzhao Zheng, Xudong Lin, Jiwen Lu, Jie Zhou,

CVPR 2018

Yue Qiu

概要

Metric learningに用いられる観測されたnegative examplesからhard negative examplesを生成する手法Deep Adversarial Metric Learning (DAML)を提案した．提案の生成手法を様々な従来metric learning手法に用いられる．
従来のあらゆるデータセットにはeasy negativesがより多い，hard negativesが相対的少ない特徴がある．Metric learningタスクに対し，難しいのはhard negativesとpositivesの相似性を大きくすることである．そこで，提案手法は大量なeasy negativesからhard negativesを生成する手法を提案し，easy negativesから大量な補充情報を用いる
提案手法はadversarial mannerで同時にhard negative generatorとfeature embeddingを学習し，生成した大量なhard negativeから有効的なdistance metricsを学習する．また， negative generatorのロスは①合成サンプルはanchorと近い②合成サンプルのアノテーション情報を保持する③合成サンプルはlearned metricをご認識させるの3つをベースに設計した.

deep_adversarial_metric_learning

新規性・結果・なぜ通ったか？

従来のmetric learning手法は主にeasy negativesをignoreして，提案手法DAMLはeasy negativesをexploitし， easy negativesをhard negativesの生成の補充情報として使用する．これにより生成できるhard negativesはよりpotentialである．
CUB 200-2011, Cars196, Stanford Online Productsの3つのデータセットにおいて実験の結果によりDAMLは従来のmetric learning手法より良いパフォーマンスを得られた

コメント・リンク集

Easy negativesを利用したhard negatives生成が面白い．
論文

凄くすっきりしたネタと論文．

論文

[#86]

2018.7.31 12:18:57

Encoding Crowd Interaction with Deep Neural Network for Pedestrian Trajectory Prediction

Yanyu Xu, Zhixin Piao, Shenghua Gao

CVPR 2018

Shusuke Shigenaka

概要

歩行者ごとで隣接フレーム間の変位を逐次予測するCIDNN(Crowd Interaction Deep Neural Network)を提案．群衆による歩行者の影響のレベルをLSTMによって重み付けをし，従来の手法に比べ，対象の歩行者への空間的親和性の重要度を高くしている．提案手法は以下を可能にし公的に利用可能なデータセットにおいて高精度な軌道予測を実現した．

LSTMベースのモーションのエンコード
位置推定に基づく空間的測定
座標変位に基づく軌道予測

Encoding_Crowd_Interaction_with_Deep_Neural_Network_for_Pedestrian_Trajectory_Prediction

新規性・結果・なぜ通ったか？

歩行者の軌道に影響を及ぼす可能性を空間的特性を維持しながらレベル感を考慮し軌道予測を行った．
キーフレームにおける外観ベースのキーポイントと組み合わせることで各フレームのキーポイント検出をさけ精度を低下させることなく効率的に行った．

コメント・リンク集

論文

[#87]

2018.7.31 12:34:53

Disentangling Factors of Variation by Mixing Them

Qiyang Hu, Attila Szabó, Tiziano Portenier, Matthias Zwicker, Paolo Favaro

CVPR2018

概要

追加のアノテーションやドメイン知識なしに、disentangleな変動要因からなる表現をunsupervisedに学習することが目標。disentangleな変動要因とは、物体の姿勢や色など画像に渡って一貫して識別できる画像特徴に対応する要因のこと(ここではfeature chunkと呼ぶ)。この論文のポイントと提案手法は次の項目。1)disentangleな変動要因表現は、feature chunkの連結によって構成されるということ。2)autoencoderを利用し、不変的な画像属性とfeature chunkをencodeとdecodeすることを促進する目的関数、3)変動要因を見分けられ、各feature chunkが一貫性を持つ表現を確実にするために分類制約したこと。

新規性・結果・なぜ通ったか？

前述の2)に関して、図のようなmixing autoencoderとadversarial learningを組み合わせたことが新しい。encoderとdecoderが(画像全体を表現するのに十分であれば)ただ一つのfeature chunkで表現できてしまう問題(shortcut problem)を分類制約を加えることで回避したことも新しい。

コメント・リンク集

この論文のキーアイデアは、論文中のmixされたx1の属性がx3にdecodeされ、再びencodeされたときx1の属性が保存されていることであり、cycle構造のようで、この論文に似ていた。これをclassifierと組み合わせてdisentangleな特徴抽出を行ったのはおもしろい。だが、これでdisentangleな特徴が得られているのか、比較が単純なAEだけ(VAEやほかの関連研究との比較が不足)、など評価方法に疑問が残る。

論文

[#88]

2018.7.31 12:52:58

Preserving Semantic Relations for Zero-Shot Learning

Yashas Annadani, Soma Biswas

CVPR 2018

Yue Qiu

概要

セマンティック空間の構造を利用したunseen categories識別のための新たなZero-shot learningの手法を提案した．
従来のrankingベースなZero-shot learningの手法はfixed marginなどの原因で，セマンティック構造が失ってしまう問題点がある．著者達がZero-shot learningタスクに対し①識別能力②unseen categories識別のためにセマンティック空間の特性をinhertingすることの2つが重要と指摘し，識別能力を保ちながら，セマンティック関係も守れる手法を提案した．
具体的には①semantic space構造をカテゴリ間のrelationsに分解する②relationsを更に3種類に分解する：identical; semantic similar; semantic dissimiar.③指定されたカテゴリに対して，semantic tupleを求め， semantic tupleに現状のカテゴリと3種類の関係を持つほかのクラスのサンプルを記録する．また，embedding spaceのこういった関係を保つようなロス関数を設計した．

PreservingSemanticRelations-ZeroShotLearning

新規性・結果・なぜ通ったか？

SUN, AWA2, CUB, aPYなどのデータセットにおいてSoTAなzero-shot learningパフォーマンスを得られた．
提案手法を用いてattribute informationなしのカテゴリに対してsemanticの推定も行えると指摘した．

コメント・リンク集

Unseen categoryに対してsemanticを予測するタスクも面白いと思う
論文

[#89]

2018.7.31 12:28:55

Smooth Neighbors on Teacher Graphs for Semi-supervised Learning

Yucen Luo, Jun Zhu, Mengxi Li, Yong Ren, Bo Zhang

CVPR 2018

Yue Qiu

概要

Self-supervise学習のための学習済みの教師グラフのneighboring pointsをregularizeする手法SNTGを提案した．
従来のSelf-supervise学習の一つの種類では，data pointにpertubationsを追加する手法がある．このような手法では，従来単一のdata pointに対しpertubationsを追加，data points間のconnetctionsが考えられなかった．このため，従来手法がunlabeled data structureの clusters, manifoldsなどの情報を利用できない．このような問題点から， Smooth Neighbors on Teacher Graphs (SNTG)を提案し，data points間のconnectionsを考慮したdata manifoldのsmoothness手法を提案した．
具体的には①SNTGが教師モデルの予測をベースにgraphを構築する②構築したgraphを用いてneighboring pointsの相似性を評価する，低い次元のmanifoldでneighboring pointsがsmoothである．このようなプロセスを用いて，neighboring pointsが相似し，non-neighborが相似しないように学習される．

SmoothNeighborsOnTeacherBraphs-SemiSupervisedLearning

新規性・結果・なぜ通ったか？

Semi-supervised学習ベンチマークでSoTAな結果を得られた．CIFAR-10(4000 labels):9.89%error rates, SVHN(500 labels):3.99%error rates.
クラス数が少ない場合，大幅に進歩が従来より大きい．MNIST(20 labels)ではerror ratesを4.81%から1.36%に下げた.

コメント・リンク集

Self-supervised学習が面白い
論文
link3

[#90]

2018.7.31 12:20:27

Structured Uncertainty Prediction Networks

Garoe Dorta, Sara Vicente, Lourdes Agapito, Neill Campbell, Ivor Simpson

CVPR 2018

Yue Qiu

概要

合成画像のStructured uncertainty distributionを予測する手法を提案した．提案手法をAE, VAEなどと組み合わせにより良いパフォーマンスを得られる．
伝統的なfactorized Gaussian distributions により生成したサンプルが平滑しすぎる問題点がある．著者達がこの問題を解決するために，trained probabilistic生成モデルからresidual distributionを予測するネットワークを提案した．特に，structured Gaussian distributionによりresidual distributionをモデリングする．提案ネットワークがmaximum likelihood estimationにより学習可能であり，従来のfactorized Gaussian distributions と比べよりリアルで詳細的な画像を生成できると指摘した．

Structured_Uncertainty_Prediction_Networks

新規性・結果・なぜ通ったか？

提案手法が有効的に合成画像のresidual distributionをリコンストラクでき，リアル顔画像から高頻度で，より詳細的な類似顔画像を生成できる．

コメント・リンク集

伝統的なVAE, AEと組み合わせしてよりリアルな画像を生成できるので，合成データを作成する場合に参考になれる．
処理詳細についてよく理解できていなかった
論文

[#91]

2018.7.31 11:38:58

What do Deep Networks Like to See?

Sebastian Palacio, Joachim Folz, Andreas Dengel, Jörn Hees, Federico Raue

CVPR 2018

Yue Qiu

概要

クラス識別器がどのような入力信号により識別を行っているかにより新たなDCNN理解・解釈性に関する手法を提案した．
提案手法は①Auto-Encoderを学習する②評価対象となる物体識別器を学習する③①のencoder,②の識別器のパラメータをfixして，AE+Classifierをfinetuning.④ finetuning後のdecoderの結果を分析することによりDCNNの分析・解釈を行う．また，提案手法がAE+classifierで行う理由が①decoderがclassifierが使用する有用な情報を保護し，いらない情報を捨てる効果がある②再学習によりAEがノイズなどの元の入力の邪魔になる部分を減衰させる方法で入力を再構成するように学習できる．

WhatDoDeepNetworksLikeToSee

新規性・結果・なぜ通ったか？

従来のDCNN解釈性の方法は主に中間層あるいは出力層の表現より分析を行っている．この文章で入力信号をどれくらい用いるかにより新たな視点でDCNN解釈性を取り組んだ．
提案手法は実験に用いた全部の識別器が少ない入力信号しか頼らないことを発見した．(例えばResNet:<10%)このようなことから， DCNN識別器がadversarial examplesによりロバストではないことがわかる．

コメント・リンク集

入力画像信号のかなり少ない部分しか識別器の結果に影響する発見が面白い．いかに入力画像の信号をより多く推定に使用することがロバスト識別に重要です．
論文

[#92]

2018.7.31 11:33:24

A Revised Underwater Image Formation Model

Derya Akkaynak, Tali Treibitz

CVPR 2018

Kazushige Okayasu

概要

現在の水中画像形成モデルでは無視されていたより多くの依存関係を実際に導入することにより，画像補正を行う．

A_Revised_Underwater_Image_Formation_Model

新規性・結果・なぜ通ったか？

理論的分析と現実世界の実験を通して、一般的に使用される水中画像形成モデルがこれまで説明されていなかった誤差を生じることを実証した。

コメント・リンク集

[#93]

2018.7.31 12:16:43

Inference in Higher Order MRF-MAP Problems with Small and Large Cliques

Ishant Shanu, Chetan Arora, S.N. Maheshwari

CVPR 2018

Kazushige Okayasu

概要

一般的なMRF-MAP問題はNP-hardだが、ポテンシャル関数がsubmodularのとき、多項式時間で解くことができる。この式を解くためには、フローベースのアプローチと多面体ベースのアプローチがある。その2つのアプローチを組み合わせるフレームワークを提案

Inference_in_Higher_Order_MRF-MAP_Problems_with_Small_and_Large_Cliques

新規性・結果・なぜ通ったか？

Generic Cuts やSOSMNPのようなアルゴリズムを組み合わせることの有効性を確立

コメント・リンク集

CNNじゃない論文

[#94]

2018.7.31 10:55:22

Radially-Distorted Conjugate Translations

James Pritts，Zuzana Kukelova，Viktor Larsson，Ondˇrej Chum

CVPR

Kazuki Tsubura

概要

適度に歪んだレンズの画像であっても,，ピンホールカメラモデルを使用した平面補正は不正確または無効である．提案するソルバーは，カメラモデルにレンズ歪みを組み込み，精密な整流をワイドアングル画像に拡張する．これは現在コンシューマカメラにおいて一般的である．ソルバーは，放射状のレンズ歪みのための分割モデルと統合された，撮像されたシーン平面の共役変換によって誘発される制約から導かれる．理想的な彩度を持つ隠れ変数のトリックを使用して制約を再定式化し，Gröbner法で生成されたソルバーが安定し，小さくて速くなるようにする．

Item3Image

新規性・差分

整流およびレンズ歪みは，共役的に翻訳されたアフィン - 共変動特徴または2つの独立して翻訳された類似共変動特徴のいずれかから回復される．提案されたソルバーはRANSACベースの推定器で使用され，少数の反復後に正確な整流が行われる．提案されたソルバーは最先端技術に対して評価され，ノイズの多い測定で大幅に改善された整流を表現する．

結果

合成実験では，最先端技術と比較して，提案されたソルバーの整流精度およびレンズ歪み推定の測定に関して，良好な安定性およびノイズに対する優れた堅牢性を実証した．しかしながら，分割モデルによって歪められた共役変換から生じる多項式制約式は，安定したソルバーを生成するために隠れ変数トリックで変換される必要がある，定性的な実像実験では，高度に歪んだ広角レンズのための高品質の整流を表現した．

論文

[#95]

2018.7.31 10:53:26

Deeply Learned Filter Response Functions for Hyperspectral Reconstruction

Shijie Nie，Lin Gu，Yinqiang Zheng，Antony Lam，Nobutaka Ono，Imari Sato

CVPR2018

Kazuki Tsubura

概要

RGBイメージングからのハイパースペクトル再構成は，疎なコーディングと深い学習を経て著しい進歩を遂げているが，既存のRGBカメラが人間の三色知覚を模倣するように調整されているため，それらのスペクトル応答はハイパースペクトル再構成に必ずしも最適ではない．この論文では，RGBスペクトル応答を使用するのではなく，（ハードウェアで実施される）最適化されたカメラスペクトル応答関数と，エンドツーエンドネットワークを使用するスペクトル再構成のためのマッピングとを同時に学習する．

Item3Image

新規性・差分

私たちのコアアイデアは，カメラスペクトルフィルタが畳み込み層のように効果的に作用するから，標準的なニューラルネットワークを訓練することによって，それらの応答関数を最適化することができる．我々は，空間モザイク処理を用いない3チップ構成と，Bayer形式の2×2フィルタアレイを用いた単一チップ構成の2種類の設計されたフィルタを提案する．数値シミュレーションは，既存のRGBカメラと比較して深く学習されたスペクトル応答の利点を検証する．

結果

深い学習手法を用いて非負の無限大空間におけるフィルタ応答関数を学習する方法を示した．特殊な畳み込みレイヤーをU-netベースの再構成ネットワークに追加し，3つの独立したフィルタとBayerスタイルの2x2フィルタアレイの形で、標準RGBレスポンスより優れた応答関数を確認できた．実際のマルチスペクトルカメラを構築するために，CCDカメラの応答を設計プロセスに組み込んだ．2つのフィルタをうまく設計/実装し，スナップショットハイパースペクトル画像のためのデータに基づいたバイスペクトルカメラを構築しました．

論文

[#96]

2018.8.1 05:09:47

Crowd Counting with Deep Negative Correlation Learning

Zenglin Shi，Le Zhang，Yun Liu，Xiaofeng Cao，Yangdong Ye，Ming-Ming Cheng，Guoyan Zheng

CVPR2018

Kazuki Tsubura

概要

深い畳み込みネットワーク（ConvNets）は，多くのコンピュータビジョンタスクで前例のないパフォーマンスを達成しているが，単一の画像を集める集団への彼らの適応はまだ未熟な状態であり，過度の過度のフィッティングに苦しんでいる．ここでは深い負の相関学習（NCL）によって一般化可能な特徴を生成する新しい学習戦略を提案する．より具体的には，本質的な多様性を管理することによって，健全な一般化能力を持つ無相関回帰変数のプールを深く学習する．

Item3Image

新規性・差分

無相関ConvNet（D-ConvNet）という名前の提案方法は，エンドツーエンドで訓練可能であり，バックボーン完全畳み込みネットワークアーキテクチャから独立している．非常に深いVGGNetとカスタマイズされたネットワーク構造に関する広範な実験は，いくつかの最先端の方法と比較した場合のD-ConvNetの優位性を示している．

結果

Decorrelated ConvNet（D-ConvNet）と名付けた提案方法が，固有の多様性を管理することによって健全な一般化能力を有することを示している．DConvNetは，一般的であり，バックボーン完全畳み込みネットワークアーキテクチャから独立している．非常に深いVGGの広範な実験や，いくつかの難しいデータセットでカスタマイズされたネットワーク構造がD-ConvNetの優位性を実証した．

論文

[#97]

2018.8.1 04:44:51

A Hybrid l_1−l_0 Layer Decomposition Model for Tone Mapping

Zhetong Liang，Jun Xu，David Zhang，Zisheng Cao，Lei Zhang

CVPR2018

Kazuki Tsubura

概要

トーンマッピングは，視覚情報が保存された高ダイナミックレンジ画像から標準ダイナミックレンジ画像を再現することを目的とする．最先端のトーンマッピングアルゴリズムは，主に画像を基本レイヤーと詳細レイヤーに分解し，それに応じて処理する．本論文では，これらの問題に対処するハイブリッドl_1−l_0分解モデルを提案する．我々はさらに，我々の層分解モデルに基づいてマルチスケールトーンマッピングスキームを提案する．

Item3Image

新規性・差分

最先端のトーンマッピングアルゴリズムは，主に画像を基本レイヤーと詳細レイヤーに分解し，それに応じて処理します．これらの方法は，2つの層に課せられた適切なプリヤの不足のために，ハローアーティファクトおよび過度の増強の問題を有する可能性がある．本論文では，これらの問題に対処するハイブリッドl_1−l_0分解モデルを提案する．具体的には，基底層には，その区分的な平滑性をモデル化するために，1つの希薄項が課される．ディテールレイヤーには構造優先として「0」の希薄語が課され，これは区分的に一定の効果をもたらす．我々はさらに，我々の層分解モデルに基づいてマルチスケールトーンマッピングスキームを提案する．

結果

実験では，トーンマッピングアルゴリズムは，主観評価と客観評価の両方で最先端のトーンマッピングアルゴリズムより優れたハローアーチファクトで視覚的に魅力的な結果を達成した．

論文

[#98]

2018.7.31 12:43:07

Spatially-Adaptive Filter Units for Deep Neural Networks

Domen Tabernik，Matej kristan，Ales Leonardis

CVPR2018

Kazuki Tsubura

概要

古典的なD-ConvNetは，パラメータの数の増加を防ぐために，徐々に分解能を低下させるか，手作業で拡張した畳み込みを適用することによって受容野のサイズを増加させる．本論文では，手作業を必要としない新しい変位型集約ユニット（DAU）を提案する．固定された規則的なグリッド上に配置された単位（ピクセル）を有する古典的なフィルタとは対照的に，DAUの変位が学習され，フィルタが受容野を所与の問題に空間的に適応させる．通常のフィルタを備えたConvNetsと比較して，DAUを備えたConvNetsは，より速いコンバージェンスと，パラメータの最大3倍の低減で同等の性能を実現します．

Item3Image

新規性・差分

分類およびセマンティックセグメンテーションタスクでDAUの強さを広範に実証している．通常のフィルタを備えたConvNetsと比較して，DAUを備えたConvNetsは，より速いコンバージェンスと，パラメータの最大3倍の低減で同等の性能を実現する．さらに，DAUにより，斬新な視点からDeepNetWorkを研究することができる．DAUフィルタの空間分布を研究し，フィルタ内の空間カバレッジに割り当てられるパラメータの数を分析する．

結果

フィルタごとのパラメータ割り当てに関する包括的な調査では，既存のConvNetsのパラメータの非効率的な割り当てが示された．DAU-ConvNetsは従来のCovnNetsに匹敵する性能をフィルタ当たり3倍少ないパラメータで達成した．分析によれば，増幅係数が最も低いユニットを除去することで，性能を犠牲にすることなくパラメータの10％を節約することができるため，さらなる改善の余地があることがわかる．さらに，完全に接続されたレイヤにDAUを適用するための最近の予備的な作業は，完全に接続されたレイヤのパラメータの節約も可能であることを示している．

論文

[#99]

2018.8.1 04:57:02

Learning Multi-Instance Enriched Image Representations via Non-Greedy Ratio Maximization of the l1-Norm Distances

K. Liu et al.,

CVPR 2018

Kensho Hara

概要

Multi-instance learning (MIL) で画像中に複数のインスタンス (patch) があるものを表現する話．従来手法だとインスタンスごとの表現はされるものの画像全体のGlobal表現が落ちているものが多かった．加えて，従来だと複数のベクトルで画像を表現するものがあるが，それはやりづらいので単一のベクトルで表現可能なことが望ましい．そこでこの研究では，複数のインスタンスと全体のコンテキスト情報を合わせて単一の特徴ベクトルで表現するための手法を提案．

新規性・結果・なぜ通ったか？

MILにおいてインスタンスだけでなく画像全体も合わせて単一のベクトルで特徴表現するための手法を提案
それを実現するための目的関数と最適化方法の部分で理論的に新規性がありそう?

コメント・リンク集

論文
非Deep論文で，関連研究とか比較手法としてすらDeepの話が一単語も出てこないのすごい．
特徴表現を提案している論文っぽく見えるのに，実験の比較はSVMなど識別器と比較しているのがちょっとよくわからない．
Non-greedy Ratio Maximization of the L1-norm Distancesという論文の肝っぽいところもよくわかってない...

[#100]

2018.7.11 15:45:23

Manifold Learning in Quotient Spaces

Eloi Mehr, Andre Lieutier, Fernando Sanchez Bermudez, Vincent Guitteny, Nicolas Thome, Matthieu Cord

CVPR 2018

2989

Kazuki Inoue

概要

3D shapeを学習する際にposeに独立なgeometryの潜在変数空間を学習するネットワークであるquotient autoencoder(QAE)を提案。通常のAEに加えて、orbit poolingとquotient lossという2つのアイディアを追加した。orbit poolingでは、入力された3D shapeに対して様々な回転を与えそれらから得られる潜在変数のうち、各成分の最大値をその3D shapeを表現する潜在変数とする。quotient lossでは、リコンストラクションされた3D shapeと参照3D shapeの距離の下限をロスとして採用する。この2つの方法によってposeに不変な潜在変数空間を構築する。

Item3Image

新規性・結果・なぜ通ったか？

ShapeNet datasetを用いてデータオーギュメンテーションを行なった通常のVAEと比較。
リコンストラクションした際のdepth map、ボクセルの誤差においてもっとも高い精度を達成。
一度QAEを学習すれば、同一3D shapeに対して任意の回転を与えた出力を行うことが可能。
orbit pooling においてRBFを用いた非剛体変形を学習させることも可能。

コメント・リンク集

3D shapeに特化したモデル構築ではなく一般的な枠組みなので、他のデータ入力にも対応可能だと考えられる。
論文
Supplementary material

[#101]

2018.7.30 20:32:01

Single Image Dehazing via Conditional Generative Adversarial Network

Runde Li, Jinshan Pan, Zechao Li and Jinhui Tang

CVPR2018

Kenichiro Wani

概要

本稿では，かすんでいる画像から鮮明な画像を復元する手法を提案する。既存の手法では伝送マップおよび大気光を推定するために，例えば暗いチャネル，色の視差，最大のコントラストといった手作りの特徴を使用することが多い。本稿ではこの問題を条件付き生成的対立ネットワーク（cGAN）に基づいて解決する。ここで，鮮明な画像は，end-to-endの訓練可能なニューラルネットワークによって推定される。基本的なcGANの生成ネットワークとは異なり，本稿ではより良い結果を生み出すことができるように，エンコーダとデコーダのアーキテクチャを提案する。

Item3Image

新規性・結果・なぜ通ったか？

・条件付きGANを用いることにより，かすんでいる画像から鮮明な画像の生成を実現している。・鮮明な画像を生成するためにVGGフィーチャとL1正規化勾配を事前に導入することによって，基本のcGANフォーメーションをさらに修正している。

コメント・リンク集

link

[#102]

2018.7.30 21:17:04

The power of ensembles for active learning in image classification

William H. Beluch, Tim Genewein , Andreas Nurnberger and Jan M. Kohler

CVPR2018

Tenga Wakamiya

概要

本稿では高次元のデータと畳み込みニューラルネットワーク分類機を用いたアクティブ学習から最近提案されたいくつかの手法の検討をする．モンテカルロドロップアウト手法と幾何学手法に対してアンサンブルベースと比較する． MNISTとCIFAR-10の結果を示し，約12,200個のラベル付き画像で90％のテストセット精度を達成し，ImageNetで初期結果を得た．

The_power_of_ensembles_for_active_learning_in_image_classification.png

新規性・結果・なぜ通ったか？

アンサンブルベースの不確かさは，他の不確かさ推定方法（特にMCドロップアウト）よりも一貫して優れていることを示し，MNISTとCIFAR-10の最先端のactivity learningパフォーマンスにつながる．

コメント・リンク集

[#103]

2018.7.30 20:47:28

Geometric Multi-Model Fitting with a Convex Relaxation Algorithm

P.Amayo, P.Pini´es, L.M. Paz and P.Newman

CVPR2018

Kota Yoshida

概要

凸緩和を介して複数の幾何モデルを複数の構造データにフィッティングするための新しい方法を提案．COnvex Relaxation Algorithm（CORAL）を用いて多次元データを適合させ、セグメント化するための新しい最適化を行う．復ごとに同等のアーキテクチャで2桁の速さで最小化されるため、より多くの幾何学的マルチモデルフィッティング問題にリアルタイムで堅牢なパフォーマンスを得た．

新規性・結果・なぜ通ったか？

COnvex Relaxation Algorithm（CORAL）は幾何学的マルチモデルフィッティングのための最適最小化アルゴリズム
ラベルに対するポイントごとの評価を同時に処理することにより、本質的にランタイムパフォーマンスを向上

コメント・リンク集

Paper

[#104]

2018.7.30 21:04:46

FOTS: Fast Oriented Text Spotting with a Unified Network

X.Liu, D.Liang, S.Yan, D.Chen, Y.Qiao and J.Yan

CVPR2018

Kota Yoshida

概要

既存のテキストの認識手法は，検出と認識を別のタスクとして扱う物が多い，しかし，本研究では，同時に検出と認識をするためのend-to-endで学習可能なFast Oriented Text Spotting（FOTS）を提案する．ICDAR 2015、ICDAR 2017 MLT、およびICDAR 2013を用いた文字の検出，識別の評価実験では既存の手法と比較してSoTAであった．

新規性・結果・なぜ通ったか？

フレームワークをend-to-endとし，畳み込んだ特徴を共有することで，わずかな計算オーバーヘッドで同時にテキストを検出，認識することができ速度が向上．
畳み込んだ特徴マップから方向付けられたテキスト領域を抽出するためのRoIRotateを導入し，検出と識別の工程を結合．

コメント・リンク集

YouTubeを見てみたが検出・識別する速度が早い！
Paper
YouTube

[#105]

2018.7.30 02:12:34

A Robust Method for Strong Rolling Shutter Effects Correction Using Lines with Automatic Feature Selection

Yizhen Lao and Omar Ait-Aider

CVPR2018

Kazuho Kito

概要

一組のイメージカーブを用いて，3D直線に対応するという知識に基づき単一画像内のRS歪みを補正するロバストな方法を提案．一様な運動モデル下で移動するローリングシャッターカメラによって出現する3D直線の投影のためのパラメトリック方程式を定式化し，少なくとも4つのイメージカーブを用いて，姿勢パラメータとは別にカメラの角速度を効率的に推定する方法を提案．さらに，3D直線に対応するイメージカーブを選択し，3次元での実際のイメージカーブを選択するRANSACのような戦略を提案．

A_Robust_Method_for_Strong_Rolling_Shutter_Effects_Correction_Using_Lines_with_Automatic_Feature_Selection_2.PNG

新規性・結果・なぜ通ったか？

・　合成データと実データの両方を用いた比較実験によりstate-of-the-art．

コメント・リンク集

論文

[#106]

2018.7.30 20:54:33

Discrete-Continuous ADMM for Transductive Inference in Higher-Order MRFs

Emanuel Laude, Jan-Hendrik Lange, Jonas Schupfer, Csaba Domokos, Laura Leal-Taixe, Frank R. Schmidt, Bjoern Andres and Daniel Cremers

CVPR2018

Kazuho Kito

概要

高次のMRF(Markov Random Field)によるトランスダクティブ推論のための新しいアルゴリズムの提案．MRFでは単項式のエネルギーは可変分類器によってパラメータ化され，連続的な分類子のパラメータと離散的な変数の共同最適化問題として提起される．問題解決のために，凸緩和などの従来手法と対照的にADMM(Alternating Direction Method of Multipliers)での効率的な最適化手法として関連目的関数を離散的かつ連続的な問題に切り離すことを提案．離散変数の完全性を保ち，臨界点への大域収束性を保証している.

Discrete-Continuous_ADMM_for_Transductive_Inference_in_Higher-Order_MRFs.PNG

新規性・結果・なぜ通ったか？

・　MAPの推論問題の準最適解を得ることができ，計算上より困難なMRFを考慮することが可能．・　k-meansと対照的に深層特徴と統合される・　従来手法より一貫した結果となり，ランタイム，メモリ消費について効率的．

コメント・リンク集

論文

[#107]

2018.7.30 20:52:40

Feature Quantization for Defending Against Distortion of Images

Zhun Sun, Mete Ozay, Yan Zhang, Xing Liu and Takayuki Okatani

CVPR2018

Kazuho Kito

概要

画像歪みに対するCNNの頑健性を改善する研究．特徴分布の高いモーメント統計は画像の歪みによってシフトする可能性があり，性能低下につながる．この効果を低減するために，特徴量の量子化によるアプローチを提案．1)スケーラブルな分解能を持つ床関数，2)学習可能な指数を持つ累乗関数，3)データ依存指数を用いた累乗関数の3種類の非線形関数をCNNに採用．

Feature_Quantization_for_Defending_Against_Distortion_of_Images.PNG

新規性・結果・なぜ通ったか？

・　提案手法を用いたResNet-50でモーションブラー，ごま塩ノイズ，それらの複合の歪みで歪んだ画像を用いたILSVRC-12分類タスクでそれぞれ6.95%，5.26%，5.61%の精度向上．

コメント・リンク集

論文

[#108]

2018.7.30 20:50:32

Viewpoint-aware Attentive Multi-view Inference for Vehicle Re-identification

Yi Zhou and Ling Shao

CVPR2018

Kazuho Kito

概要

多視点での車両の再識別問題を解決するために，視覚情報のみを用いたViewpoint-aware Attentive Multi-view Inference(VAMI)モデルを提案．VAMIは，任意の視点の車両画像を与えると，入力画像毎に単一視点の特徴を抽出し，その特徴を可変多視点の特徴表現に変換する．また，異なる視点で重要となるコア領域を選択し，敵対的学習で効果的なマルチビューの特徴推論を実装するため，視覚的なアテンションモデルを採用．

Viewpoint-aware_Attentive_Multi-view_Inference_for_Vehicle_Re-identification.PNG

新規性・結果・なぜ通ったか？

VeRiとVehicleIDの2つのデータセットでの車両の再識別についてstate-of-the-artよりも改善．

コメント・リンク集

論文

[#109]

2018.7.30 20:44:31

MovieGraphs: Towards Understanding Human-Centric Situations from Videos

Paul Vicol, Makarand Tapaswi, Lluís Castrejón and Sanja Fidler

CVPR2018

Kazuho Kito

概要

MOVIE graphsという新しいデータセットの提案．映画のクリップ中の社会的状況のグラフベースのアノテーションを詳細に行ったデータセットであり，各グラフは現在誰が写っているのか，感情や体格はどうか，複数人写っている場合の関係は，それらの間のインタラクションはといったさまざまなノードで構成されている．また，データセットの徹底的な分析を行い，時間経過とともにシーンの異なる社会的側面の興味深い常識的な相関関係を示す．グラフを用いてビデオとテキストを照会する方法として１）私たちのグラフは各場面をまとめて複数の意味的に関連する状況を取り出す方法，順序付けと理由の理解を通してインタラクションの理解のための方法を提案．

MovieGraphs_Towards_Understanding_Human-Centric_Situations_from_Videos.PNG

新規性・結果・なぜ通ったか？

・　人間中心の状況の推論された特性に焦点を当てた最初のベンチマークである．・　各クリップには，シチュエーションラベル，シーンラベル，および支援言語の説明がアノテーションされおり，視覚的かつ時間的に接地されている．グラフのキャラクターはクリップの中の顔のトラックに関連付けられ，ほとんどのインタラクションは発生する時間間隔に関連付けられる．

コメント・リンク集

[#110]

2018.7.30 20:47:40

Beyond Holistic Object Recognition: Enriching Image Understanding with Part States

Cewu Lu, hao Su, CK Tang

CVPR 2018

Yue Qiu

概要

新たな画像からPart stateをピクセルレベルで予測するタスク及び手法を提案した．(例:車のドアを入力画像から検出し，状態はopened)
著者達が物体パーツのセマンティックスペースを離散的なpart stateによりtokenizeし，各々のオブジェクトパートが一組のstateと関連する．推定段階ではピクセルレベルで物体パーツを検出し，stateをphraseにより出力する．また，提案タスクに用いられる新たなデータセットを構築した(画像はPASCAL VOC2010を用いた)．
RGB-S(入力画像と推定したパーツセグメンテーション画像)からinteractiveでparts stateの予測を精密化するネットワークを提案した．

BeyondHolisticObjectRecognition

新規性・結果・なぜ通ったか？

新たなpart stateデータセットを提案．
提案手法をオブジェクトrelationship推定タスクにも用いられる．また，実験により提案手法が有効的にセマンティックパーツstatesを予測できる．

コメント・リンク集

従来のパーツセグメンテーションより一層理解のレベルが高い．また，提案のパーツstates推定が様々なほかのタスクに用いられる．
VQA, Image captioningなどの画像理解部として用いられそう
論文

[#111]

2018.7.30 20:53:34

InLoc: Indoor Visual Localization with Dense Matching and View Synthesis

Hajime Taira, Masatoshi Okutomi, TTorsten Sattler, Mircea Cimpoi, Marc Pollefeys, Josef Sivic, Tomas Pajdla, Akihiko Torii

CVPR 2018

Yue Qiu

概要

大規模室内画像の6Dカメラ姿勢推定の手法InLocを提案した．提案手法がquery画像と大規模室内3次元マップからquery画像のカメラ姿勢推定を行う．大規模室内における新たな視覚的位置推定手法を提案した．具体的には：①大規模環境から候補姿勢を推定する②dense matchingを用いたテクスチャーレスシーンにも用いられる姿勢推定を行う．③視点合成をベースとした姿勢検証を行い，視点，シーンレイアウト，遮蔽にロバストに対応できるようにした．
大規模室内環境の画像の6Dカメラ姿勢推定用データセットを提案した．提案データセットのquery画像が手持ち携帯カメラにより異なる時間帯で収集され，ロバストアルゴリズムに用いられる．

InLoc

新規性・結果・なぜ通ったか？

初めてのdense data associationを用いた室内環境位置推定手法であると指摘した．
提案したデータセットにおいて，従来手法より大幅に精度向上を実現した．

コメント・リンク集

室内の画像6D姿勢推定はかなり挑戦的なタスクのように思う．
論文

[#112]

2018.7.30 20:49:59

3D Semantic Trajectory Reconstruction from 3D Pixel Continuum

Jae Yoon, Ziwei Li, Hyun Park

CVPR 2018

Yue Qiu

概要

大規模3D synchronizedマルチビデオからヒューマンインタラクションのdense semantic trajectory streamを再構成する手法の提案．
マルチビデオからヒューマンインタラクションの軌跡を推定するにあたり，自己遮蔽，2Dノイズ，軌跡がfragmentedであるなどの問題点がある．著者達は，多視点の中により確信度が高い視点が存在するとして，そのような視点を導くための軌跡のセマンティックラベルの概率分布図3D semantic mapを提案した． 3D semantic mapは可視性および2D認識の確信度をベースとしたview poolingにより生成できる．また，密な軌跡が得られる場合，同じ物体の軌跡を局所剛体変換により表示できることから， 3D semantic map から局所剛体変換を推定することにより長距離軌跡に対応できる軌跡ラベル推定を行う．

3DSemanticTrajectoryReconstruction

新規性・結果・なぜ通ったか？

リアル環境でオブジェクト，シーンまたは人などとインタラクションする人のセマンティック軌跡推定実験を行い，定性的結果により提案手法が①推定の正しさ②ロバスト性③長距離での有効性などの面においてベースライン手法より良い表現を達成した．

コメント・リンク集

人をVR環境に再生することに用いられそう
論文

[#113]

2018.7.30 20:45:28

Attentional ShapeContextNet for Point Cloud Recognition

Saining Xie, Sainan Liu, Zeyu Chen, Zhuowen Tu

CVPR 2018

Yue Qiu

概要

PointCloudデータをCNNにより直接取り扱う新たなネットワークSCN(Shape Context Net)を提案した．クラシックなshape contextを階層的なCNNと組み合わせることをベースとした．
提案手法は従来のshape contextをCNN Building Blockにした．このblockを積み重ねることにより，局所からグローバル特徴を表せる．Shape Context Blockは具体的には，selection，aggregation，transformationから構成される．① selection：coarseグループとなる局所ポイントを選択する．②aggregation：相対位置の分布を捉えられるrobust descriptorを構築③transformation：異なる領域のポイントグループのdescriptorsを高次な特徴空間に射影する．

AttentionalShapeContextNet-PointCloudRecognition

新規性・結果・なぜ通ったか？

提案のShape context blockをCNNより取り扱えるほか，hand designedな特徴量も適応できる．
提案のshape context blockをベースとしたpointcloud分類，セマンティックセグメンテーションネットワークはshapenet，modelnet40などのデータセットにおいてSoTAなパフォーマンスを達成した．

コメント・リンク集

PointNetと類似し，PointNet++より簡潔な構造を持っている．
論文

[#114]

2018.7.30 20:40:36

Progressively Complementarity-aware Fusion Network for RGB-D Salient Object Detection

Hao Chen, You fu Li

CVPR 2018

Yue Qiu

概要

Cross-modal, cross-levelな特徴を融合するEnd-to-EndなRGB-D salient物体検出ネットワークを提案した．
従来のRGB-Dデータを取り扱うネットワークは直接RGB，Dの特徴を連結するか，深い層の特徴だけ融合する事が多い．著者達は①もっと明示的にcross modalのcomplementary part をモデリングするべき②全部のレベルでcomplementを探索するべきの2つのところから，complementarity awareなネットワーク(CA Fuse)を提案し，CNNの層ごとにcross modalの特徴を結合する． CA Fuseに浅いから深い層までlevel-wiseに教師信号により，cross-levelなcomplementがより良く組み合わせられると指摘した．

ProgressivelyComplemetarity-awareFusionNetwork

新規性・結果・なぜ通ったか？

提案手法がcross modal, cross levelでRGBとDの情報を結合することにより，より有効的にRGBとDを融合できる．
NLPR, NJUD, STEREOデータセットにおいてSoTAなsalient物体検出パフォーマンスを得られた．

コメント・リンク集

RGBとDをいかに融合した方が良いのかを紹介しているので，一度実装してみたい
論文

[#115]

2018.7.30 20:35:22

Wide Compression: Tensor Ring Nets

Yifan Sun et al.

CVPR2018

1802.09052

Takumu Ikeya

概要

DNNにおける全結合層と畳み込み層の両方のパラメータを圧縮するTensor Ring Networks (TR-Nets)を提案した．
実験によりTR-NetsはLeNet-5を精度の劣化なしに1/11に圧縮できることを示し，Cifar10の画像分類タスクにおいてWide ResNetを2.3%の劣化で1/243に圧縮できることを示した．

新規性・結果・なぜ通ったか？

既存の手法では主に全結合層のパラメータの圧縮に着目していたが，本研究では層の深いニューラルネットワークにおける全結合層と畳み込み層の多次元のテンソルパラメータを圧縮する手法を提案した．

コメント・リンク集

論文

[#116]

2018.7.30 23:08:59

Deep Lesion Graphs in the Wild: Relationship Learning and Organization of Significant Radiology Image Findings in a Diverse Large-Scale Lesion Database

Ke Yan et al.

CVPR2018

1711.10535

Takumu Ikeya

概要

長年にわたって収集した異常や病変のアノテーションを施した放射線画像は基本的にソートされておらず、タイプや位置情報などの意味的なアノテーションがされていない．そこでこの研究では各病気の特徴を学習し，それらを整理，探索することで，重要な放射線画像を含む大規模なデータセットDeepLesionを提案した．

新規性・結果・なぜ通ったか？

PACSから収集した新たな病変データセットとして，32Kを超える画像枚数と病変のバウンディングボックスとサイズを含むDeepLesionを提案した．
CT画像内で検出された病変間の関係を効果的に検出，整理，学習する手法を開発した．

コメント・リンク集

論文

[#117]

2018.7.30 20:12:31

Efficient Large-Scale Approximate Nearest Neighbor Search on OpenCL FPGA

Jialiang Zhang, Soroosh Khoram, Jing Li

CVPR 2018

概要

近似的最近傍探索法（Approximated Nearest Neighbor; ANN）をベースにした直積量子化（Product Quantization; PQ）手法を提案する。粗な量子化、直積量子化、回転行列、コードブック計算に量子化法を用い、OpenCL-FPGAを使用したIntel HARPv2プラットフォームにより実装する。

180730LargeScaleApproximateNN

新規性・結果・なぜ通ったか？

大規模かつ高次元のANNにおいて、FPGAによりCPU/GPUのパフォーマンスを越えることに成功した最初の例である。YFCC100M/BigANN/Deep1Bにおいて検証を行なった。

リンク集

論文

[#118]

2018.7.30 19:44:24

Alternating-Stereo VINS: Observability Analysis and Performance Evaluation

Mrinal K. Paul, Stergios I. Roumeliotis

CVPR 2018

概要

ビジョンベースの慣性ナビゲーションシステム（Vision-aided Inertial Navigation Systems; VINS）に関して、低コストなステレオビジョンを提案する。通常は２カメラを用いるが、計算的なコストやレイテンシが問題になってしまう。Left-Rightカメラの代替として、片方のカメラのみでカメラ姿勢を推定、もう一方のカメラにより補間を行い、最後にスケール問題を解決。右図のように交互にアクティブなカメラを切り替えて探索を行う。

180730VINS

新規性・結果・なぜ通ったか？

Low-latencyなステレオのカメラを交互に切り替えて慣性ナビゲーションを行うalternating-stereo VINSを提案する。実際にシステムを構築して実験を行なったことも評価されている。

リンク集

論文

[#119]

2018.7.30 18:57:33

Coupled End-to-End Transfer Learning With Generalized Fisher Information

Shixing Chen, Caojin Zhang, Ming Dong

CVPR 2018

概要

ふたつのネットワークの協調学習であるCoupled End-to-End Transfer Learning（CETL）を提案、デコーダのパラメータを共有して対象ドメインに関してデータが少ないという転移学習の問題を改善する。さらに同ネットワークを最適化させるための誤差関数であるCoupledLossを提案した。ドメイン変換や知識蒸留でも使えることを示した。

180730CoupledEnd2EndTransferLearning

新規性・結果・なぜ通ったか？

転移学習の問題（事前学習には膨大なデータがあるが、対象データが少量）を解決するためのCETLを提案した。汎用フィッシャー情報を提案して複数タスクにおける最適化を実行した。

リンク集

論文

[#120]

2018.7.30 17:00:27

Hashing as Tie-Aware Learning to Rank

Kun He, Fatih Cakir, Sarah Adel Bargal, Stan Sclaroff

CVPR 2018

概要

ハッシングに関するランキングを直接最適化、Average Precision（AP）やNormalized Discounted Cumulative Gain（NDCG）などにより評価できる手法について提案する。Intによるハミング距離をランキングし、AP/NDCGにより評価、勾配を最適化することによりCNNを学習する。ハミング距離による画像検索において新しいベースラインを作ることに成功した。

180730TieAwareLearning

新規性・結果・なぜ通ったか？

ハッシングによる最適化について、評価指標をダイレクトに誤差に用いることができるTie-aware Learningを提案し、画像検索問題に応用した。CIFAR-10,NUS-WIDE,LabelMe,ImageNet100において新しいベースラインを作った。

コメント・リンク集

ハッシング、意外と根強く残っているし論文も通っているのでもっと目立っても良い？

[#121]

2018.7.30 10:27:22

Beyond Gröbner Bases: Basis Selection for Minimal Solvers

Viktor Larsson, Magnus Oskarsson, Kalle Astrom, Alge Wallis, Zuzana Kukelova, Tomas Pajdla

CVPR 2018

概要

CVのアルゴリズムはカメラモーションやシーンにおける3次元構造など幾何的なロバスト推定を要することが多く、RANSACに頼ることも多い。本論文では単項式の選択により高速な多項式計算を実装するための方法について検討する。Grobner基底を利用することにより、効率的な計算を実現する。

180730Grobner

新規性・結果・なぜ通ったか？

Grobner基底によりロバスト推定を高速化する方法について提案することに成功。単項式によるサンプリングについてヒューリスティックな方法を実現。幾何推定やカメラ校正問題についてState-of-the-artな方法を高速に実装。

コメント・リンク集

Grobner（oにウムラウト）という単語があり、CVFのオープンアクセスにリンクできなかった。

論文(arXiv)論文(CVF)

[#122]

2018.7.30 10:12:25

Robust Classification With Convolutional Prototype Learning

Hong-Ming Yang, Xu-Yao Zhang, Fei Yin, Cheng-Lin Liu

CVPR 2018

概要

CNNによりロバスト性を与えるための学習手法Convolutional Prototype Learning（CPL）を提案する。識別器が騙されるということが少なくなり、識別問題に対して有効である。複数カテゴリに対して条件を与えること、PrototypeLoss（PL）による正則化を与えることでクラス内のコンパクト性を高めた。

180730ConvolutionalPrototypeLearning

新規性・結果・なぜ通ったか？

識別のロバスト性を高めるCPLを提案した。CPLではカテゴリを識別するだけでなく、アウトライア除去と新しいカテゴリを追加する機構が備わっている。MNIST/CIFARにて分離性の高い特徴を生成することができた。

コメント・リンク集

自動カテゴリ追加、もっとできるようになって欲しい！

論文

[#123]

2018.7.30 09:58:59

Multi-Task Learning by Maximizing Statistical Dependence

Youssef A. Mejjati, Darren Cosker, Kwang In Kim

CVPR 2018

概要

Multi-task Learning（MTL; 多タスク学習）について、例えばCNNとGaussian ProcessといったHeterogeneousな学習や推定を同時に行う新しい方法を提案する。タスクに依存しないランダムパラメータを求めることができるため、あらかじめタスクごとの知識を前提としないMTLを実現可能である。実空間における回帰やランキングの問題において良好な精度を実現可能である。

180730MultiTaskLearning

新規性・結果・なぜ通ったか？

異なるタスク間（CNNとGaussian Processなど）において事前情報を前提としない学習法を提案した。各種データセットにおいて良好な精度を実現した。（表に示す通りであり、大体においてベースラインよりも精度が高い）

コメント・リンク集

モデル自体も異なる多タスク学習。あまり見ないがそんなこともできるのか、という印象。

論文

論文

[#128]

2018.7.30 08:00:38

Curve Reconstruction via the Global Statistics of Natural Curves

Ehud Barnea, Ohad Ben-Shahar

CVPR 2018

概要

自然の中に存在するカーブ（Natural Curves）を想定、認識することで欠損やオクルージョン環境下の補完/インペインティングを実行。与えられた画像中の物体から2つのエンドポイント（End Point）とタンジェント角度（Tangent Orientation）をラベルづけ、推定したカーブの平均値により補完を実行する。

180730CurveRecognition

新規性・結果・なぜ通ったか？

自然のカーブを想定することでオクルージョンや欠損を含んでいたとしても補完をやりやすくした。基本的には2点のエンドポイントをタンジェント角で繋ぐことでカーブを認識し、背景には様々な角度表現やデータを配置している。

リンク集

論文

[#129]

2018.7.30 01:52:50

Nonlocal Low-Rank Tensor Factor Analysis for Image Restoration

Xinyuan Zhang, Xin Yuan and Lawrence Carin

CVPR2018

Masaki Miyamoto

概要

低階数の信号モデリングは、画像処理アプリケーションにおける非局所相関をキャプチャーするために広く利用されてきた。グループ化された画像パッチによって生成された多次元配列に対して低階数の多次元配列因子分析を用いる新しい手法を提案する．低階数多次元配列は、画像再構築をさらに改善するために，代替方向乗算法(ADMM)に送られる．動作アプリケーションは圧縮センシング（CS）であり，深い畳み込みアーキテクチャが採用され，CSアプリケーションにおける高級なマトリックス反転を近似する．NLR-TFAと呼ばれるこの低階数多次元配列の因数分解法に基づく反復アルゴリズムが詳しく示される．ノイズのないものとノイズのあるCS測定の実験結果は、特に低CSサンプリングレートでの提案手法の優位性を証明する．

Nonlocal_Low-Rank_Tensor_Factor_Analysis_for_Image_Restoration.PNG

新規性・結果・なぜ通ったか？

パッチグループ化に基づいて推定画像から多次元配列を生成する．次に多次元配列を分解後に多次元配列を低階数に設定する．この新しい低階数多次元配列は，ADMMによって解決されるグローバルな目的関数に送られる．これらの2つのステップは，何らかの基準を満たすまで繰り返し実行される．

コメント・リンク集

[#130]

2018.7.30 21:43:23

Bidirectional Retrieval Made Simple

Jonatas Wehrmann and Rodrigo C. Barros

CVPR2018

Masaki Miyamoto

概要

本稿では、双方向検索モデルを学習するための非常に簡単で効果的な文字レベルのアーキテクチャを示す．マルチモーダルコンテンツを整列させることは、画像と記述との間の意味的対応を見つけることの難易度を考慮すると特に挑戦的である．そこで実際の文字を明確な粒度レベルで畳み込むことによって、テキストセマンティック埋め込みを学ぶために設計された効率的な文字レベルのソースモジュールを示す．私たちのアプローチで生成されたモデルは、単語埋め込みに基づく最先端の戦略よりもはるかに入力ノイズに対して堅牢である．概念的にもかかわらずはるかに単純であり，より少ないパラメータしか必要としない．テキスト分類，特に多言語およびノイズが多い分野での堅実なパフォーマンスを示す．

新規性・結果・なぜ通ったか？

CHAIN-VSEという生の文字に基づいてテキスト埋め込みを学習できる双方向検索のためのシンプルなアーキテクチャによって，概念的には関連研究よりもはるかに単純なアーキテクチャであってもMS COCOなどを考慮して，テキストからイメージへとテキストからテキストへの両方で最先端の結果が得られる．

コメント・リンク集

[#131]

2018.7.30 19:37:13

Explicit Loss-Error-Aware Quantization for Low-Bit Deep Neural Networks

Aojun Zhou, Anbang Tao, Kuan Wang, Yurong Chen

CVPR 2018

Kazushige Okayasu

概要

3値や2値などの非常に低ビットのパラメータ値を持つDNNモデルを顕著な損失なく32ビットの浮動小数点数に近似させる新しい方法であるELLS(Explicit Loss-Error-Aware Quantization)を提案

Explicit_Loss-Error-Aware_Quantization_for_Low-Bit_Deep_Neural_Networks

新規性・結果・なぜ通ったか？

Imagenetでの実験では量子化を行ったことによる精度の低下の少なさでstate-of-the-art

コメント・リンク集

論文

[#132]

2018.7.30 18:10:58

Time-resolved Light Transport Decomposition for Thermal Photometric Stereo

K. Tanaka, N. Ikeya, T. Takatani, H. Kubo, T. Funatomi, Y. Mukaigawa

CVPR2018

Ryota Suzuki

概要

熱画像における経時変化の光伝送分解手法を提案．熱の伝播の速さは光よりも非常に遅く，遠赤外光の過渡遷移がサーマルカメラで観測可能である．近似的ににコントロールされた環境における可視光画像と似ているため，従来のCV技術をストレートフォワードに熱画像に適用できるのが肝．

熱画像における散乱光成分は分離可能で，したがって物体の表面の法線を推定可能である．

熱画像を用いれば，黒色，透明，半透明物体に適用可能である．

新規性・結果・なぜ通ったか？

可視光と熱の伝播モデルの差を考慮したCV技術転用のモデル化方法を与えている．また，遠赤外光の伝播特性の差異を用いた手法は新しい．

コメント・リンク集

熱変化は実際経時変化が人間にも認識できるレベルの速さなのが特徴的で，研究には実際専用の知見が必要そう．適用可能かどうかは実際やってみないと分からないところが多いと思う．頑張ってほしい．

可視光以外を使っている研究の「黒色，透明，半透明OK」は実際キラーワード．

論文

[#133]

2018.7.30 18:04:54

In-Place Activated BatchNorm for Memory-Optimized Training of DNNs

Samuel Rota Bulò et al.

CVPR2018

1712.02616

Takumu Ikeya

概要

近年のDNNの学習におけるメモリフットプリントを大幅に削減する新たな手法としてIn-Place Activated Batch Normalization (INPLACE-ABN)を提案した論文．
INPLACE-ABNは従来のBatch正規化＋活性化層を単一のプラグイン層に置き換えることで，構造を大きく変えることなく，既存のDNNに簡単に適用することができる．

新規性・結果・なぜ通ったか？

0.82%というわずかな計算時間の増加で最大50%のメモリ消費を抑えることができる．
Batch正規化＋活性化層が存在するネットワークに適用することができる新たに独立したINPLACE-ABN層を提案し，近年のDNNの学習におけるメモリ使用率を低減した．

コメント・リンク集

論文

[#134]

2018.7.30 16:54:18

Improving Color Reproduction Accuracy on Cameras

Hakki Can Karaimer and Michael S. Brown

CVPR2018

Masaki Miyamoto

概要

デジタルカメラで実行される重要な操作の1つに、センサ固有の色空間を標準の知覚色空間にマッピングすることがある．この手順は、ホワイトバランス補正の後に色空間変換を適用することを含む。この比色マッピングの現在のアプローチは、2つの決まった照度（すなわち，2つのホワイトバランス設定）について計算された事前にキャリブレーションされた色空間変換の補間に基づく．異なる照度の下で取り込まれた画像は，この補間処理の使用により，色の再現精度が低下する．本稿では，現在の比色マッピング手法の限界について議論し，色再現精度を向上させる2つの手法を提案する．7つの異なったカメラでアプローチを評価し，色再現誤差の点で最大30％（DSLRカメラ）と59％（携帯電話カメラ）改善した．

新規性・結果・なぜ通ったか？

比色マッピング手順を改善する2つの方法として，1つ目は，補間方法における追加のキャリブレーションされた照度を含む補間方法の単純な拡張を行う． 2つ目は、フルカラー補正マトリクスに依存した，すべての入力画像に対して固定CSTマトリクスを使用する方法である．

コメント・リンク集

[#135]

2018.7.30 16:33:49

Efficient Subpixel Refinement with Symbolic Linear Predictors

V. Lui, J. Geeves, W. Yii and T. Drummond

CVPR2018

Ryota Suzuki

概要

学習ベースのサブピクセルリファインメント手法Linear Predictiorsにおいて，効率的な計算方法を提案．テンプレート画像をワープさせて誤差が小さくなるようにワープパラメータを最適化するやり方について扱う．

新手法Symbolic Linear Predictorsにより，学習ステップの効率化を実現．一度計算すると複数回異なる画像パッチに対し使いまわせる．これにより，性能を落とさずにオンラインで実行可能に．SLAMなどで使えるようになる．学習ベース手法の実行時効率性のの恩恵がうけられる．また，推測可能な誤差尺度を提案．推測することで，テンプレートの位置合わせ時の誤差を小さくすることができるようになる．従来手法によれば何百も存在するキーポイントにおいて評価が必要であったが，これにより最良のキーポイント達だけ使えばよくなる．

新規性・結果・なぜ通ったか？

SLAM等における有用な手法をアプリケーションレベルに効率化した．

コメント・リンク集

Subpixel Refinementが共通認識のように語られているが，まとめ人的には画像上の位置合わせにおけるサブピクセル精度での精整のことだと気づくのに結構時間かかった．勉強不足だろうか．

コントリビューションの明示的主張のない，CVPRでは珍しい論文．

カメラレディ原稿のフォーマットの不備がある．校正頑張ってほしい．

論文

[#136]

2018.7.30 17:06:26

High-order Tensor Regularization with Application to Attribute Ranking

K. Kim, J. Park and J. Tompkin

CVPR2018

Ryota Suzuki

概要

世の中のデータはマニフォールド上にある事が多いので，ユークリッド空間のような環境空間ではなく，データの表すマニフォールド幾何を考え，その正規化によって学習できると性能を向上できる．実際，マニフォールド幾何はテンソルで扱えるのだが，既存手法ではテンソルの学習における微分可能なマニフォールド幾何の正規化ができていない．

本稿では，テンソルの正規化・学習ができるように，リーマン多様体上での学習を考え，サロゲート（代理）目的関数を導入．テンソルが表す幾何特徴をカプセル化する．これにより，非対称かつ高次テンソルの学習ができるようになる．

新規性・結果・なぜ通ったか？

多様体におけるテンソルの学習ができるようにした．実際やってみたら予想通り学習もうまくいった．

コメント・リンク集

マニフォールド（多様体）局所的にはユークリッド空間とみなせるような空間．地球は丸いけど住民にとっては平面．
リーマン多様体（超粗く言うと）隣は次どっちにどれだけ離れてるかという情報が定義されている多様体．多様体の基本の表し方の一つ．
論文

[#137]

2018.7.30 11:53:00

Tensorize, Factorize and Regularize: Robust Visual Relationship Learning

SEONG JAE HWANG, Zirui Tao , Vikas Singh, Hyunwoo Kim, Sathya Ravi, Maxwell Collins

CVPR 2018

Yue Qiu

概要

Visual relationship検出タスクの新たなend-to-endパイプラインを提案した．提案手法が学習データからtensorial representationを探索し，またそれからrelational priorを求める． relational priorにより有効的にrelationship検出学習のpriorとして用いられる．
従来のVisual relationship用学習データセットのrelationshipがスパースで，学習データから潜在的な関係を学習するのが困難である．このようなスパースな学習relationshipから有効的にrelational priorを導く非学習型の手法(numerical線形代数をベースとした手法)を提案した．
また，提案のVisual relationship検出パイプラインは①入力がぞうからバウンディングボクス，関係などを検出②提案の学習済みrelational priorを利用し，scene graph learningを用いた手法を用いてオブジェクト及び関係を予測する．

Tensorize_Factorize_Regularize-VisualRelationshipLearning

新規性・結果・なぜ通ったか？

Relationshipsがスパースな学習データセットからrelational priorを有効的に求める手法を提案した．
提案のrelational priorを用いたらVisual GenomeデータセットのScene graph予測タスクでSoTAなパフォーマンスを得られた．

コメント・リンク集

スパースな関係（1%,2%以下）を有効的にrepresentできる代数ベースな手法の提案．詳細は良く理解できていなかった．
論文

[#138]

2018.7.30 12:00:29

Visual Grounding via Accumulated Attention

chaorui Deng, Qi Wu, Fuyuan Hu, Fan Lyu, Mingkui Tan, Qingyao Wu

CVPR 2018

Yue Qiu

概要

Visual Groundingタスクに用いられる新たなattentionメカニズムA-ATTを提案した．VGタスクのattentionを①query attention②image attention③objects attentionに分解し，累積をベースとした手法でこの三つのattentionを求める．
従来のVGタスクは画像・query・objectsの情報をまとめて取り扱うので，情報が冗長になるという問題がある．そこで，著者達がVGタスクを３つのサブタスク，①クエリ中の主目的の判別②画像中のコンセプトの理解③関連性が最も高い物体の定位，に分解した．また，この３つのサブタスクを３種類のattention問題として取り扱う．具体的には，A-ATT attentionメカニズムを提案し，それにより累積的に３つのattentionを求め，異なる累積の段階でattentionをリファインする．これによりノイズなどに対してロバストになる．

VisualGrounding-AccumulatedAttention

新規性・結果・なぜ通ったか？

提案のA-ATTメカニズムによりノイズ，冗長性などが異なる累積段階で影響が減っていく．また，このメカニズムにより提案手法が幅広いタイプのクエリに対応できる．
ReferCOCO, ReferCOCO+,ReferCOCOg,Guesswhat?!の4つのデータセットにおいてSoTAな精度を得られた．

コメント・リンク集

提案のA-ATTメカニズムはVQAにも使えそう．
論文

[#139]

2018.7.30 11:55:45

Differential Attention for Visual Question Answering

Badri Patro, Vinay P. Namboodiri

CVPR 2018

Yue Qiu

概要

VQAタスクに用いられる新たなattentionメカニズムdifferential attentionを提案した．これにより，人間のattentionにより近いattentionを得られる．
従来のVQA手法でもattentionが広く用いられるが，人間のattentionに関連性が低かった．そこで，認知心理学に広く用いられるexemplarベースな手法を用いてsupporting, opposing exemplarsによりdifferential attention領域を求める．具体的には，①入力画像，質問からreference attention embeddingを求める．②このembeddingによりデータベースから順序を求め，現在の入力と近いsupporting exemplar及び遠いsupporting exemplarを求める．③これらexemplarと入力からdifferential attention vectorを求める．

DifferentialAttention-VQA

新規性・結果・なぜ通ったか？

VQAタスクにexemplar based approachという新たな視点をもたらした．また，提案したdifferential attentionが人間のattentionにより近いことを示した．
VQA1.0，VQA2.0，HATなどのデータセットにおいてimage attentionベース手法の中で最も良い精度を達成し，Image-Question attentionベース手法と近い精度が得られた．

コメント・リンク集

認知心理学の知見をVQAタスクに応用した例．今後も人間のattentionを詳細に検討するべきだと思う．
論文

[#140]

2018.7.30 11:51:31

Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning

Jingwen Wang, Wenhao Jiang, Lin Ma, Wei Liu, Yong Xu

CVPR 2018

Yue Qiu

概要

Dense Video Captioningにおける２つの課題，コンテキスト融合，イベント表現における新たな提案．コンテキスト融合において，過去と将来のコンテキストを利用しevent proposalの予測を行う．また，event descriptionsのdecoderへのより有益な情報を含む入力の作り方を提案した．
従来のdense video captioningでは主にforward方向でevent proposalを予測するが，著者らは過去と将来のコンテキストからevent proposalを予測できるbidirectional proposal手法を提案した．また，異なるeventが同じ時間に終了する場合，従来手法では正しく対応できないが，著者らはイベントを動画特徴の隠れ状態のattentive fusionにより表示し，その問題を対応できるようにした．また，動的に現在のイベントと周囲のコンテキストのバランスを取るcontext gatingメカニズムを提案した．

Bi-directionalAttentionFusion-DenseVideoCaptioning

新規性・結果・なぜ通ったか？

提案手法のproposalとcaptioningモジュールを従来のフレームワークに適応することで，ActivityNet Captions datasetにおいてSoTAな表現を達成した．(Meteor scoreを4.82から9.65にアップした)

コメント・リンク集

Bidirectionalも最近よく見られるワード．
論文

[#141]

2018.7.30 11:47:16

Learning Visual Knowledge Memory Networks for Visual Question Answering

Zhou Su, Jianguo Li, Zhiqiang Shen, Yurong Chen

CVPR 2018

Yue Qiu

概要

VQAタスクに用いられるVisual Knowledge Memory Network(VKMN) を提案した． VKMNは人間の知識と深層視覚特徴をメモリーネットワークにより結合し，VQAの精度を向上できる．
自然言語処理のテキストベースなQAタスクに用いられる方法から，確立済みの視覚の知識に基づくVKMNを提案した．①Apparent object(答えが画像から直接読める);②Indiscernible(答えが画像中で小さい);③Invisible objectiveの(直接画像から答えられない)3種類の画像―結果の関係を定義した．また，VKMNはknowledge triples(subject, relation, target)と視覚特徴をvisual knowledge featureにembeddingする．

Learning_Visual_Knowledge_Memory_Networks-VQA

新規性・結果・なぜ通ったか？

VQA1.0,VQA2.0において良い結果を達成し，knowledge-reasoningの関係性の質問に対してSoTAな結果を得られた．

コメント・リンク集

自然言語処理系のQAに関する知識をVQAに用いることがセンスある．また，従来のV，Qに向けて様々なVQA方法が提出され，knowledge representationのあたりに力を入れるのも良い方向だと思う．
論文

[#142]

2018.7.30 11:42:34

Deep Video Super-Resolution Network Using Dynamic Upsampling Filters Without Explicit Motion Compensation

Younghyun Jo, Seeing Wug Oh, Jaeyeon Kang and Seon Joo Kim

CVPR 2018

Kodai Nakashima

概要

既存の動画超解像方法とは根本的に異なるフレームワークとして，動的にアップサンプリングフィルタや残差画像を生成するディープニューラルネットワークを新たに提案する．このアプローチにより，入力画像から直接高解像度画像を得ることができる．新しいデータオーギュメンテーション方法と大量の学習動画を用いることにより，SOTAなパフォーマンスを達成．

Deep_Video_Super-Resolution_Network_Using_Dynamic_Upsampling_Filters_Without_Explicit_Motion_Compensation.png

新規性・結果・なぜ通ったか？

図に示すように，提案手法はSOTA手法の一つであるVSRnetと比較して，チラツキが減少していることがわかる．さらにバイキュービック法やVSRnet，VESPCN等と比較し提案手法は，PSNR，SSIMの両方においても優れていることがわかった．

コメント・リンク集

論文URL

[#143]

2018.7.29 03:32:58

Deep Hashing via Discrepancy Minimization

Z. Chen et al.,

CVPR 2018

Kensho Hara

概要

画像検索などに使うハッシングで画像をコンパクトなバイナリ符号に変換するのを学習ベースでやる話．バイナリ制約付きの離散最適化問題はNP困難で大変なので，よくやられるのがバイナリ変数を連続変数に緩和して解くというやり方．でも緩和による目的関数の違い (discrepancy) のせいで求まる解が最適なものから外れてしまうのが問題．そこで，この研究ではこの目的関数の差を最小化するための手法を提案．図のように (a) sgnをtanhに緩和すると (b) のように大きく差が出るのを，最終的に (d) のように差がないように変換している．画像検索で，従来と同等の符号化時間でPrecision, Recallの向上に貢献することを実験から確認．

新規性・結果・なぜ通ったか？

学習ベースのハッシングにおいてバイナリ制約の緩和の悪影響の最小化を実現

コメント・リンク集

論文

[#144]

2018.7.11 15:45:23

Multi-Cell Detection and Classification using a Generative Convolutional Model

Florence Yellin, Benjamin D. Haeffele, Sophie Roth, Rene Vidal

CVPR 2018

1126

Kazuma Asano

概要

バイオメディカルアプリケーションにおいて，人間の血液中の細胞を検出，測定，分類は重要である．しかし，広範囲に及ぶ細胞の変動や画像を使用した診断にも解像度の限界があるため非常に難しいタスクとなっている．そこで本稿では，ホログラフィックイメージにおける白血球の検出，測定，分類に新たな手法を提案した．具体的には細胞集合の確率生成モデルをベースとしている．それぞれのクラスのテンプレートは血液の細胞についての静的な分布情報から作られる．分布についてのパラメータは，患者から得た血液の情報（実際に数えた結果？），セルテンプレートは辞書形学習を拡張させたものを使ってセル分類のクラスから得たセルの画像で学習している．

Item3Image

結果

実際に20の正常な血液サンプルと12の正常でない血液サンプルを使って実験しており，従来手法ではエラーが30%ほどに対し，提案手法ではを6.8%以下に抑えた．

コメント・リンク集

CVPR 2018 open access

[#145]

2018.7.20 16:19:39

Learning Depth from Monocular Videos using Direct Methods

Chaoyang Wang, Jose Miguel Buenaposada, Rui Zhu, Simon Lucey

CVPR 2018

233

Kazuma Asano

概要

眼カメラで撮影した動画をデプス推定する論文．従来のデプス推定では，CNN姿勢予測器を用いてデプス予測を行っているが，従来までの手法だけでは単眼カメラで撮影した動画のデプス予測に最適な手法ではない．そこで本稿ではDirect Visual Odometryを改良したDDVO，Pose-CNN，DDVO＋Pose-CNNの3つの手法を用いて姿勢予測し，さらにデプスを教師なし学習で推定する手法を提案している．構造としては一度の入力に3つの連続した画像 I1，I2，I3を使用する．それらの入力からまずI1，I3からデプスの逆数の値を取ったinverse depth mapと，すべての画像の姿勢推定を行い，I2とそれ以外の画像の姿勢の関係性を推定する．そしてI2とI1，I3とのwarped imageの相違性を比較しロスを求め評価する．

Item3Image1 Item3Image2

結果

実験の評価方法としてKITTIデータセットを使用しており，従来手法と比較し，単眼カメラで撮影した動画でありながら，提案手法のPose-CNN+DDVOを使用したものが最も高い評価値である．

コメント・リンク集

arxiv

[#146]

2018.7.20 16:39:34

DocUNet: Document Image Unwarping via A Stacked U-Net

Ke Ma, Zhixin Shu, Xue Bai, Jue Wang, Dimitris Samaras

CVPR 2018

596

Kazuma Asano

概要

モバイルカメラなどで実際に撮影したレシートや文章などの歪んだ画像をフラットな画像に修正するネットワークを考案．手法としてはセマンティックセグメンテーションに似ており，画素単位で判別していく．ネットワークアーキテクチャとしては2組のU-Netを用いて実現している． 1つ目のU-netでは逆畳み込み層部分を分割して，特徴マップを抽出したものとフォワードマップy1を出力する．これらを合成して2つ目のU-netの入力にする．2つ目のU-netではフラットな画像に修正した画像1枚を出力する．この処理をLossが小さくなるまで繰り返し行う．評価方法としては実際にモバイルカメラを用いて論文などのプリントを撮影した画像とそのプリントをスキャンしてGround truthにしたものを90Kほど用いてトレーニングを行っている．

Item3Image1 Item3Image2

結果

折れ曲がっている部位や極度に撮影の仕方が悪いものは歪んでしまっているが，それでも文字が読み取れるレベルまで画像が修正できている．

コメント・リンク集

CVPR 2018 open access

[#147]

2018.7.20 16:47:59

Deep Texture Manifold for Ground Terrain Recognition

J.Xue, H.Zhang, K.Dana

CVPR 2018

Kazuma Asano

概要

地形認識はロボット分野や自動運転に対し重要な処理である．しかしテクスチャを使った地形認識では，例えば"grass"と"leaves"は似ているために間違った認識がされることがある．そこで地形認識のためのDeep Encoding Pooling Network (DEP)を提案した．事前に学習したCNNを特徴抽出器として利用し，CNNからの出力をtexture encoding layerとglobal average pooling layerに送る． texture encoding layerではテクスチャのdetailを持ちつつ，global average pooling layerが持っていたローカル空間情報を出力する． 30000枚以上の画像を40クラスに分類したGTOSデータセットで学習し，よりリアルな条件下で評価するために，テストデータには携帯のビデオで撮影した81個のビデオをasphaltやsandなどの31クラスに分類したGTOS-mobileデータセットを作成した. ネットワークの評価はGTOS-mobileだけでなくMINCやDTDも使用し評価している．

Item3Image1 Item3Image2

結果

ランダムに10000枚の画像を選び，ResNetや著者たちの従来手法であるDeep TENと提案手法で識別させ比較すると，提案手法がもっとも分類がうまくいっている．

実際にテストデータにGTOS-mobileを使用した結果も，ResNetやDeepTENより2~5%ほど精度が向上している．

リンク集

[#148]

2018.7.23 14:14:24

Webly Supervised Learning Meets Zero-shot Learning: A Hybrid Approach for Fine-grained Classification

Li Niu, Ashok Veeraraghavan, Ashutosh Sabharwal

CVPR2018

949

Kazuma Asano

概要

品種などの微妙な違いでカテゴリを区別されるような細かい画像のクラス分けは膨大なカテゴリ分けの高いコストにより難しいタスクとなっている．これにより起こるトレーニングデータの不足に対処する研究として以下の二点が存在する． (1)人のアノテーションが加わっていないフリーなウェブイメージを利用． (2)Zero-shot Learning(ZSL)を利用．しかし，(1)ではウェブイメージにラベルノイズ付きが多いこと，(2)ではZSLは未だに従来の学習に比べて精度が良くないという問題点が存在する．そこでウェブイメージと補助的なラベルデータを用いてトレーニングデータに関連付けられていないテストカテゴリを予測するフレームワークを提案した．評価にはZSLの評価にもよく使われる3つのデータセット，CNB, SUN, Dogsを使って評価している．

Item3Image1 Item3Image2

結果

従来手法（特にZSL）に比べ格段に精度が上昇している．

コメント・リンク集

cvpr openaccess

[#149]

2018.7.23 14:05:28

Automatic 3D Indoor Scene Modeling from Single Panorama

Y.Yang, S.Jin, R.Liu, S.B.Kang, J.Yu

CVPR 2018

516

Kazuma Asano

概要

室内の2Dパノラマ画像1枚から3Dモデルを推定する研究．本稿ではパノラマ画像から18視点の画像（パノラマの中心点から対象を普通に撮影したような画像），sub-viewを生成する．それらを入力とし，sub-viewごとに顕著生マップ（Saliency map）とオブジェクト検出から前景と背景を分けると同時に直線検出（Line segment detection）を行いパノラマ画像を解析し，geometric cueとsemantic cueを推定する．これらから地面の推定，オクルージョンの推定を行い，形状の復元を行う．

Item3Image1 Item3Image2 Item3Image3

結果

FAROとsyntheticデータセットを使って評価した結果，背景とオブジェクト検出におけるdepth cosine distanceが従来より最先端な結果となった．

リンク

[#150]

2018.7.20 16:23:44

Salience Guided Depth Calibration for Perceptually Optimized Compressive Light Field 3D Display

Shizheng Wang et al.

CVPR 2018

Yoshihiro Fukuhara

概要

Multi-layer light field 3D display のための depth calibration の研究. Saliency の高い領域を推定し, その領域の深度を可能な限り表現出来るように calibration することで, Multi-layer light field 3D display の持つ深度表現の制限の元で知覚的に最適化された depth calibration を行う手法を提案. 主観評価実験では既存手法よりも最低でも12%以上良いという結果を達成.

fukuhara-Salience_Guided_Depth_Calibration_for_Perceptually_Optimized_Compressive_Light_Field_3D_Display.png

新規性・結果・なぜ通ったか？

知覚的に最適化された Multi-layer light field 3D display のための depth calibration の研究
深度や色の contrast に基づいて saliency の高い物体を推定する contrast enhanced salience detection を提案
Contrast enhanced salience detection によって light field capture region の中で高い saliency をもつ物体を推定
高い saliency を持つと推定された物体を multi-layer LCD の copressive display depth region に優先的に投影する
Saliency detection の精度を評価するために　public light field dataset　を用いて行った評価実験では, SOTAを達成
主観評価実験（12名）では既存手法よりも最低でも12%良いという結果

コメント・リンク集

[論文] Salience Guided Depth Calibration for Perceptually Optimized Compressive Light Field 3D Display

[#151]

2018.7.30 6:50:55

ISTA-Net: Interpretable Optimization-Inspired Deep Network for Image Compressive Sensing

Jian Zhang et al.

CVPR 2018

Yoshihiro Fukuhara

概要

Compressive sensing (CS) reconstruction の研究. 従来の Iterative Shrinkage-Thresholding Algorithm (ISTA) のイテレーションを end-to-end で学習可能なネットワークに置き換えた, ISTA-Net を提案. 評価実験では幅広い CS Rate において既存の最適化に基づく手法とネットワークに基づく手法の両者よりも優位な結果を達成した.

fukuhara-ISTA-Net_Interpretable_Optimization-Inspired_Deep_Network_for_Image_Compressive_Sensing.png

新規性・結果・なぜ通ったか？

高速かつ正確な compressive sensing (CS) reconstruction のアーキテクチャ ISTA-Net を提案
線形逆問題を解くためのアルゴリズムである Iterative Shrinkage-Thresholding Algorithm (ISTA) を Neural Network でモデル化
ISTA-Net では畳み込みと ReLU を組み合わせることで非線形の変換を学習（end-to-end でパラメータの学習が可能）
評価実験では, TVAL3, D-AMP, IRCNN, SDA, ReconNet と比較を行い, 全ての CS Rate で優位な結果を示した
計算速度は GPU を使用して, 25FPS 程度 (ReconNet は 62.5FPS)

コメント・リンク集

[#152]

2018.7.29 22:11:55

Learning Intelligent Dialogs for Bounding Box Annotation

Ksenia Konyushkova, Jasper Uijlings, Christoph Lampert, Vittorio Ferrari

CVPR 2018

Goshi sasaki

概要

アノテーションには対象領域を矩形で囲むのとその確認作業の2つのステップがある。画像がシンプルで検出領域の信頼性が高い場合は手作業で矩形を付ける作業を行わず、確認作業のみを行ったほうが時間を短縮できる。一方、検出領域が小さく、数多くあると確認作業に時間がかかってしまうため、手作業で矩形をつけたほうがよい。このように画像ごとに最適なアノテーション戦略を練る必要があり、Intelligent Annotation Dialogs (IAD) はこの手助けをする。本論文では2つのIAD手法が提案されている。1つ目は検出領域がアノテーターに受け入れられる確率を考慮して、アノテーション時間をモデル化することで最適化する。2つ目はモデリングを行わず、強化学習により最適な戦略を見つける。

architecture

新規性・結果・なぜ通ったか？

物体検出等において精度の高いアノテーションは重要であるがそのコストは高いままである中で、IADを利用することにより既存手法に比べてアノテーション時間を短縮できると示した。

コメント・リンク集

**論文

[#153]

2018.7.30 01:49:58

Fast Spectral Ranking for Similarity Search

Ahmet Iscen, Yannis Avrithis, Giorgos Tolias, Teddy Furon

CVPR2018

概要

Object retrievalにおけるManifold searchの計算コストをEuclidean searchまで下げるためのembeddingを提案した。nodeが特徴量に対応するものをグラフとして扱い、観測ベクトルyから類似度を表すランキングベクトルxを予測する線形システムを扱う。

Item3Image

新規性・結果・なぜ通ったか？

10^5オーダーの数ある画像に対して、オフラインプロセスを2,3時間で、オンラインプロセスは従来手法と同等に処理することが可能に。精度は従来手法と同程度である。 mAPはrank-1kあたりで収束している。

コメント・リンク集

グラフ理論の知識があるともっと読みやすくなる？

論文

[#154]

2018.7.30 01:26:16

Lightweight Probabilistic Deep Networks

Jochen Gast, Stefan Roth

CVPR 2018

1799

Kazuki Inoue

概要

DNNに対して活性化や最終層の出力を確率分布で置き換えるモデルを提案。DNNでは要所要所で確率モデルを使用しているが、多くのモデルでは活性化や最終層の出力はサンプリングに終わっている。一方でfull Bayesian networksではパラメタ自体を確率分布に置き換えているが、テストの実行に長い時間がかかってしまう。提案手法ではネットワークの最終層の出力を確率分布で置き換えるprobabilistic output layers (ProbOut)と、assumed density filtering(ADF)を導入することで活性化を確率分布で置き換える2つの方法を提案。これを既存のネットワークに組み込むことで、テスト時の実行速度を落とすことなく識別・回帰の両タスクで高い精度を実現。特に識別ではディリクレ分布に基づく出力を行うモデルを提案。

Item3Image

新規性・結果・なぜ通ったか？

オプティカルフローの回帰をベースモデルFlowNetで行なった。{最終層の出力のみ, 活性化}を確率的な分布に置き換えたFlowNet{ProbOut, ADF}と、FlowNet、確率モデルのベースラインとしてFLowNetにGaussian dropoutをボトルネックに加えたFlowNetDropOutと比較
Endpoint errorにおいてもっとも高い精度を達成し、テスト時の実行スピードはFlowNetADF/ProbOutそれぞれで38/101fpsとなり、FLowNetの106fpsよりも遅いものの、FlowNetDropOutの3fpsよりも高速に実行可能。
CIFAR10とMNISTの識別をAll-CNN-Cをベースモデルとした。
提案手法であるADF、ProbOut+ディリクレ分布に基づいた最終層の出力を用いたモデルがもっとも高い精度を達成。
最終層をsoftmaxにした場合と提案手法によるDirichlet output layerにおけるクロスエントロピーロスと推定時のカテゴリのエントロピの考察を行い、後者の場合に置いて強いそうかんが得られたため、Dirichlet output layerの有用性を主張。
DIFAR-10におけるadversarial attackへの頑健性において比較モデルよりも高い精度を達成。

コメント・リンク集

通常のDNNとfull Bayesian networksの中間的な確率的モデル表現を暑かったDNN。今後はこのような確率的な表現が増えていく？
論文
Supplementary material
参考 Tractable Inference for Complex Stochastic Processes (assumed density filtering, ADF)

[#155]

2018.7.30 00:28:11

Learning Markov Clustering Networks for Scene Text Detection

Zichuan Liu et al.

CVPR 2018

Yoshihiro Fukuhara

概要

ボトムアップに Scene Text Detection を行う手法を提案. 物体検出を Stochastic Flow Graph のクラスタリングとして定式化した. ボトムアップな手法の恩恵として, スケールや回転に頑強になると共に, 並列化による高速化が可能となった. 評価実験では MSRA-TD500 dataset で SOTA を達成し, かつ既存手法の1.5倍(34FPS)高速に動作.

fukuhara-Learning_Markov_Clustering_Networks_for_Scene_Text_Detection.png

新規性・結果・なぜ通ったか？

入力画像は Markov Clustering Network (MCN)によって Stochastic Flow Graph (SFG) に変換される
SFG のノードは格子上に並んでおり, 物体は強く結合したノードとしてモデル化される（SFGは物体の局所的な相関関係やsemanticな情報をencodeしている）
SFG にマルコフクラスタリングを適用し, 各クラスター毎に Bounding Box を生成する
ボトムアップな手法のため, 物体のスケールや回転に頑強かつ並列化による高速化が可能
ICDAR 2013, ICDAR 2015 and MSRA-TD500 を用いて評価実験を行った
MSRA-TD500 dataset では SOTA を達成し, その他の dataset でも既存手法と同等の精度を達成
速度については同等の精度の既存手法（TextBoxやCTPN）と比較して1.5倍程度高速化（34FPS）

コメント・リンク集

[論文] Learning Markov Clustering Networks for Scene Text Detection

[#156]

2018.7.28 18:56:55

CBMV: A Coalesced Bidirectional Matching Volume for Disparity Estimation

Konstantinos Batsos et al.

CVPR 2018

Yoshihiro Fukuhara

概要

stero matching に用いる mathching volume の推定を学習データに依存せずに, ロバストに行うモデルを提案. ４つの matcher から得られた　mathching volume から確信度の高い部分(確信度の計算は双方向から行う)をそれぞれ抽出し, random forest classifier を用いて最終的な mathching volume の生成を行う. 評価実験では MC-CNN と同等の高い精度を達成すると共に, 高い汎化性能を確認した.

fukuhara-CBMV_A_Coalesced_Bidirectional_Matching_Volume_for_Disparity_Estimation.png

新規性・結果・なぜ通ったか？

mathching volume の推定を学習データに依存せず, ロバストに行うモデルを提案
Census, NCC, ZSAD, SOBEL の４つの matcher を使用して得られた, それぞれの mathching volume から確信度の高い部分を抽出（確信度の計算は双方向から行う）
抽出された confidence volume に対して random forest classifier を適用して最終的な mathching volume を生成
Middelebury 2014, KITTI 2012, 2015, ETH3D を用いて評価実験を行った
Middelebury 2014 では純粋にdata-drivenな手法（MC-CNN）と同等の精度を達成
Middelebury 2014 で学習したモデルを用いて, ETH3D で SOTA を達成 (高い汎化性能)

コメント・リンク集

[#157]

2018.7.29 11:24:55

Learning to Promote Saliency Detectors

Yu Zeng et al.

CVPR 2018

Yoshihiro Fukuhara

概要

Image-specific な saliency map を得るために, 既存の saliency detector を強化する問題を zero-shot learning として定式化. DNNを用いて, 画像の特徴量マップと各画素のアトリビュートを同じ計量空間に射影し, アトリビュートが射影された点をアンカーとして最近傍探索によって新しい saliency map を得る. ECSSD や PASCAL-S など５つのベンチマークで評価を行いSOTAを達成した.

新規性・結果・なぜ通ったか？

Image-specific な saliency map を得るために, 既存の saliency detector を強化する問題を zero-shot learning として定式化
DNN を各画素値とアトリビュート（サンプリング）を同一の計量空間に射影する, 埋め込み関数として学習させる
計量空間ではアトリビュートをアンカーとして最近傍探索によって, 新しい saliency map を得る
上記によって得られた saliency map を再度 DNN の入力とすることで, 再帰的に saliency map を更新（Test時は最初の入力として既存手法によって作成された saliency map を使用)
ECSSD, PASCAL-S, HKU-IS, SOD, DUTS の5つのデータセットを用いて評価実験を行った (MAE で測ってSOTAを達成)

コメント・リンク集

[論文] Learning to Promote Saliency Detectors

論文

[#161]

2018.7.27 18:13:45

Inverse Composition Discriminative Optimization for Point Cloud Registration

Jayakorn Vongkulbhisal, Beñat Irastorza Ugalde, Fernando De la Torre, João P. Costeira

CVPR 2018

概要

剛体の3次元点群のレジストレーション（位置合わせ）を行うための手法Inverse Composition Discriminative Optimization（ICDO）を提供する。従来のICPはローカルの位置合わせに着目しているために、局所最適解に陥りやすく初期値やアウトライアに依存して位置合わせが失敗してしまう。提案手法であるICDOでは合成トレーニングデータにより学習を行い、繰り返し最適化を行うことでより全体的な最適解に近づけるという戦略を取っている。（本手法はDOの拡張であると位置付けている）

180727InverseCompositionDiscriminativeOptimization

新規性・結果・なぜ通ったか？

3次元点群の位置合わせ問題において、合成データを用いて学習を行うことにより、全体最適解に合わせやすくした。従来法であるDOの拡張であると主張していて、学習した物体に依存するDOに対してICDOでは物体に依存せず全体最適解に位置合わせすることができる。

コメント・リンク集

学習がどの程度よくなるかは不明だが、高速かつ高精度な3次元点群処理が進むとよいです！（あとより簡単だとよい）

[#162]

2018.7.27 17:54:28

Camera Pose Estimation With Unknown Principal Point

Viktor Larsson, Zuzana Kukelova, Yinqiang Zheng

CVPR 2018

概要

Structure-from-Motion（SfM）やカメラ位置推定の一種である6DOFの姿勢推定の問題について取り組む。大抵の場合、中心座標（Principal Point）は画像の中央と決めているが、ここでは対応する4.5点（P4.5Pfuv）を基にして中心座標や焦点距離を推定する。さらにはアスペクト比を5点対応から、中心座標とレンズディストーションを7点対応から推定する。

180727P4.5Pfuv

新規性・結果・なぜ通ったか？

カメラ行列に関して多項式の拘束を与えることで、4.5点対応で中心座標や焦点距離を、5点対応でアスペクト比を、7点対応（特にこれが難しい！）からは中心座標とレンズディストーションを推定した。

コメント・リンク集

カメラ情報を推定する際に、対応点てどうやったら減るんだろう？（論文には書いてあるのですが、モチベーションや発想という意味で）

論文

[#163]

2018.7.27 17:41:32

Uncalibrated Photometric Stereo Under Natural Illumination

Zhipeng Mo, Boxin Shi, Feng Lu, Sai-Kit Yeung, Yasuyuki Matsushita

CVPR 2018

概要

未校正（w/o calibration）かつ未知照明環境（unknown natural illumination）にてフォトメトリックステレオを実現するため、Equivalent Directional Lighting Modelを提案。滑らかに変化するような表面形状の復元や回転に対する曖昧性を許容した復元を可能にした。回転を考慮することでパッチの統合による曖昧性を排除して全体の表面を最適化した。図は提案手法のフロー図である。最初に光源を推定（Equivalent Directional Lighting）し、次にSVDしつつ局所的な（回転による？）曖昧性を除去、法線の空間にて行列計算・補完を行い出力する。

180727UncalibratedPhotometricStereo

新規性・結果・なぜ通ったか？

未校正かつ未知照明の環境にて、滑らかな表面形状変化を捉えるフォトメトリックステレオ手法を考案した。パッチ毎に回転の曖昧性を推定して全体の構造を把握することに成功した。

コメント・リンク集

以前まではフォトメトリックステレオはかなり補助があったような気がするが、いつのまにかキャリブレーションなし、未知光源でできている。

論文

[#164]

2018.7.27 17:18:17

Reconstructing Thin Structures of Manifold Surfaces by Integrating Spatial Curves

Shiwei Li, Yao Yao, Tian Fang, Long Quan

CVPR 2018

概要

細い（Thin）構造の物体を3次元復元するためのMulti-View Stereo手法を提案。トポロジーや連結性を考慮して復元を行ない、3次元メッシュ構造を復元することに成功した。3次元カーブ再構成、4面体系（tetrahedra）を復元してCurbe-conformed Delaunay Refinementを実施する。さらに、メッシュが4面体系上に復元される。

180725ReconstructingThinStructure

新規性・結果・なぜ通ったか？

形状が細い構造物を合成データ/リアルデータ両方のデータセットにおいて3次元メッシュ復元を可能にした。また、図に示されている通り、（細い形状を含め）表面形状を保存したままの復元に成功した。

コメント・リンク集

細い構造、3次元再構成の強い手法だけではできなかったのか？

論文

[#165]

2018.7.27 15:44:53

Estimation of Camera Locations in Highly Corrupted Scenarios: All About That Base, No Shape Trouble

Yunpeng Shi, Gilad Lerman

CVPR 2018

概要

Structure-from-Motion（SfM）にてカメラ位置推定を改善する手法について、本論文ではAll-About-that-Base (AAB) Statisticを提案、重み付けの方法について検討し、カメラ方向についてずれのレベル（ここでいうCorruption levelとは？）を推定しながら位置推定を実現。これによりカメラ方向（Camera Orientation）推定、重み付けについて理論的な証明を行うこと、より高速な手法の提案が展望として考えられる。

180724CameraLocationsCorruptedScenarios

新規性・結果・なぜ通ったか？

２つのカメラにおける誤差を推定して復元する重み付け方法について提案し、カメラの位置推定に寄与した。

コメント・リンク集

数式が多くて最後まで読み解けませんでした。。

論文

[#166]

2018.7.25 08:50:17

Motion Segmentation by Exploiting Complementary Geometric Models

Xun Xu, Loong Fah Cheong, Zhuwen Li

CVPR 2018

概要

動的環境のモーションセグメンテーションにおいて幾何的な情報をホモグラフィとして抽出、平面などをインライアとして扱いマッチングの精度を補間的に高める。従来の基礎行列の手法では（動的環境下では）困難でも、マルチビューのスペクトラルクラスタリングとの統合で相補的にモデルを改善する。

180724ComplementaryGeometricModels

新規性・結果・なぜ通ったか？

既存の基礎行列やホモグラフィといったモデルに対してマルチビューのスペクトラルクラスタリングを用いて空間の幾何構造を把握する研究である。Hopkins155, Hopkins12, MTPV62, KITTIデータセットにてSOTAな性を実現している。

論文

[#176]

2018.7.29 13:30:55

CRRN: Multi-Scale Guided Concurrent Reflection Removal Network

R.Wany, B. Shi, L.Duan, A. Tan andA.C.Kotx

CVPR2018

KotaYoshida

概要

画像内のガラスの反射は，CV分野にとって脅威となる．この問題を解決するためにConcurrent Reflection Removal Network(CRRN)を提案．人間の知覚に影響を考慮したロス関数を用いて、画像の外観情報とマルチスケールの勾配情報を統合し、多様な実世界のシーンで撮影された3250枚の反射画像を用いて学習したものである．公開されているデータセットを用いて実験したところSoTAを示した．

新規性・結果・なぜ通ったか？

反射を同時に除去するための勾配推定ネットワーク(GIN)と画像の外観情報推定ネットワーク(IiN)を並行したフレームワークとして構築
Reflection Image Dataset(RID)と呼ばれる反射画像DB を構築し学習に使用

コメント・リンク集

Paper

[#177]

2018.7.28 15:36:48

Adversarially Occluded Samples for Person Re-identification

Houjing Huang, Dangwei Li, Zhang Zhang, Xiaotang Chen, Kaiqi Huang

CVPR2018

概要

Person re-identification(ReID)のためのdata augmentationの方法を提案した。ReIDの難しさの一つとして、カメラの違いなどにより様々なocclusionが発生することである。そこでocclusionを発生させた学習データを作ることで精度向上を計る。始めに、通常通りReIDの学習を行うことでネットワークが画像のどの領域に注目するかを調べる。明らかになった注目領域を塗りつぶすことでocclusionとし、学習しなおすことでocclusionに頑健な学習を実現する。

Item3Image

新規性・結果・なぜ通ったか？

従来手法では上半身など画像の一部の領域にのみに注目していたため、注目領域にocclusionがあると精度が下がったのに対して、提案手法により画像全体に注目するようになりocclusionに頑健になった。実際、Rank1 accuracy, mAPどちらもベースラインと比べ数値が向上したことを示した。

コメント・リンク集

同じCVPR2018に重要な領域だけに注目しようとする研究(URL)があり、全体に注目するように学習をするこの研究と真逆を進んでいるのが気になる

論文

[#178]

2018.7.29 03:11:16

Temporal Hallucinating for Action Recognition with Few Still Images

Yali Wang, Lei Zhou, Yu, Qiao

CVPR2018

概要

1枚画像からの行動認識を、類似する動作の記憶を手がかりに行うHybrid Video Memory(HVM)を提案した。人間は未知の光景に遭遇したとき、過去の記憶を手がかりに類似したものから類推することができる。 HVMは人間のこのプロセスを模倣し、数枚しかない学習データを類似する動作と関連付けることで学習を可能にする。学習済みTwo-stream CNNに1枚画像を入力し、Memory動画とSpatial Featureを比較することにより類似する動画へ重み付けを行う。この類似する動作から得られるTemporal Featureの重みつき和を入力画像のTemporal Featureにする。行動の予測は得られたTemporal Featureと学習画像及びMemory動画のTemporal Featureの類似度により各動画への重みを決定し、学習画像及びMemory動画のラベルの重み付き和を出力ラベルとする。

Item3Image

新規性・結果・なぜ通ったか？

UCF101をMemory動画として、WEB101, VOC, DIFF20の3つの画像データセットに対する行動予測を実施。いずれのデータセットに関しても、従来手法と比べ提案手法が最も精度が高い(WEB101 35.4%, VOC 42.2%, DIFF20 60.2%)結果が得られた。

コメント・リンク集

アメフトに類似するMemory動画がバンドマーチングなのはなぜ？

論文

[#179]

2018.7.29 01:46:05

Attend and Interact: Higher-Order Object Interactions for Video Understanding

Chih-Yao Ma, Asim Kadav, Iain Melvin, Zsolt Kira, Ghassan AIRegib, Hans Peter Graf

CVPR2018

概要

動画認識のために物体同士のinteractionを表現する方法を提案した。画像中の物体同士の関係を記述する方法は多く提案されているが、動画の場合全フレームに適用してしまうと情報量が多すぎて現実的ではない。そこで動画に写っている物体同士の関係を高次な特徴として取得することで動画認識に利用する。動画の各フレームから物体認識によりROIを取得し、K個のMulti Layer Perceptronに画像特徴とLSTMの過去の出力を入力する。得られた各特徴をLSTMに入力することで物体同士の関係を表すattentionを得る。

Item3Image

新規性・結果・なぜ通ったか？

論文中ではAction Recognitionとキャプショニングの2つのタスクを提案した。Kineticsを用いたAction Recognitionは、既存手法(1FPSにサンプリングした)よりもTop1, 5共に提案手法の方が精度が高い。キャプショニングはMETEOR, ROUGE-L, CIDEr-D, BLEU@Nの4つのデータセットで実験をし、Validation setの精度は向上したがTest setの精度が高いLSTM-A3には劣る部分がある。

コメント・リンク集

論文

[#180]

2018.7.29 00:48:08

Pulling Actions out of Context: Explicit Separation for Effective Combination

Yang Wang, Minh Hoai

CVPR2018

概要

動画中からコンテキスト情報を取り除き動作そのものから行動を推定する手法を提案。行動認識において、背景などのコンテキスト情報は識別のための重要な手がかりである。しかし、学習データが似たようなコンテキストのものを多く含んでしまうと、実際には動作が違うにもかかわらず背景などによって異なる動作を認識してしまう。そこで動画を行動とコンテキストに分解し、行動のみから識別を行う。行動とコンテキストそれぞれのラベルをつけた学習データを用意するのは困難なため、同じ動画からアクションを含む部分(action sample)と含まない部分(conjugate sample)を考える。ネットワークとして行動に関する特徴とコンテキストに関する特徴を抽出するものを考える。行動特徴に関しては、conjugate sampleには注目のアクションを含まないため2つのsampleから抽出した特徴が類似しないように学習する。一方でcontext sampleに関しては２つのsampleは背景などを共有しているため類似するように学習する。これに加えてaction sampleから得られる2つの特徴を用いた行動識別を考え、classification lossとする。

Item3Image

新規性・結果・なぜ通ったか？

ActionThread datasetで実験し、13の行動のうち10の行動が提案手法のprecisionが最も高かった。UCF101, Hollywood2を用いてconjugate sampleをaction sampleの隣接するセグメントにとして行った実験も提案手法の精度がベースラインを上回った。

コメント・リンク集

論文

[#181]

2018.7.28 23:42:55

Temporal Deformable Residual Networks for Action Segmentation in Videos

Peng Lei and Sinisa Todorovic

CVPR2018

概要

action segmentationのためのネットワーク、Temporal Deformable Residual Networks(TDRN)を提案した。動画の各フレームからCNNにより抽出した特徴を入力とし、two-streamの構造で特徴を処理していく。 Temporal Residual Streamは、動画のfull scaleのコンテキスト情報を解析する。 Temporal Pooling Streamは、時間方向のPooling, Unpoolingを複数回施すことにより時間方向に関して様々なスケールのコンテキスト情報を解析する。

Item3Image

新規性・結果・なぜ通ったか？

従来のネットワークは1つのstreamで処理するのに対して提案手法は2つのstreamで処理する。さらに2つのstreamは独立してるのではなくTemporal Pooling Streamに逐次Temporal Residual Streamから得られた特徴を入力していく。 50Saladas, GTEA, JIGSAWSの3つの動画データセットで評価し、F1, Edit score, Accuracyの3つの指標いずれも従来手法よりも向上した。

コメント・リンク集

論文

[#182]

2018.7.28 15:13:38

Representing and Learning High Dimensional Data with the Optimal Transport Map from a Probabilistic Viewpoint

Serim Park, Matthew Thorpe

CVPR2018

概要

Kantorovich-Wasserstein metricに基づいて高次元データを微分同相写像により表現する手法を提案した。K-meansによりクラスタリングされたK個の接平面毎にテンプレートとなるベクトルをprobablistic PCAにより学習する。

Item3Image

新規性・結果・なぜ通ったか？

MNIST, ADNI PET, NUCLEIの3つのデータセットにより評価。少ない学習データから提案手法によりデータ数を増やし識別タスクの精度を上げることに成功した。確率モデルを考えるためBayesian Classificationを可能とし、Logistic Regressionより精度が高いことを確認した。

コメント・リンク集

The数学という感じの論文

論文

[#183]

2018.7.28 17:57:59

Consensus Maximization for Semantic Region Correspondences

Pablo Speciale, Danda P. Paudel, Martin R. Oswald, Hayko Riemenschneider, Luc V. Gool, Marc Pollefeys

CVPR2018

概要

DayとNight、OutdoorとIndoorなど2種類の3次元モデルのregistrationをする手法を提案した。入力として3次元のsemantic labelを考え、各ラベル領域の点郡を楕円によって近似する。このとき、点郡から得られるConvex Hullの内側の楕円Inner Ellipsoidと外側の楕円Outer Ellipsoidを考える。 2つの3次元モデルsourceとtargetの楕円をそれぞれInnerとOuterと考え、InnerがOuterの内部に存在する場合をラベル同士が対応していると考える。この対応してる楕円の数が最大になるような変換を考えることでモデル間のregistrationを実現する。

Item3Image

新規性・結果・なぜ通ったか？

合成データのテストでは、楕円数が少ないときは１秒以下で計算が可能であり、多い時でも従来手法よりもoutlier ratioが70%程度までは早い計算が可能である。精度に関してもICPよりRMSEが小さいことを確認した。リアルデータのテストではrotation errorは最大で3°以下、translation errorとscale errorは３%以下であった。計算時間はおよそ2から5分程度である。何故Analyzing Humansのセッションなのだろうか？

コメント・リンク集

論文

[#184]

2018.7.28 22:41:15

3D Registration of Curves and Surfaces using Local Differential Information

Carolina Raposo and Joao P. Barreto

CVPR2018

概要

3次元の曲線を3次元の表面にregistrationするための手法を提案した。曲線（表面）上の点を、点に加え微分情報を表すvector(法線もしくは接平面)のpoint＋vector(2-tuplesと呼ぶ)と考える。 2点の2-tuplesを考え、4つのパラメータにより表現して対応曲線と表面上の点が対応しているかの判定を行う。

Item3Image

新規性・結果・なぜ通ったか？

ノイズがある場合、ない場合どちらにおいても、元のデータよりも点の数が減っていると従来手法は精度が下がるのに対して提案手法は点の数が少なくなっても精度が下がりにくい。計算時間は、オフラインのプロセスが0.3~1.9sであり、オンラインのプロセスは10^0から10^-1のオーダーで計算できる。 curve vs curveやsurface vs surfaceのregistrationにも発展させることが可能である。

コメント・リンク集

論文

[#185]

2018.7.28 21:34:35

Memory Matching Networks for One-Shot Image Recognition

Qi Cai, Yingwei Pan, Ting Yao, Chenggang Yan, and Tao Mei

CVPR 2018

425

Yusuke Okimoto

概要

One-shot learningでよく用いられる評価時の設定（C-way k-shot, Cカテゴリで各カテゴリk枚の画像を教師に，入力画像のカテゴリを推定する）と同じ条件で学習を行うため，Memory Networkとbi-LSTMを用いたMemory Matching Networks(MM-Net)の提案．学習時，学習データから数カテゴリ・カテゴリ毎数枚の画像が教師データとして選択され(support set)．embeddingされたrepresentationがmemoryに書き込まれる．入力画像のカテゴリ推定は，メモリから読み出した各教師画像のrepresentationと，入力画像から得たrepresentationの対応(matching)を取って行う．この際，入力画像からrepresentationを得るCNNのフィルタのパラメータは，メモリから読み出した教師画像のrepresentationの列からbi-LSTMで推定する．評価時も，学習データからsupport setを選択する操作を除いて，学習時と同じ手順で行う． Omniglotの多くの条件でSOTA,miniImageNetにおいてもSOTA．

overview

新規性・結果・なぜ通ったか？

Memory Networkとbi-LSTMを上手く用いることで，one-shot learningにおいて，学習時と評価時とを同じ手順で行うことを実現
One-shot learningで最もよく使われるOmniglot datasetでは98.95%から99.28%のaccuracyを達成．また，miniImageNetでは49.21%から53.57%のaccuracyを達成．

コメント・リンク集

ネットワーク構造，学習手順ともに相当複雑なので，実際に実装して学習の様子を見てみたいところ
論文

[#186]

2018.7.28 22:11:44

Learning Dual Convolutional Neural Networks for Low-Level Vision

Jinshan Pan, Sifei Liu, Deqing Sun, Jiawei Zhang, Yang Liu, Jimmy Ren, Zechao Li, Jinhui Tang, Huchuan Lu, Yu-Wing Tai, Ming-Hsuan Yang

CVPR2018

Kazushige Okayasu

概要

・超解像やノイズ除去などのLow-level VisionのためのDualCNNの提案・ DualCNNでは全体の構造の推定，細部の推定をそれぞれ行い超解像やノイズ除去などのタスクに応じた定式化を行い画像の生成を行う

Learning_Dual_Convolutional_Neural_Networks_for_Low-Level_Vision

新規性・結果・なぜ通ったか？

・従来の超解像やノイズ除去はそれぞれタスクに特化したアーキテクチャが考案されていたが，本手法では1つのネットワークで最先端の手法と同等の精度を実現

コメント・リンク集

[#187]

2018.7.27 21:30:49

Towards Dense Object Tracking in a 2D Honeybee Hive

Katarzyna Bozek, Laetitia Hebert, Alexander S. Mikheyev, Greg J. Stephens

CVPR 2018

Takahiro Itazuri

概要

密集した物体を追跡するタスクを行うため、蜂の巣を撮影し、映像中の蜂についてそれぞれの位置と方向がラベル付けされたデータセットを構築したのち、CNNで追跡するタスクを行った論文。実験の結果、人間と同等の精度で密集した蜂を追跡することに成功した。

手法・新規性

セグメンテーションを行うU-Netの構造と類似しているが、ネットワークサイズを94%削減したネットワークに対して、物体の同定と向いている方向に関する損失関数を設計した。向いている方向の精度を向上させるため、再帰的なフレームワークを導入することで人間と同等の精度を達成した。

[#193]

2018.7.28 17:13:40

Mining Point Cloud Local Structures by Kernel Correlation and Graph Pooling

Yiru Shen et al.

CVPR 2018

Yoshihiro Fukuhara

概要

PointNetでは考慮出来ていない, PointCloud の局所的な構造を抽出するために, 新しい２つの演算 (kernel correlation と graph-based pooling) を提案. classification と segmentation のタスクで行った評価実験では PointNet++ と同等以上の結果をより少ないパラメータ数で達成した.

fukuhara-Mining_Point_Cloud_Local_Structures_by_Kernel_Correlation_and_Graph Pooling.png

新規性・結果・なぜ通ったか？

PointNetでは考慮出来ていない, PointCloud の局所的な構造を抽出するための新しい２つの演算を提案
1つ目として, 局所的な幾何構造の Affinity を測るための kernel correlation を提案
誤差逆伝播時に kernel point の位置を調整出来るようにすることで, 最も効果的なテンプレートの形状を学習
2つ目として, 局所的な高次元特徴をみるために, graph-based pooling を提案
classification と segmentation のタスクで評価実験
classification では MVCNN のような画像と volume の両方を入力とする手法と同等の高い精度を達成 (ModelNetを評価に使用)
segmentation では PointNet(追加情報として法線も入力)と同等の結果を達成（ShapeNetを評価に使用）

コメント・リンク集

[#194]

2018.7.28 15:59:55

Revisiting Video Saliency: A Large-scale Benchmark and a New Model

Wenguan Wang, Jianbing Shen, Fang Duo, Ming-Ming Cheng and Ali Borji

CVPR 2018

Kodai Nakashima

概要

この研究では以下に示す3つのことを行なった．

人の視線推定のため，DHF1Kと呼ばれる新しいデータセットを提案．
動的シーンにおける人の視線推定のため，新たにCNN-LSTMアーキテクチャを提案．
ビデオサリエンシーモデルを分析．

DHF1Kデータセットは，1000個の動画から構成されており，シーン，モーション，アクティビティ等が既存データセットよりも幅広くカバーされている．

Revisiting_Video_Saliency_A_Large-scale_Benchmark_and_a_New_Model.png

新規性・結果・なぜ通ったか？

DHF1K, Hollywood2, UCF sportsデータセットを用いて実験を行なった結果，提案モデルがSOTAモデルよりも優れていることがわかった．評価指標としては，Normalized Scanpath Saliency, Similarity Metric, Linear Correlation Coefficient, AUC-Judd, shuffled AUCを用いた．

コメント・リンク集

[#195]

2018.7.27 17:08:50

Weakly Supervised Phrase Localization with Multi-Scale Anchored Transformer Network

Fang Zhao et al.

CVPR 2018

Yoshihiro Fukuhara

概要

弱教師（画像レベルのアノテーション）によって Textual phrase localization を行う研究. 提案手法では anchor constraint の元で fine-grained な Bounding Box を連続的に探すことが可能. Flickr30K Entities と ReferItGane datasets を用いた評価実験では, 既存の弱教師に基づく手法に大きな差をつけてSOTAを達成した.

fukuhara-Weakly_Supervised_Phrase_Localization_with_Multi-Scale_Anchored_Transformer_Network.png

新規性・結果・なぜ通ったか？

画像レベルのアノテーションから Textual phrase localization を行うネットワーク, Multi-scale Anchored Transformer Network（MATN）を提案
提案手法は region proposal から生成された anchor constraint の元で Affine 変換のパラメータを推定
上記により, fine-grained な Bouding Box を連続的に探すことができる (Bouding Box の候補から選ぶのではなく)
ネットワークは, 画像から連想される他のフレーズとの contrastive reconstruction loss と同じようなフレーズを持つ画像とのtriplet loss によって学習
Flickr30K Entities と ReferItGane datasets を用いた評価実験では, GroundeR 等の既存の手法と比較してSOTAを達成. 特に IoU で評価して高い精度を要求される場合は, 提案手法が有効であることを確認.

コメント・リンク集

[論文] Weakly Supervised Phrase Localization with Multi-Scale Anchored Transformer Network

[#196]

2018.7.28 14:15:55

People, Penguins and Petri Dishes: Adapting Object Counting Models To New Visual Domains And Object Types Without Forgetting

Mark Marsden et al.

CVPR 2018

Yoshihiro Fukuhara

概要

Multi-domain なパッチベースの object counting の新しいモデルを提案. 提案手法は multi-domain に対応するための domain specific modules を内包しており, 全体のパラメータの内 5% を追加で学習するだけで新しい domain に対応することが出来る. 評価実験では, 単一のモデルで異なる domain に対する数え上げのタスクでSOTAを達成した.

fukuhara-People_Penguins_and_Petri_Dishes_Adapting_Object_Counting_Models_To_New_Visual_Domains_And_Object_Types_Without_Forgetting.png

新規性・結果・なぜ通ったか？

Multi-domain なパッチベースの object counting の新しいモデルを提案
提案されたネットワークは画像特徴量抽出のための CNN と数え上げのための全結合層のネットワーク（５層）から構成
CNN は学習済みの画像分類のネットワークを使用（実験では MobileNet が最も高精度を達成）
各全結合層の後には multi-domain に対応するための domain specific modules が配置されており, 新しい domain の学習はこのモジュールのパラメータ（全体の5%程度）を用いて行う
Cell Counting のデータセット Dublin Cell Counting (DCC) dataset を公開
単一のモデルで異なる domain に対する数え上げのタスクでSOTAを達成 (Shanghaitech and Penguins Dataset)

コメント・リンク集

[論文] People, Penguins and Petri Dishes: Adapting Object Counting Models To New Visual Domains And Object Types Without Forgetting

[#197]

2018.7.23 1:04:55

SBNet: Sparse Blocks Network for Fast Inference

Mengye Ren, Andrei Pokrovsky, Bin Yang, Raquel Urtasun

CVPR 2018

1957

Kazuki Inoue

概要

オブジェクト画像に対するCNNの計算コストを削減するために、画像の前景に対する離散的なマスクを生成し、convolutionを行うSparse Blocks Networks (SBNet)を提案。従来のCNNでは画像全体に一様にconvolutionの操作を行うため計算コストが高い。また、既存手法では構造的な離散化を行なっていないために、計算コストは小さくなっても実行時間が短くならないという問題点があった。提案手法では多くのオブジェクト画像は周りを背景で囲まれており、一部の領域にオブジェクトが存在するという構造情報に基づいて、前景の可能性が高い領域に対する離散的なマスクを形成する。これを入力テンソルに適用することで小さい計算コストで精度を落とすことなくCNNの学習を行う。

Item3Image

新規性・結果・なぜ通ったか？

様々なスケールのsparsityを使ったマスクにおいて、同様のサイズのカーネルをもつCNNと比較したところ、提案ネットーワークの方が10倍程度速く実行可能。
KITTI Bird’s Eye View (BEV) 2017 Benchmarkにおいて、SoTAと同等の精度を3分の1程度の実行時間17.9msで達成。
既存研究とは異なり、提案手法がマスクのsparse度合いに比例してテスト時のスピードが向上していることを示しており、提案手法が真に有効なマスクの離散化を行っていることを主張している。

コメント・リンク集

論文中には所狭しと結果の画像と既存研究との比較を行った表が並べられており、徹底した評価を行っている。
論文
Project page
GitHub

[#198]

2018.7.28 07:23:43

MX-LSTM: mixing tracklets and vislets to jointly forecast trajectories and head poses

Irtiza Hasan, Francesco Setti, Theodore Tsesmelis, Alessio Del Bue, Fabio Galasso, Marco Cri stani

CVPR 2018

3292

Kazuki Inoue

概要

人間の軌道予測を行う際に、頭部の向き情報を加えたLSTMベースのネットワークMiXing LSTMを提案。事前実験により人間の歩行軌道と頭部の向きが関係することを明らかにした上で、手法を提案。xy平面状の軌道(tracklets)と頭部の向き(vislets)の両方のstreamを考慮する。また、既存手法であるSocial LSTMでは周りの歩行者の軌道を隠れ変数として考慮していたが、提案手法では推定された頭部の向きを中心とした視野角内に存在する歩行者のみを考慮することで精度の向上を図っている。最適化にはd-variate Gaussian parametersを用いた。

Item3Image

新規性・結果・なぜ通ったか？

Mean Average Displacement error, Final Average Displacement errorを評価尺度とした。
UCY sequences (Zara01、Zara02、UCY)、in the TownCentre datasetの全てにおいてSoTAを達成。
頭部の方向推定についてもSoTAと同等の精度を獲得。
既存のモデルでは速さが小さいほどエラーが大きかったが、提案手法では比較的、速さに依存せずエラーを抑えることができている。

コメント・リンク集

新しく用いた情報はかなりシンプルで経験的に誰でも思いつきそうだが、それを初めて実装してSoTAを出していることがすごい！このように誰にでも納得できるpriorを取り入れることができたこともアクセプトに繋がった要因かもしれない。
論文
参考 Social LSTM: Human Trajectory Prediction in Crowded Spaces (Social LSTM)

[#199]

2018.7.28 06:22:35

Inferring Light Fields from Shadows

Manel Baradad, Vickie Ye, Adam B. Yedidia, Fredo Durand

CVPR 2018

3977

Kazuki Inoue

概要

直接観測していない四次元light fieldを観測可能な物体によるディフューズ面に投影された二次元平面上の影から推定する手法を提案。既存研究としてtime-of-flightカメラを用いて二次反射光による観測可能な反射と見えていないシーンを含んだ全てのシーンとの関係性と、ありえそうなシーンの構造を事前情報として用いて観測できないシーンのオブジェクト数を数えるnon-line-of-sight (NLoS) imagingをあげているが、この研究ではよりチャレンジングな目的を達成する。提案手法ではNLoSで使用されている二次反射光に加えて、現実のシーンではスペクトルが低周波成分に集中するという情報を用いることで平面上の影から観測不可能な四次元光を推定する。

Item3Image

新規性・結果・なぜ通ったか？

CG空間のモデルと現実空間で撮影された影の画像に対して四次元light fieldの推定を行った。
GTとの復元された画像とのPSNRで比較。既存研究が存在しないためか、比較は行っていないが、良好な結果が得られた。
観測できる物体として人間と観葉植物で実験しており、観葉植物のような複雑な形状を持っている物体に対しても良好な結果が得られた。

コメント・リンク集

かなりチャレンジングな目的を達成した論文！しかし、データが揃ったり、効果的な半教師/教師なし学習が考案されれば、この手の問題は制度だけを求めるならばDNNで解決できる？
論文

[#200]

2018.7.28 05:04:33

Mix and match networks: encoder-decoder alignment for zero-pair image translation

Yaxing Wang, Joost van de Weijer, Luis Herranz

CVPR 2018

3617

Kazuki Inoue

概要

異なるドメイン間の画像変換において、ある一つのドメインとその他のドメイン間の画像変換をトレーニングすることで、テスト時にはトレーニングを行っていないドメイン間の画像変換を行うmix and match networksを提案。提案ネットワークはautoencoderによって構築される。以下ではdepth(D) to semantic segmentation(S)を行うために、RGB(R) to D, R to Sをトレーニングするロス関数を説明する。

Rドメイン：R-S、D-R、R-R間で生成された画像に対するL2ノルム、GAN loss
D(S)ドメイン：R-D(S)間の変換画像、D(S)ドメインにおけるautoencoderの出力画像、とのそれぞれの入力画像におけるBerhu loss
潜在変数空間：R-S(D)、S(D)-R間のそれぞれの潜在変数のL2ノルム

Item3Image

新規性・結果・なぜ通ったか？

SceneNetRGBDで実験。提案手法でRGBとdepth間、RGBとsemantic segmentation間を学習したモデルにおけるdepth-to-segmentationの精度をmIoU、global scoreで比較。
ablation studyにより、pooling indicesや各ロス関数の重要性を確認。特にpooling indicesによってmIoUの精度が4%向上。
Cycle GAN、2xpix2pixよりも高い精度を達成。
カラートランスファー、スタイルトランスファーでも質の高い画像を生成できることを確認。

コメント・リンク集

ハイパーパラメタが5つあり、これの調整が結構シビア？
どのドメインを起点とするかで結果の精度は変わる？起点をデプスにすると、情報量がRGBよりもないために、精度が落ちるなどといったことはありえる？
論文
Supplementary material
GitHub
参考 Image-to-image translation with conditional adversarial networks (pix2pix)
参考 Unpaired image-to-image translation using cycle-consistent adversarial networks (Cycle GAN)

[#201]

2018.7.28 03:56:24

Generative Modeling using the Sliced Wasserstein Distance

Ishan Deshpande, Ziyu Zhang, Alexander Schwing

CVPR 2018

3722

Kazuki Inoue

概要

GANの学習を安定して行うことができるwasserstein distance(WD)から導出されるsliced WDを導入することで、安定したGANの学習方法を提案。一次のデータに対する二次のWDを式(5)に示す。このままでは最適化が難しく、計算コストも大きいが、式(7)、(8)のようにソーティングを行うことで、WDは式(10)のように簡単な数式に置き換えることができる。この式(10)のことをsliced WDと呼ぶ。しかし実際には画像データは一次元ではなく、高次元であるため、random projectionによって画像データを任意の一次元ベクトルに射影することでsliced WDによる学習を行う。

Item3Image

新規性・結果・なぜ通ったか？

sliced wasserstein distanceをgeneratorのロス関数として導入。
4つのネットワークが異なるgeneratorに対して、GAN loss、WD、sliced WDを用いてMNISTの学習を行ったところ、sliced WDが安定して質の高い画像を生成することができた。
GAN、WGAN、generator+sliced WDのGANにおいてトレーニング時のイテレーションごとのKL-divergenceとsliced WDの値を確認したところ、KL-divergenceは値が増加する一方。sliced WDは値が安定していることを確認。
MNIST、Toronto face dataset、CIFAR-10 dataset、CelebA、LSUN bedroomを用いた画像の生成を行った。

コメント・リンク集

DNNの研究もかなり成熟してきており、数学的な理解が今後のコントリビューションに不可欠であると再認識させられた。
WGANやwasserstein distanceとの比較が少ないように感じたが、これは自明のこととして書いていない？それとも比較結果があまり芳しくなかったから？
論文
Supplementary material
GitHub
参考 Wasserstein gan(WGAN)
sliced wasserstein distanceを導入した論文：Sliced and radon wasserstein barycenters of measures. Journal of Mathematical Imaging and Vision

[#202]

2018.7.28 02:48:06

Multi-Scale Weighted Nuclear Norm Image Restoration

Noam Yair and Tomer Michaeli

CVPR 2018

3269

Kazuki Inoue

概要

自然画像が持つ類似パッチを利用した、自然画像のデノイジングを行うWNNMを一般の画像の任意のdegradation（ブラー、ピクセルの欠損など）に対するdistortionへ拡張した手法を提案。提案手法では以下のステップを踏んで画像のdistortionを行う

自然画像内の類似パッチを用いたWNNMによってデノイジングを行う。
自然画像には小さなパッチの模様は様々なスケールで画像に内に存在するという現象を用いて、画像の超解像とブラーのカーネルサイズを推定する。
最後に、expected patch log-likelihood (EPLL)を用いて全てのパッチに対する正則化を行う。最後に行う正則化はデータの種類に依存しない操作のため、任意のなdegradationに対応することが可能となる。

Item3Image

新規性・結果・なぜ通ったか？

ガウシアンブラー、uniform blur、ピクセルの欠損(25%, 50%, 75%)の全てに対してSoTAを達成。
イテレーションを増やすごとに精度は高くなるが、デブラーリングに関しては1.6分かけた1回のイテレーションによってSoTAを達成することができる。．
PSNRを評価尺度とし、Set5、BSD100 datasetで検証

コメント・リンク集

introductionで最近流行しているCNNではdegradationの種類ごとにトレーニングを行わないといけない、と真っ向からトレンドを否定した上でSoTAを達成していることがかっこいい。
論文
Supplementary material
参考 Weighted nuclear norm minimization with application to image denoising (WNNM)

[#203]

2018.7.27 23:52:51

Image Super-Resolution via Dual-State Recurrent Networks

Wei Han, Shiyu Chang, Ding Liu, Mo Yu, Michael Witbrock, Thomas S. Huang

CVPR 2018

3225

Kazuki Inoue

概要

画像の超解像を行うために、高解像度(HR)と低解像度(LR)の2つのstateを持ったRNNベースのモデルであるDual-State Recurrent Network (DSRN)を提案。画像の超解像はCNNで行われることが多いが、パラメタ数が多く、これを削減するためにRNNに着目。RNNを用いた画像の超解像を行うDRRNと異なる点として、提案ネットワークではbottom stateでLRを、top stateでHRをキャプチャし、 delayed feedback mechanismを用いることでLRとHRの双方向のマッピングを行う。

Item3Image

新規性・結果・なぜ通ったか？

パラメタ数、精度的にDRRNに劣っているが、DRRNはトレーニングに画像が291種類必要なのに対して、提案手法では91枚のみでほぼ同等の精度となるため、提案手法の有効性を主張。
Set5、Set14、B100、Urban100、DIV2K dataset of the NTIRE SR 2017 challengeで検証。PSNR、SSIM、IFCを評価尺度とした。スケールは２、３、4倍を比較。入力は128x128。

コメント・リンク集

精度としてSoTAと同等であっても、トレーニングに使用する画像が少なければ、CVPR的にはコントリビューションとなることを証明している論文。
論文
GitHub(7/27段階では bibtexのみ)
Image Super-Resolution via Deep Recursive Residual Network (DRRN)

[#204]

2018.7.27 23:41:04

Weakly Supervised Action Localization by Sparse Temporal Pooling Network

Phuc Nguyen, Ting Liu, Gautam Prasad, Bohyung Han

CVPR 2018

2013

Kazuki Inoue

概要

トリミングがされておらず、かつvideo-levelのactionラベル(動画内に存在するactionのラベル)を用いた弱教師学習によって、時系列上のaction localizationを行うSparse Temporal Pooling Network (STPN)を提案。提案手法では一定間隔で取り出された動画のセグメントに対してactionのclassificationロスと、各セグメントごとの、クラスに関わらず、actionのsparsityをL1ロスを用いて考慮することで、actionが存在し得るセグメントをプールしていくことでネットワークのトレーニングを行う。上記をRGBの入力とoptical-flowの入力を用いたtwo-streamで行う。

Item3Image

新規性・結果・なぜ通ったか？

THUMOS14 、ActivityNet1.3 datasetにおいて、弱教師学習の手法においてSoTA。また、いくつかの教師あり学習と同等の精度を達成。
評価尺度はlocalizationのIoUの閾値におけるmAP

コメント・リンク集

video-levelのアノテーションはトレーニング時のみ必要であり、テスト時にはあり得そうなactionのラベルから推定してくれることも実用性が高い。
論文
Supplementary material

[#205]

2018.7.27 18:45:01

Classifier Learning with Prior Probabilities for Facial Action Unit Recognition

Yong Zhang, Weiming Dong, Bao-Gang Hu, Qiang Ji

CVPR 2018

2896

Kazuki Inoue

概要

facial action units (AUs)のアノテーションを用いず、顔画像から得られるAUsの確率分布を用いてAUsの識別を行う手法を提案。AUsは表情や個人に依存するため、専門家がアノテーションしなければならずデータセットの構築が難しい。提案手法では、解剖学てきな知見から得られるAUsの確率分布と表情に関する研究から得られるAUsの確率分布を使用し、それぞれのAUsの識別器を同時に学習する手法を提案。

Item3Image

新規性・結果・なぜ通ったか？

CK+ database、MMI database、BP4D database、Emotion- Net databaseで実験。
F値を評価尺度としてAUのアノテーションを使用していないSoTAの手法であるHTLよりも高い精度を達成。
顔のランドーマークで使用する特徴量や、最適化の際のロス関数の違いによる精度の比較を行なっており、いずれの設定でもSoTA。

コメント・リンク集

解剖学や表情の研究という超強力なpriorを用いた手法。他のタスクに応用するのは中々難しそう。
論文
参考 From emotions to action units with hidden and semi-hidden-task learning (HTL)

[#206]

2018.7.27 00:13:05

Deep Mutual Learning

Ying Zhang, Tao Xiang, Timothy M. Hospedales, Huchuan Lu

CVPR 2018

304

Kazuki Inoue

概要

複数のネットワークを同時並行で学習し、お互いの情報を共有することで最終的な精度を向上させるDeep Mutual Learning(DML)を提案。論文中では特に識別タスクを扱っている。それぞれのネットワークを通常の識別に関する教師あり学習のロスと、他のネットワークによる推定ラベルの確率分布を事前情報としたKL divergenceをロスとして用いることで学習を行なっていく。比較手法としてネットワークの蒸留をあげており、上流ではteacherネットワークはstudentネットワークよりも小さくなければいけないが、DMLでは小さなネットワークだけで学習を行うことでき、ネットワークのサイズにとらわれない枠組みとなっている。

Item3Image

新規性・結果・なぜ通ったか？

蒸留を行なった場合よりも高い精度を達成。
単体で学習を行うよりもDMLによって学習した場合の方が高い精度を達成。パラメタ数の多いWRN-28-10でも実験しており、DMLを行なったほうが0.5%程度精度が高くなっている。
同時に学習するネットワークの数が多いほど、最終的な精度も向上。
ImageNetで事前学習を使用した方がさらに高い結果。人物認証ではMobileNet+DML+事前学習で精度が50.15%から70.51%まで向上。
CIFAR-100を持ちいたカテゴリ識別、Market1501における人物認識で検証

コメント・リンク集

論文ではネットワークの蒸留などの転移学習と比較しているが、どちらかというとメタ学習に近い？
1 introductionにて、「提案手法が既存の転移学習に比べて良くなる理由ははっきりとはわかっていない。しかしあり得そうなのは、ネットワークごとに初期条件が異なるため、すぐにラベルの識別を行うことは可能になるがacc@top-2のカテゴリはネットワークごとに異なる問題があるが、DMLではこれを防ぐことができるため、既存の手法に優った」と述べている。
論文

[#207]

2018.7.26 23:18:20

Link and code: Fast indexing with graphs and compact regression codes

Matthijs Douze, Alexandre Sablayrolles, and Herve Jegou

CVPR 2018

3659

Kazuki Inoue

概要

暗号化によるデータ圧縮とグラフ構造を用いた画像の類似度探索手法L&C(link and codeを提案。DNNなどで得られた特徴量をそのまま使用するとデータ容量が大きく、既存手法では精度が低いことを主張。提案手法ではデータ容量を小さくしつつ、検索精度を上げ、検索時間短くする手法を提案。各データベースで与えられている画像特徴量を暗号化を用いて圧縮し、次にHSNWというグラフベースのインデックス手法を用いてグラフを構築。グラフの精度向上のためにエンコードされた画像を復元し、近傍のデータから十分探索可能な場合には余計なデータを付加せず、そうでない場合には周囲のデータによる回帰をオフラインで行い、その回帰係数を格納する。

Item3Image

新規性・結果・なぜ通ったか？

BIGANN、Deep1Bで実験。画像の検索におけるrecall@1/10/100を評価尺度とした。
BIGANNのrecall@100以外ではSoTAを達成。また検索時間はBIGANNで2ms程度、Deep1Bで3.50ms程度と比較手法よりも短い結果となった。一方で比較手法による各画像のデータ容量は16B程度に対し、提案手法によるデータ容量はBIGANNで72バイト、Deep1Bで108バイトとなった。

コメント・リンク集

比較手法は提案手法よりも精度が低い分各画像のデータ容量が少ないが、比較手法でデータ容量を大きくすると精度が上がる分検索速度が落ちるため、提案手法の方が有利であると主張。
論文
参考 Hierarchical Navigable Small Worlds (HNSW)

[#208]

2018.7.26 22:02:53

Weakly Supervised Learning of Single-Cell Feature Embeddings

Juan C. Caicedo, Claire McQuin, Allen Goodman, Shantanu Singh

CVPR 2018

4238

Kazuki Inoue

概要

顕微鏡で撮影された細胞に対して画像的な見た目と生物学的な関係性を推定するために、CNNに対して半教師学習を行う。論文中に行われる実験では変異肺がん細胞の画像から遺伝子を推定するために、化学処理された変異肺がん細胞の画像を用いた化学処理のラベル推定をCNNで学習する。しかし化学処理は対象となる細胞が異なる場合には反応しないこともあるなど、ラベルとしてはかなりノイジーである。そこでRNN-based regularizationとmixup regularizationという２つの正則化を行う。RNN-based regularizationでは同じ化学処理や同じ細胞からは似たような特徴量を得るように学習し、mixup regularizationでは２つの画像をアルファブレンディングした時に、そのソース画像の識別とブレンド率の推定を行う。

Item3Image

新規性・結果・なぜ通ったか？

著者らが用意した細胞の画像において、トレーニング中には陽に学習していない遺伝子のID推定において既存手法よりも高い精度を達成。
BBBC021データセットにおける、化学処理の識別において既存手法よりも高い精度を達成。
ImageNetでプリトレインしたモデルと、ハンドクラフト特徴量による手法と比較。

コメント・リンク集

データを用意できれば勝ちな研究分野な気がする。手法として完全に新しいのはRNN-based regularizationのようであるが、精度が出ていればCVPR的にはOK？
論文
Supplementary material

[#209]

2018.7.25 17:26:37

Deep Adversarial Subspace Clustering

Pan Zhou, Yunqing Hou, Jiashi Feng

CVPR 2018

2635

Kazuki Inoue

概要

サブスペースクラスタリングを敵対的学習によって行うdeep adversarial subspace clustering (DASC) modelを提案。多くの既存手法ではハンドクラフトな特徴量を使用していたが、提案手法では初めて敵対的学習を教師無しの手法を提案。ネットワークは特徴量を抽出するencoder、画像のリコンストラクションを行うdecoder、sampling layerから得られたfakeデータと実際のデータ(real)を識別するdiscriminatorからなる。discriminatorはデータの識別を行う際に、realを超平面状に射影するような行列を作成しつつ、realは射影するエネルギーが小さいが、fakeは射影するエネルギーが大きいという過程のもとデータを識別。より良い射影行列を作成することでサブスペースクラスタリングを行う。

Item3Image

新規性・結果・なぜ通ったか？

(MNIST, {ORL, YaleB, Umist}, COIL-20/100) を用いた手書き(文字認識、人物、物体)のクラスタリングにおいてSoTA。
accuracy, normalized mutual information、purityを評価尺度とした。

コメント・リンク集

サブスペースクラスタリングとは、クラスタが違った部分空間に存在すると仮定し，部分空間とクラスタを同時に見つけるクラスタリング手法。
クラスタ毎に超平面への射影可能、という過程がかなり強い効果を発揮している。クラスタ数をさらに増やすと超平面ではクラスタ境界が曖昧になって精度は落ちる？
論文

[#210]

2018.7.25 14:47:11

MoNet: Moments Embedding Network

Mengran Gou, Fei Xiong, Octavia Camps, Mario Sznaier

CVPR 2018

Takahiro Itazuri

概要

Bilinear Poolingは2次の統計量を用いているため非常に良い精度を出す一方で、出力の特徴量の次元数が膨大になるといった問題点がある。本論文はBilinear Poolingの次元数をコンパクトにしたネットワークMoNetを提案した。MoNetはSoTAと同等の精度を保ちながら、特徴量の次元を4%にまで落とすことに成功した。

MoNet

手法・新規性

Bilinear Poolingの次元数を減らすためCompact Poolingが提案されたが、通常のBilinear Poolingをさらに拡張したiBCNNやG2DeNetに対しては、Gaussian EmbeddingとBlinear Poolingが絡んでいること点と行列の正規化が必要な点から適用することができない。そこでMoment Matrixを用いてGaussian EmbeddingとBilinear Poolingを別にし、sub-matrix square root layerを追加してBilinear Poolingの前に正規化を行うことでCompact Poolingを適用可能にした。

コメント・リンク集

論文

[#211]

2018.7.27 22:13:12

Viewpoint-aware Video Summarization

Atsushi Kanehira, Luc Van Gool, Yoshitaka Ushiku, Tatsuya Harada

CVPR 2018

Takahiro Itazuri

概要

そもそも要約動画として１つの最適解が存在するわけではないことを主張し、それぞれの視点に合わせて要約動画を行った研究。本研究では、動画間の類似度に着目し、フィッシャー判別から着想を得て、inner-summary variance、inner-group variance、between-group varianceに関して最適化を行うことで要約映像を生成した。また評価のためのデータセットを構築し、質的評価・量的評価を行った。

手法・新規性

要約動画として満たすべき条件として(1)要約動画内で分散があること、(2)同一グループ内の動画を代表することができること、(3)他のグループの動画と識別できることを挙げている。これらに対応する要素がフィッシャー判別から着想を得たinner-summary variance、inner-group variance、between-group varainceである。これらをC3Dで抽出した特徴量に対して計算し、最適化することで解を得る。

コメント・リンク集

論文

[#212]

2018.7.27 19:04:45

Recovering Realistic Texture in Image Super-Resolution by Deep Spatial Feature Transform

Xintao Wang, Ke Yu, Chao Dong, Chen Change Loy

CVPR 2018

Takahiro Itazuri

概要

高解像度化タスクはill-posed problemであるため取りうる解が複数あり、GANを用いてもリアルなテクスチャを生成できていないが、特定のカテゴリに特化して学習させたネットワークを用いればリアルなテクスチャが生成できるという事実から、セマンティックセグメンテーションを利用した高解像度化に着目した。しかし、すべてのカテゴリごとに学習したネットワークを用意することは非現実的であるため、Spatial Feature Transform（SFT）層を導入することで、単一のネットワークでカテゴリ情報を考慮した高解像度化を行った。

SFT-GAN

手法・新規性

SFT層は特徴量をアフィン変換をする層である。そのアフィン変換はスケールとシフトのパラメータで定義され、これらは各カテゴリごとの確率マップから与えられる。SFT層は従来のネットワークに導入することが可能であり、さらにセマンティックセグメンテーションに限らず、あらゆる事前知識（デプス情報など）に対しても適用可能である。

コメント・リンク集

論文

[#213]

2018.7.27 18:51:06

NISP: Pruning Networks Using Neuron Importance Score Propagation

Ruichi Yu, Ang Li, Chun-Fu Chen, Jui-Hsin Lai, Vlad I. Morariu, Xintong Han, Mingfei Gao, Ching-Yung Lin, Larry S. Davis

CVPR 2018

Takahiro Itazuri

概要

CNNのニューロンの冗長性を軽減するため、分類タスクにおいて分類する直前の層（FRL: Final Response Layer）の復元誤差を最小化するようなPruning（特定のニューロンを削除）するアルゴリズムNeural Importance Score Propagation（NISP）を提案した。如何に精度を落とさず、ネットワークに必要なFLOP数を減らせるかの実験を行い、AlexNetにおいては67.85%のFLOP数を削減したネットワークが1.43%しか精度を落とさないようにすることに成功した。

NISP

手法・新規性

従来手法のほとんどは層ごとに独立して考えるか、次の層までを考慮にいれてPruningをする問題を解いていたが、重要なのは最後の層に与える影響であり、提案手法はそれを直接的に考慮している。提案手法はネットワークのPruning問題を、各ニューロンを削除すべきかいなかの0-1整数計画問題として定式化し、FRLの復元誤差を最小化する最適化問題を解く。実際には、目的関数を解析的に解くことはできないため、最適上限を求める問題に帰着させることで、閉経式で解くことが可能となった。

コメント・リンク集

[#214]

2018.7.27 16:20:51

Matching Adversarial Networks

Geller Mattyus, Raquel Urtasun

CVPR 2018

Takahiro Itazuri

概要

GANで教師あり学習をするタスクにおいて、DiscriminatorにSiamese Networkを適用することで直接教師データを損失関数に導入することが可能なMatching Adversarial Network（MatAN）を提案した。MatANは様々なGANで行う教師あり学習のタスクに適用することが可能であり、実験においてはsemantic segmentation、road network centerline extraction、instance segmentationのタスクに適用し、良い精度を出した。

MatAN

手法・新規性

DiscriminatorをSiamese Networkにする。2枚の画像ペアのうち、1枚はground truthであり、もう1枚はnegative sampleはGeneratorによって生成された画像もしくはground truthに摂動を加えた画像である。学習の方法自体は、通常のGANと同様に、Discriminatorはrealかfakeかを識別できるように学習し、GeneratorはDiscriminatorの識別率を下げるように学習する。

コメント・リンク集

論文

[#215]

2018.7.27 15:52:05

Gaze Prediction in Dynamic 360° Immersive Videos

Yanyu Xu, Yanbing Dong, Junru Wu, Zhengzhong Sun, Zhiru Shi, Jingyi Yu, Shenghua Gao

CVPR 2018

Takahiro Itazuri

概要

動的に映像内容が変化する360°動画における視線推定を行った論文。まず動的に映像内容が変化する360°動画の大規模データセットを構築し、そこから視線推定には過去の視線のパスと映像内容が重要であると分析し、その上でCNNとLSTMを組み合わせて顕著性と過去の視線のパスの両方を考慮した視線推定手法を提案した。

手法・新規性

論文で対象としている動画と従来研究が使用している動画の違いとして、1) 通常の映像では受動的に動画を視聴しがちであるが、360°動画では能動的に視聴しようとする点。2) 従来の360°動画は静的な映像内容のものを扱っていた点。3) 提案手法ではHMD内に搭載可能な7invensu a-Glassを用いており、頭部の動きに加えて注視点の情報を取得している点を挙げている。データセットには音声情報もついており、360°動画における音声情報を考慮した研究も今後行っていくとのこと。

コメント・リンク集

[#216]

2018.7.27 16:51:52

Deep Back-Projection Networks for Super-Resolution

Muhammad Haris, Gregory Shakhnarovich, Norimichi Ukita

CVPR 2018

Takahiro Itazuri

概要

高解像のタスクに対して、アップサンプリングとダウンサンプリングを交互に繰り返す構造を持つDeep Back-Projection Networks（DBPN）を提案した。従来のネットワークはアップサンプリングを行う方向（feed-forward connection）しか考えておらず、それをダウンサンプリングする方向（feedback connection）を考えていなかったため、大きなスケール変化に対応できていなかった。本論文は1991年のCVGIPで発表された論文に発想を得て、アップサンプリングとダウンサンプリングを交互に繰り返す構造を取り、SoTAを達成した。

DBPN

手法・新規性

DBPNはup-projection unitとdown-projection unitからなる。up-projection unitの手順は、1) 一つ前の状態の低解像度画像（LR）をスケールアップし高解像度画像（HR）を生成し、2) 次にHRをスケールダウンさせたLRを得る、3) スケールアップとスケールダウンを経て得られたLRと入力のLRの差分を計算した後、4) その差分を元に再度スケールアップをすることでHRを得る、5) 最後にこのHRと最初にスケールアップで得られたHRを足し合わせたものを最終的なHRの出力とする。down-projection unitはこの反対の操作を行う。

コメント・リンク集

[#217]

2018.7.27 18:11:21

Generative Adversarial Image Synthesis with Decision Tree Latent Controller

T.Kaneko, K.Hiramatsu and K.Kashino

CVPR2018

Kota Yoshida

概要

属性を階層的に選びながら画像生成できるDTLC-GANを提案．階層的な構造を課すために，我々はDTLCと呼ばれる新しいアーキテクチャを生成器入力に組み込む．DTLCとは，教師データなしまたは，最上位層の教師データだけで改装の表現を自動で発見できるアルゴリズムである．DTLC-GANをMNIST，CIFAR-10，Tiny ImageNet，3D Faces，CelebAなどのさまざまなデータセットで画像生成や画像検索のタスクの有効性を確認した．

新規性・結果・なぜ通ったか？

アーキテクチャを階層的に使用することにより、上位層の階層に応じて下位層のコードを選択的に使用する潜在空間が得られる．
HCMIと呼ばれる正則化により，単一のDTLC-GANモデルのみを使用して、階層的に絡み合わない表現を学習することが可能になる．
DTANと呼ばれる新しいアーキテクチャをGANに組み込み、階層的な構造を作成する．

コメント・リンク集

画像検索などの他のタスクにも応用できそう
Paper

[#218]

2018.7.27 15:40:38

SoS-RSC: A Sum-of-Squares Polynomial Approach to Robustifying Subspace Clustering Algorithms

Mario Sznaier and Octavia Camps

CVPR2018

Ryota Suzuki

概要

アウトライヤのあるデータについての部分空間クラスタリングでは，正則化最適化による従来法によればデータサイズに対して計算複雑性が多項式スケールで伸びる．また，手動チューニングが必要．

本稿では，データから直に計算できる二乗和の多項式の評価に基づく外れ値除去アルゴリズムを提案する．計算量がデータサイズに依存しない特異値分解は2回だけ求めればよく，効率的に計算できる．インライヤ・アウトライヤ分類の誤り率を出力する枠組みも提供．

新規性・結果・なぜ通ったか？

外れ値除去について，理論的な枠組み，効率的な計算を提供．

種々のデータセットにおいてSoTA性能を確認．その時の計算時間は従来法より10～50倍速い．

コメント・リンク集

定式化については数学的に込み入っているので，手法の理解にはちゃんと読む必要がありそう．

論文

[#219]

2018.7.27 12:34:31

BPGrad: Towards Global Optimality in Deep Learning via Branch and Pruning

Z. Zhang, Y. Wu, G. Wang

CVPR2018

Ryota Suzuki

概要

深層学習において大域最適解に導くソルバー（BPGrad）の提案．Branch & Pruning（分枝限定法）を導入している．

リプシッツ連続性の概念で説明している．DLの関数がリプシッツ連続になっている，あるいはリプシッツ連続になるように近似して滑らかにすると，小さくて急峻な崖に陥るのを防げると説明している．リプシッツ連続を考えると，大域最適解の上限・下限がうかがい知れ，かつ滑らかにできてよいらしい．

Branch（枝分け）：次に移動すべき勾配方向を提案，Pruning（枝刈り）：理論的に大域的最適解が無いと分かっている領域には行かない．

新規性・結果・なぜ通ったか？

理論的に大域最適解にアプローチする手法として初出，と主張．（本当？）

認識，検出，セグメンテーションのタスクにおいて，従来のソルバーより性能が良いことを確認．

コメント・リンク集

リプシッツ連続：関数の勾配の大きさが常に一定以下になっていること．すなわち，|Δf|/|Δx|<=k

論文

[#220]

2018.7.27 10:53:50

Beyond the Pixel-Wise Loss for Topology-Aware Delineation

A. Mosinska, P. Marquez-Neila, M. Kozinski and P. Fua

CVPR2018

Ryota Suzuki

概要

画像中の（曲）線の構造理解(delineation)において，常習的に用いられているピクセルワイズのロス（バイナリクロスエントロピー）では行われていない，穴あきや隣接線の数などの，トポロジカルな構造を考慮したロス（Topology-aware loss）を提案する． Imagenetで学習済みのVGG19を特徴記述子に使い，それと推定されたdelineationの差を見る．このペナルティ項をバイナリクロスエントロピーに追加してロス関数を設計する．

また，計算の複雑さを維持したまま，同モデルにおいて反復的に適用するリファインメントのパイプラインも提案．

新規性・結果・なぜ通ったか？

いくつかのケースではバイナリクロスエントロピーの2倍の性能が出せた．顕微鏡画像から空撮画像までの幅広いレンジにおいてSoTA性能が出る．

確かにトポロジカルな構造を見るべきだろうと思うが，その特徴はImagenetで学習済みなのでそれを使うというのが注目すべきと感じる．

コメント・リンク集

論文

[#221]

2018.7.26 18:26:16

Universal Denoising Networks : A Novel CNN Architecture for Image Denoising

Stamatios Lefkimmiatis

CVPR2018

概要

画像のノイズ除去のためのネットワークを提案。ネットワークはlocalな情報を見るものとnon-localな情報を見るものの2つを提案した。ネットワークの評価関数としてはPSNRを用いた。

Item3Image

新規性・結果・なぜ通ったか？

従来手法と異なり、ノイズのレベルに依らない手法である。CNNベースの従来手法よりも浅いネットワークにもかかわらず、PSNRの平均は最も高いという結果が得られた。

コメント・リンク集

論文

[#222]

2018.7.27 02:19:29

Exploiting Transitivity for Learning Person Re-identification Models on a Budget

Baoyuan Wu, Weidong Chen, Peng Sun, Wei Liu, Bernard Ghanem, Siwei Lyu

CVPR2018

概要

Person Re-identificationのラベル付けを最小化する手法を提案した。教師有りの手法は最も頑健であるが、カメラの数が増えるにつれてアノテーションの負担が増える。そこで、少ないアノテーションからアノテーションのないペアの関係を推定することで問題を解決する。例えば、カメラ1と2、カメラ1と3の間で同一人物と判定されたペアは2と3でも同一人物と推測される。頂点を人物画像、エッジを同一人物であるかのスコアとしたグラフを考えることでアノテーションの補完を行う。解くべき問題はNP困難であるため、計算量削減のための手法を2つ提案した。

Item3Image

新規性・結果・なぜ通ったか？

２つの計算量削減手法はいずれも1/10にすることに成功した。WARD,RAID,Market1501の3つのデータセットにて数値評価し、ベースラインよりも少ないラベルでも全てラベルが存在する場合と同等の精度を出せることを確認した。

コメント・リンク集

論文

[#223]

2018.7.27 01:47:51

Tagging like Humans: Diverse and Distinct Image Annotation

Baoyuan Wu, Weidong Chen, Peng Sun, Wei Liu, Bernard Ghanem, Siwei Lyu

CVPR2018

概要

画像に対するアノテーションを自動で生成するdiverse and distinct image annotation(D2IA)を提案した。クラウドソーシングなどで人間の手によってアノテーションをする場合、人によって基準が異なる。例えば、同じものを対象にしてもある人は教会と具体的にアノテーションするのに対して別の人には建物とより抽象的にアノテーションする。他にも、ある人は建物の色に着目をするが別の人は写っている人の持ち物に着目する。このように、人間のアノテーションの特徴を反映したモデルの構築を目指す。アノテーションの生成はGANベースのモデルにより学習する。 Generatorは画像からアノテーションを出力し、Discriminatorは画像とアノテーションのペアから適切なアノテーションかを判定する。

Item3Image

新規性・結果・なぜ通ったか？

Precision, Recall, F1で評価し、RecallとF1は従来手法と比べ最も良く、Precisionも最も良いものと比べ差が1%以内だった。ユーザースタディにおいても提案手法の方がいいと答えた人の方が多かった。

コメント・リンク集

論文

[#224]

2018.7.27 00:57:27

Learning to Evaluate Image Captioning

Yin Cui, Guandao Yang, Andreas Veit, Xun Huang, Serge Belongie

概要

人間の判断に基づいた新たな画像キャプショニングの評価指標を提案した。画像、正解となるキャプション、生成したキャプションの3つを入力とし、生成キャプションが人間の作ったものであるかを判定することで学習を行う。これにより評価時にはキャプションに対するスコアを出力する。また、data augmentationの方法として他の画像のキャプションを使う、単語の一部を並び替える、単語の一部を置き換えるの3つを提案した。

Item3Image

新規性・結果・なぜ通ったか？

従来提案されてきた評価指標と比べ人間の評価と相関が高く、Pearson's correlationが0.9を超えた。(従来のものの最大は0.75程度)

コメント・リンク集

論文

[#225]

2018.7.27 00:11:54

Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models

Jiuxiang Gu, Jianfei Cai, Shafiq Joty, Li Niu, and Gang Wang

CVPR2018

概要

画像(orテキスト)からそれに対応するテキスト(or画像)を検索する手法を提案した。学習の過程はLook, Imagine, Matchの三つのステップに分けられる。 Lookでは、queryとして与えられた画像(orテキスト)から特徴量抽出を行う。 Imagineでは、得られた特徴量からテキスト(or画像)を合成する。 Matchでは、合成したテキスト(or画像)との類似度によってテキスト(or画像)の検索を行う。

Item3Image

新規性・結果・なぜ通ったか？

従来手法では画像とテキストの特徴を共通の空間にマッピングしていたのに対し、それぞれを別に扱うことで画像の詳細を考慮することを可能にした。上位1位、10位のどちらの検索においてもベースラインよりも高い精度での検索を実現した。

コメント・リンク集

論文

[#226]

2018.7.17 18:18:09

Long-Term On-Board Prediction of People in Traffic Scenes under Uncertainty

Apratim Bhattacharyya, Mario Fritz, Bernt Schiele

CVPR2018

概要

車の車載カメラから、人間（歩行者や自転車）の動きを予測する手法を提案した。人間の動きを予測するBayesian Bounding Box Prediction Streamと、車自体の動きを予測するOdometry Prediction Streamの2つにより構築されたモデルにより長期的な予測を実現する。人間のBounding Box(BB)は、過去のBB、過去及び予測される車の動きから推定する。車の動きは、過去の車の動き及び車載カメラの画像特徴から予測する。

Item3Image

新規性・結果・なぜ通ったか？

人間の動きの不確かさを含めて予測することが可能となった。Kalman Filterと比べ、提案法はBB、車の動きどちらも高い精度で予測することが可能である。

コメント・リンク集

論文

[#227]

2018.7.21 01:34:43

Learning Latent Super-Events to Detect Multiple Activities in Videos

AJ Piergivovanni and Michael S. Ryoo

CVPR2018

概要

動画中に映る関連した一連のeventの集まりであるsuper-eventsという概念を導入し、Super-eventsに含まれる検出する方法を提案した。例えば、バスケの試合においてシュートを打つという行動とブロックするという行動は連続して起こる行動であり、関連しあっている。このような一連の行動(シュートを打つ、ブロックする）をsuper-eventsと呼ぶ。始めに、動画の各フレーム(or segment)からCNNにより特徴抽出を行う。得られたCNN特徴から、context情報を考慮するためのTemporal Structure Filterというものを導入することでsuper-eventsを表す特徴を得る。最後に、各フレームのCNN特徴とsuper-events特徴を用いてフレームごとのイベントを検出する。

Item3Image

新規性・結果・なぜ通ったか？

MultiTHUMOS、Charades、AVAの3つの動画データセットにより実験を行った。Super-eventsを抽出することで、ベースラインでは検出されないイベントが検出することができるようになった。 I3Dにsuper-eventsを導入したものが最もmAPが高いという結果が得られた。

コメント・リンク集

論文

[#228]

2018.7.22 14:52:23

Learning Attribute Representations with Localization for Flexible Fashion Search

Kenan E. Ak, Ashraf A. Kassim, Joo Hwee Lim, and Jo Yew Tham

CVPR2018

概要

ファッションアイテムを検索するネットワークとしてFashionSearchNetを提案した。 FashionSearchNetは、クエリ画像に対して、襟の色のみ変えたものなど局所的なattributeを変えたものを検索することを実現する。入力のファッション画像に対して、各attributeが画像中のどの領域に存在するかを示すAttribute Activation Maps(AAMs)を得る。次に、AAMsより推定したROI内のconv5層の特徴を取得し、全結合層により各attributeを表す特徴量を得る。最後に各attributeの特徴を結合して4096次元の特徴ベクトルを得る。

Item3Image Item4Image

新規性・結果・なぜ通ったか？

ベースラインの手法と比べ、FashionSearchNetは16%正確度が向上した。GPU計算の場合、60秒で1万枚の画像を処理することが可能である。

コメント・リンク集

論文

[#229]

2018.7.20 15:19:39

Joint Pose and Expression Modeling for Facial Expression Recognition

Feifei Zhang, Tiznzhu Zhang, Qirong Mao, Changsheng Xu

CVPR2018

概要

顔向きの違いを含めて学習するGANベースの表情認識手法を提案した。顔画像から、個性、表情、顔向きをそれぞれ表す特徴量を抽出する。 Generatorによってこれらの特徴量から表情、顔向きを変化させた画像を生成する。 Discriminatorは、個性とアトリビュートを判定する2つを用意する。個性を判定するものは、顔画像から抽出した個性特徴によって判定を行う。アトリビュートを判定するものは、顔画像及び表情・顔向き特徴によって判定を行う。表情の識別器は、学習データに加えGeneratorによって生成した画像を用いて学習する。

Item3Image

新規性・結果・なぜ通ったか？

Generatorによって表情、顔向きを変化させた画像を生成することによって、少ない学習データでも表情識別器の学習が可能となった。Multi-PIE、BU-3DFE、SFEWの3つのデータセット全てにおいて平均の識別率は従来手法と比べ最もよい数値を記録した。

コメント・リンク集

論文

[#230]

2018.7.23 01:24:55

ICE-BA: Incremental, Consistent and Efficient Bundle Adjustment for Visual-Inertial SLAM

Haomin Liu, Mingyu Chen, Guofeng Zhang, Hujun Bao, Yingze Bao

CVPR2018

概要

Visual-Inertial SLAM(VI-SLAM)の最適化計算に関する研究。画像情報と慣性情報を用いたポーズ推定は、VI-SLAMの計算時間を大きく左右する。 SLAMはその応用先ゆえにリアルタイムで動くことが求められるため、高速化にはポーズ推定の高速化が求められる。そこで、従来手法と比べより効率よく最適化する手法を提案した。

Item3Image

新規性・結果・なぜ通ったか？

従来法では短期間の情報しか最適化に用いることができなかったのに対し、計算効率を10倍に向上することでより長期的な情報を使用して精度を向上することに成功した。

コメント・リンク集

github

[#231]

2018.7.21 02:15:18

Deep Cost-Sensitive and Order-Preserving Feature Learning for Cross-Population Age Estimation

Kai Li, Junliang Xing, Chi Su, Weiming Hu, Yundong Zhang, Steve Maybank

CVPR2018

概要

他の人種や性別(source)による学習結果を用いることで、学習データが少ないグループ(target)に対しても適用可能な年齢推定手法Deep Cross-Pupulation(DCP) age estimationを提案した。始めに、データが多いグループ(source)を用いてranking problemとして学習することでグループに依らない共通の特徴(low-level aging features)を取得する。次に、得られたパラメータからsource, targetそれぞれのネットワークを更新していく。ここでは、source, targetそれぞれの顔画像を入力として2枚の画像が年齢が同じか異なるかを学習していく。これにより、グループごとの年齢特徴(high-level aging features)を得る。

Item3Image

新規性・結果・なぜ通ったか？

従来手法はグループごとに学習していたため、データが少ない人種などには適用が難しかったが、提案手法によりデータが少ない人種への適用が可能になった。Morph Ⅱ，WebFaceで実験をしてMAEがベースラインと比べ最も小さく(3.1~4.6程度)なった。 targetのデータ数が10%程度の場合でもMAEが5.3となった。

コメント・リンク集

論文

[#232]

2018.7.24 18:18:00

Controllable Video Generation with Sparse Trajectories

Zekun Hao, Xun Huang, and Serge Belongie

CVPR2018

概要

動画の初期フレームと、モーションの軌跡を入力することで動画を生成する手法を提案した。入力画像とフローベクトルから、Flow、Hallucinated output、Maskの3つを予測するネットワークにより実現する。予測フレームの情報が、入力画像に含まれている場合はFlowによる変形によりピクセル値を取得する。一方で、初期フレームに映っていない情報や、色の変化についてはFlowによる変形では実現できないため、Hallucinated outputにより取得する。上記2つの画像のうち、どちらの情報を用いるかをマスクによって指定することで出力を取得する。

Item3Image

新規性・結果・なぜ通ったか？

KITTI、Robotic Pushing、UCF-101の3つのデータセットにより実験を行った。各データセット中の動画から得られるFlowを入力として実際の動画中のフレームと予測フレームを比較したところ、PSNR、SSIMいずれの手法も提案手法が最も良いことを確認した。ユーザースタディの結果、Flow、Hallucinated outputのいずれかがない場合よりも両方ある場合の方が圧倒的に高い評価を得られた。

コメント・リンク集

[#233]

2018.7.20 13:56:02

Bilateral Ordinal Relevance Multi-instance Regression for Facial Action Unit Intensity Estimation

Yong Zhang, Rui Zhao, Weiming Dong, Bao-Gang Hu, Qiang Ji

CVPR2018

概要

Action Unit(AU)の強度を推定するための弱教師学習手法を提案。表情認識の分野でAUは広く研究されているが、アノテーションの難しさから強度のラベルが付いた大規模データベースは存在しない。そこで、比較的アノテーションが容易であるピークと谷のアノテーションのみから学習する弱教師つき学習手法を提案する。アノテーションのついていないフレームについては、ピークと谷とのrelevalenceを考える。その際、時系列的に近いフレームはrelevalence及びAUの強度は近い値になるようにすることで平滑化する。

Item3Image

新規性・結果・なぜ通ったか？

FERA 2015, DISFA, PAINの3つのデータベースにより実験を行い、PCC, ICC, MAEの3つの指標を評価した。FERAは、1つのAUを除いて全ての指標がベースラインよりも良いという結果が得られた。 DISFAについてはPCC, ICCは多くのAUで最も良い数値となったがMAEは1２のAUのうち4つのみが最も良い数値となった。 PAINについては、弱教師つきの従来手法よりはPCC, ICCが良いという結果が得られた。

コメント・リンク集

論文

[#234]

2018.7.24 19:56:22

4D Human Body Correspondences from Panoramic Depth Maps

Zhong Li, Minye Wu, Wangyiteng Zhou and Jingyi Yu

CVPR2018

概要

人間の3次元モデルの時間変化を、頂点の対応付けを行うことによってデータ量を圧縮する手法を提案した。多視点のdepthマップから作成した、Panoramic Depth Mapsを入力とすることで、3次元モデルの頂点の対応付けを行うネットワークを構築する。得られた対応付けに基づき、頂点の時間変化を考える。この時間変化に対するAuto Encoderを考え、中間層の出力を3次元モデルの時間変化として取り扱う。

Item3Image

新規性・結果・なぜ通ったか？

従来手法と比較して、対応付けの誤差が小さく高い圧縮率を実現することに成功した。PCAベースの圧縮手法と比べ、圧縮の際の誤差を小さくすることに成功した。

コメント・リンク集

論文

[#235]

2018.7.22 02:33:40

Dynamic Scene Deblurring Using Spatially Variant Recurrent Neural Networks

Jiawei Zhang, Jinshan Pan, Jimmy Ren, Yibing Song, Linchao Ban, Rynson W.H. Lau and Ming-Hsuan Yang

CVPR 2018

Kodai Nakashima

概要

この研究で行われたことは以下に示す3つである．

ぶれ除去問題は，ディープニューラルネットワークを適応することによりかなり進展した．しかし既存のモデルは大規模で計算コストが高い．そこでこの研究では，新しい空間的に可変なニューラルネットワークを提案する．
ぶれ除去の過程が無限インパルス応答モデルとして記述できることを示す．さらにぶれ除去の過程と提案ネットワークの関係を分析する．
提案ネットワークを定量的，定性的に評価する．

Dynamic_Scene_Deblurring_Using_Spatially_Variant_Recurrent_Neural_Networks.png

新規性・結果・なぜ通ったか？

GOPRO datasetを用い提案ネットワークを定量的（SSIM, PSNR）に評価した．また，定性的評価には参考文献のreal blurry imageを用いた．その結果，提案手法がSoTAアルゴリズムと比べ，精度，スピードとモデルサイズにおいて優れていることがわかった．

コメント・リンク集

[#236]

2018.7.27 00:35:45

Spline Error Weighting for Robust Visual-Inertial Fusion

Hannes Ovrén and Per-Erik Forssén

CVPR2018

Ryota Suzuki

概要

スプライン曲線あてはめにおいて，異なるタイプの残差のバランスがとれるような確率ベースの重みづけについて提案．スプライン曲線あてはめの近似誤差の推定を統合するところが新しい．

また，スプライン曲線あてはめの質の尺度を提案．スプライン曲線の中間点のスページングの自動化などに貢献できる．

新規性・結果・なぜ通ったか？

ディープ系ではないが，先に行った推定結果を処理に使うというあたり，イマドキ感を感じる．

コメント・リンク集

論文

[#237]

2018.7.26 16:15:41

Scalable and Effective Deep CCA via Soft Decorrelation

X. Chang, T. Xiang and T.M. Hospedales

CVPR2018

Ryota Suzuki

概要

複数視点系の話題で，非線形の設定においては，Canonical Correlation Analysis (CCA) という手法が一般的になってきた．この既存のDeepなCCAにおいては，典型的には，一般潜在空間における異なるアピアランスの相関が最大化される前に，最初にそれぞれのアピアランスにおける特徴次元の間の相関除去を行っている．このCCAでは，学習イタレーション毎に，逆行列計算に依存する計算コストの高い相関除去の計算が求められる．しかも，この相関除去のステップは勾配効果最適化の枠組みからは離れており，その結果準最適解に落ち着いてしまう．

本稿では，Soft CCAを提案する．Softといっているのは，CCAの計算途中に直交性が求められるところの条件を，SGDで最適化されるソフトなコスト関数に置き換えるというところ．ミニバッチベースの確率的相関除去ロス（Stochastic Decorrelation Loss; SDL）を導入．これは，その他目的関数と結合的に最適化される．

このSDLはマルチビュー問題以外にも適用可能である．

新規性・結果・なぜ通ったか？

流行の手法の確かな発展．

コメント・リンク集

計算効率化方向に向かっているネタ．

論文

[#238]

2018.7.26 15:48:51

SYQ: Learning Symmetric Quantization For Efficient Deep Neural Networks

J. Faraone, N. Fraser, M. Blott, P.H.W. Leong

CVPR2018

Ryota Suzuki

概要

ネットワークの計算省力化に，ネットワークパラメータのデータビット数を下げるやり方がある．重み・活性化パラメータの分布をコードブックで近似表現することで行われるが， 1-8bitまで量子化すると，フォワード・バックワード関数の大きな勾配ミスマッチが起こるために著しい精度低下が起きていた．

本研究では，この損失を，特定の重みサブグループにおけるシンメトリックなコードブックの学習によって問題を解決する．サブグループは，重み行列の中での局所性に基づいて考慮される．

1-2 bitの重み，2-8 bitの活性化でもうまくいくことを示す．

新規性・結果・なぜ通ったか？

ひどく量子化してデータ削減してももうまく行っちゃうというすばらしさ．

コメント・リンク集

論文

[#239]

2018.7.26 15:05:54

Image to Image Translation for Domain Adaptation

Zak Murez, Soheil Kolouri, David Kriegman, Ravi Ramamoorthi, Kyungnam Kim

CVPR2018

Naofumi Akimoto

概要

domain adaptationの一般的なフレームワークの提案．エンコーダーネットワークによって抽出される特徴に制約をかけるために，最近提案されたペアなしのimage-to-image変換に対する新しい利用方法を提案する．このように制約をかけて得たい特徴は以下のような性質を持つ・抽出された特徴は２つのドメインでの画像に再び戻せる・２つのドメイン画像から抽出された特徴の分布は区別できない（Dを騙せる）実験では，domain adaptationの問題として数字の分類や車載動画のセマンティックセグメンテーションのタスクを取り上げ，state of the artを超えた．

Item3Image

新規性・結果・なぜ通ったか？

一つのフレームワークの中で，image-to-imge変換とソース側の分類問題，そしてdomain adaptationを行なっている．

コメント・リンク集

最近の研究は我々の一般的なフレームワークの内の特殊なケースとして見なせる，と強気発言．

arXiv

[#240]

2018.7.26 13:53:05

Towards Human-Machine Cooperation: Self-Supervised Sample Mining for Object Detection

Keze Wang, Xiaopeng Yan, Dongyu Zhang, Lei Zhang, Liang Lin

CVPR 2018

Kazushige Okayasu

概要

・学習画像群の中から物体検出の学習に有益な画像を探索する手法Self-Supervised Sample Miningを提案

Towards_Human-Machine_Cooperation_Self-Supervised_Sample_Mining_for_Object_Detection

新規性・結果・なぜ通ったか？

・ラベルのないデータを追加して精度向上させるだけでなく、アノテーションの数を大幅に減らしてstate-of-the-artの精度を実現

コメント・リンク集

[#241]

2018.7.25 17:55:34

Pointwise Convolutional Neural Networks

Binh-Son Hua, Minh-Khoi Tran and Sai-Kit Yeung

CVPR 2018

Kodai Nakashima

概要

３次元点群のおけるセマンティックセグメンテーションや物体認識のための、新しい畳み込み操作を提案した論文。これはpointwise convolutionと呼ばれ、点群の各点々に適応可能である。この操作を用いることにより実装が簡単になり、他のネットワークと同程度の精度を実現できる。 Fig.1に示すように、注目点を中心としてカーネルを設置し、分割されたセル（Fig.1では３X３X３）ごとに平均を計算し、畳み込むという計算を行う。

新規性・結果・なぜ通ったか？

セマンティックセグメンテーションの結果をTabl2に示す。これより、PointNetと比べて同程度の精度を達成していることが分かる。ここで、評価用データセットにはS3DISを用いた。物体認識の結果をTable4に示す。これより、SoTAな手法と比べ同程度の精度を達成していることが分かる。ここで、評価用データセットにはModelNet40 datasetを用いた。

コメント・リンク集

論文URL

[#242]

2018.7.24 06:07:32

Transductive Unbiased Embedding for Zero-Shot Learning

Jie Song, Chengchao Shen, Yezhou Yang, Yang Liu, Mingli Song

CVPR 2018

1369

Kazuki Inoue

概要

zero-shot learning(ZSL)で問題となっているソースデータとターゲットデータに対する識別精度のバイアスを緩和するための手法をtransductive ZSLの設定で新しいロス関数を提案。transductive ZSLとはトレーニング中にラベルをもつ画像から成るソースデータと、ラベルを持たない画像から成るターゲットデータを扱う設定である。提案手法では既存研究で用いられている、ソースデータに対するclassificationロス(+正則化項)に加えて、ターゲットデータに対するロス関数として、ターゲットデータがどのターゲットカテゴリに所属するのか、という確率を足しあげlogを取ったものを加える（正確には減算をする）。実験ではターゲットデータに対する識別精度を算出するZSLの設定と、ソースデータとターゲットデータの両方に対す識別精度を算出するGZSLの設定を検証する。

Item3Image

新規性・結果・なぜ通ったか？

評価尺度としてソースデータ、ターゲットデータへのtop1-accuracyのMean Class Accuracy (MCA)、harmonic meanを使用。
inductive/transductive ZSL(inductive ZSLとはトレーニング中にはターゲットデータを一切使用しない手法)の両方の既存研究においてZSL、GZSLの両方の設定で検証した結果、ほとんどの設定において上記の尺度でSoTAを達成しており、バイアスを解消できていると主張。

コメント・リンク集

transductive ZSLはトレーニング中にターゲットデータを扱わないinductive ZSLに比べて、ターゲットカテゴリのインスタンスをトレーニング中にしれているという点で有利であり、かつ提案手法ではトレーニング中にターゲットカテゴリのインスタンスをターゲットカテゴリのいずれかに識別するようにロス関数を設定しているため、これは純粋なZSLとは呼べないのではないか？ZSLと呼べる手法の境界はどこにある？
論文

[#243]

2018.7.25 02:58:39

Zero-Shot Visual Recognition using Semantics-Preserving Adversarial Embedding Networks

Long Chen, Hanwang Zhang Jun Xiao, Wei Liu, Shih-Fu Chang

CVPR 2018

2517

Kazuki Inoue

概要

テスト時にトレーニングでは扱わなかったクラスのインスタンスを扱うzero shot learning(ZSL)において問題視されていたsemantic lossを解決するモデルSemantics-Preserving Adversarial Embedding Network (SP-AEN)を提案。semantic lossとはトレーニングで使用されたデータであるseen classesとテストで初めて扱うデータであるunseen classesにおける分布の違いから、トレーニングされたモデルがテスト時にうまく機能しない問題である。これに対して提案手法ではZSLでそれぞれ独立に提案されていた画像のリコンストラクションを行うencoder E, decoder Dとラベルの識別を行うclassifier C、EとCから得られる特徴量を識別するDを組み合わせたモデルを提案。EとCを用いることでリコンストラクションとラベル識別を独立に行い、かつDをGANベースに学習することで、Cはインスタンスごとの学習に重きを置くEの効力を得ることができるモデルとなっている。

Item3Image

新規性・結果・なぜ通ったか？

多くの設定でSoTAであり、特にseenクラスとunseenクラスに対する識別精度の平均値的な意味をもつharmonic meanは全てのデータセットでSoTAとなった。
リコンストラクションの画像が既存手法に比べて鮮明。
テストの際にはseen classとunseen classのアトリビュートのコサイン類似度を用いて識別精度を検証している。CUB, AWA, SUN and aPY, SP-AENで検証。

コメント・リンク集

各インスタンスに注目するencoderと、同じラベルを持ったインスタンスには似たような特徴量を与えるclassifierのいいところ取りをdiscriminatorによって実現。
リコンストラクションの結果が、鳥だけやけに綺麗なのはなぜ？
論文

[#244]

2018.7.25 01:20:06

Generalized Zero-Shot Learning via Synthesized Examples

Vinay Kumar Verma, Gundeep Arora, Ashish Mishra, Piyush Rai

CVPR 2018

4099

Kazuki Inoue

概要

Generalized Zero-Shot Learning(GZSL)のバイアスを小さくするためのCVAEとクラスラベルのclassifierを組み合わせたモデルを提案。GZSLとは、テストの際にトレーニングで使用した(seen)クラスとトレーニングでは使用していない(unseen)クラスの両方を扱う問題を指す。既存手法ではトレーニングされたモデルを用いた識別などにおいて、seenクラスに対するバイアスが高いことが問題であった。提案手法ではclassifierのロスをdecoderに流し、かつdecoderによって合成された画像をラベルなし画像として扱い半教師学習を行う。テスト時にはseenクラスとunseenクラスの画像を合成し、合成された画像を用いてSVMを学習しその識別精度を比較する。

Item3Image

新規性・結果・なぜ通ったか？

unseenなクラスに対する識別と、seen、unseenなクラスに対する識別の平均値でSoTA。一方でseenクラスに対してはSoTAの10%以下。それぞれの精度差は±10%であるため、バイアスがないことも確認している。
画像のクオリティを定量的に考察するためにt-SNEによる分布を確認しており、合成された画像と実画像の分布がよく重なっているこをを確認している
AwA、SUN、CUB、dataset、ILSVRC 2012/2010 datasetを使用。seen/unseenのクラスラベルの比率はおよそ3:1

コメント・リンク集

seenクラスに対して高い識別精度をもつ既存手法ではunseenクラスに対する識別精度が低くバイアスが高いことに注意。
SVMではなく、deep learningを使えば識別精度も相対的に高くなる？
seen/unseenクラスの両方を扱う問題をなぜ”Generalized" Zero-Shot Learningと呼んでいる？
論文

[#245]

2018.7.24 14:24:26

Feature Super-Resolution: Make Machine See More Clearly

Weimin Tan, Bo Yan, Bahetiyaer Bare

CVPR 2018

3408

Kazuki Inoue

概要

低解像度画像と高解像度画像で同じ特徴量を得るために新しいロス関数focal lossを導入したFeature Super-Resolution Generative Adversarial Network (FSR-GAN)を提案。提案ネットワークは図の通りfeature extractorと低解像度画像の特徴量を高解像度画像の特徴量に似せるgenerator、特徴量のドメインを識別するdiscriminatorからなる。focal lossとはインスタンスごとのL2距離をr乗するというもの。adversarial lossとしてWGANで導入されたEarth-Mover distanceを使用。

Item3Image

新規性・結果・なぜ通ったか？

特徴量による画像検索において、画像サイズが小さくなっても既存手法よりも高いmAPを維持。
low bit-rate画像検索において、低いビットレートの時に既存手法よりも高いmAPを獲得。
WGAN＋L2ノルムではgenerator無しよりも結果が悪いことを確認している
Oxford5K, Paris, Holidays, and Flick100k datasetsで実験、rは2と設定されている。比較している手法は画像の超解像化手法。feature extractorとしてVGG16を使用。

コメント・リンク集

シンプルなロス関数の提案だが、複数の検証による精度向上を確認している。
WGANとの比較が無いのが気になった。
論文
参考 Wasserstein gan (WGAN)

[#246]

2018.7.23 23:19:00

Low-shot learning with large-scale diffusion

Matthijs Douze, Arthur Szlam, Bharath Hariharan, Herve ́ Je ́gou

CVPR 2018

1590

Kazuki Inoue

概要

大規模データセットを用いた古典的な手法による半教師学習の有効性を調査。古典的な手法としてkNNグラフを用いた拡散アルゴリズムを使用し、半教師学習としてlow shot learningを扱った。low shot learningとはデータ中にクラスなどのアノテーションが施された画像がごく一部であり大半の画像にはアノテーションがないデータセットを扱う問題を指す。大規模データセットであるImageNetなどでlow shot learningを行い、low shot learningのSoTAと古典的な手法による精度の比較を行った。

Item3Image

新規性・結果・なぜ通ったか？

以下の場合に古典的な手法の方が高い精度となった。
- ラベルがついた画像とラベル無しの画像が同じデータセットであり、各クラスのラベル有り画像が1、2枚の時
- ラベルがついた画像とラベル無しの画像が異なるデータセットであり、各クラスのラベル有り画像が10、20枚の時
データセットしてImageNet、YFC100M datasetを使用。評価尺度は画像識別におけるtop5-accuracy。

コメント・リンク集

大規模データセットに対する新しい解析方法であり、データセットの使用方法の知見を深めた論文。2003年の手法が2017年の手法に優っているケースはCVでは特に珍しいのではないか？

論文
参考使用された拡散アルゴリズム Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions
low shot learningのSoTA Low-shot Visual Recognition by Shrinking and Hallucinating Features

[#247]

2018.7.23 19:35:54

Learning Deep Descriptors with Scale-Aware Triplet Networks

Michel Keller, Zetao Chen, Fabiola Maffra, Patrik Schmuck, Margarita Chli

CVPR 2018

3673

Kazuki Inoue

概要

triplet lossをアップデートしたmixed-context lossとサンプリング手法であるscale-aware samplingを提案。triplet lossではサンプルに対するpositiveとnegativeの両方の特徴量距離を同時に学習するため、片方ずつ学習するsiamese lossよりも高い精度を出しやすいことがわかっている。しかしtriple lossで扱う特徴量距離はサンプルごとにローカルに決定されるため、場合によっては右図右から2番目の結果のように、特定クラスに対する結果が良く無い場合がある。提案するmixed-context lossでは、この測定される特徴量距離にバイアス項を加えたtriplet lossとsiamese lossの中間表現をとる。またscale-aware samplingは各バッチごとにpositiveとhard negativeをサンプリング手法であり、ロス関数のスケールを調整することが可能。

Item3Image

新規性・結果・なぜ通ったか？

UBC benchmarkを用いた結果、siamese lossとtriplet lossと比較した結果、もっとも良い精度を達成
バイアス項はこの論文ではハイパーパラメタ扱いであるが、future workとして自動で決定したいとのこと。

コメント・リンク集

バイアス項の値を変化させtriplet lossとsiamese lossの比率の変化による精度の変化を見て見たい。扱う問題にもよるだろうが、triplet lossの比率を多少大きくした方が精度は高い？
論文
Supplementary material

[#248]

2018.7.23 17:34:53

Shift: A Zero FLOP, Zero Parameter Alternative to Spatial Convolutions

Bichen Wu, Alvin Wan, Xiangyu Yue, Peter Jin, Sicheng Zhao, Noah Golmant, Amir Gholaminejad, Joseph Gonzalez, Kurt Keutzer

CVPR2018

3990

Kazuki Inoue

概要

convolutionと同じ働きを持ち、パラメタやfloating point operation(FLOPS)が必要ないshift operationを提案。convolutionをshift operation に置き換えることでモデルサイズを小さくすることができる。Shift-operationはconvのようにカーネルをもち、どれか1ピクセルだけ値を1を格納し、それ以外は０を格納しており、１を格納している位置はチャンネルごとに異なる。またカーネルを動かす方向もチャンネルごとに異なる。これに対して1x1convを組み合わせることで、convolutionと同じ機能をもつ。Shift-operationと1x1convを組み合わせたものをshift moduleと呼び、実験では従来のCNNに対してshift moduleを組み込んだネットワークを用いてimage classification、face verification、style transferを行った。

Item3Image

新規性・結果・なぜ通ったか？

ResNetにshift-based moduleを組み込んだところ、CIFAR-10/100に対する識別精度が向上した一方で、パラメタ数を60%削減可能であった。
FaceNetにshift-based moduleを組み込んだところ、同等の精度を保ちつつ、パラメタ数を2.7%程度まで削減可能であった。
style transferでもベースラインの手法とかなり近い画像を生成することが可能となり、パラメタ数を16%程度まで削減可能となった。

コメント・リンク集

CNNの保ったままパラメタ数を大幅に削減可能！とはいえ、CNNの人気を考えると今後このネットワークが流行っていくだろうか？
論文

[#249]

2018.7.22 23:13:13

A Neural Multi-sequence Alignment TeCHnique (NeuMATCH)

Pelin Dogan, Boyang Li, Leonid Sigal, Markus Gross

CVPR 2018

914

Kazuki Inoue

概要

異なるデータ間同士のアラインメントを4つのLSTMモジュールで行うNeuMATCHを提案。one-to-oneやone-to-manyのアラインメントや、既存手法とは異なり、マッチングの順番が必ずしも時系列通りではないnon-monotonic alignmentを扱うことができる。提案手法では様々なデータを扱うことができるが、特に動画とそのストーリーのアラインメントを行う。提案ネットワークは動画のクリップごとの特徴量を持つLSTM (Video Stack)、ストーリーの各センテンスの特徴量を持つLSTM (Text Stack)、過去にどのようなアラインメントを行ったのかを記憶するLSTM (Action Stack)、過去にマッチングした動画クリップとセンテンスを記憶するLSTM (Matched Stack)の4つのモジュールからなる。提案手法の強みとして、Action StackとMatched Stackによって過去の情報を再利用すること（3番目の動画クリップには必ずセリフを対応させる、など）を主張している。また、動画とテキストのアラインメントに対するデータセットの構築も行った。

Item3Image

新規性・結果・なぜ通ったか？

one-to-oneとone-to-manyの精度をHM-1、HM-2、本論文で構築したYouTube Movie Summaries (YMS) datasetデータセットで実験を行った結果、全ての設定においてSoTAを達成。
Youtubeから集めた映画のクリップと対応する映画の要約テキストからなるYMS datasetを構築した。
ablation studyにより、LSTMの4つのモジュールの有効性を確認した。特にaction stackが重要であった。

コメント・リンク集

論文中でも主張しているが、アラインメントで特に難しいテキストにおいてSoTAを達成していることにインパクトがある。
精度はまだそれほど高くなく、one-to-oneでもYMSで12.0%、データセットの構築も行ってくれているため、まだまだ発展しそうな分野。
論文
Supplementary material
GitHub

[#250]

2018.7.22 21:59:01

NestedNet: Learning Nested Sparse Structures in Deep Neural Networks

Eunwoo Kim, Chanho Ahn, Songhwai Oh

CVPR 2018

3430

Kazuki Inoue

概要

入力データの形式や種類に柔軟かつ、ネットワークのサイズを学習し直すことなく柔軟に変更することが可能なnested sparse network (NestedNet)を提案。従来の手法ではネットワークの重みやチャンネル数を削除することで新たなデータ形式やサイズの縮小を行っていたが、新たに学習をし直す必要があった。NestedNetはネスト構造をもつnetwork-in-networkの構造をもち、レベルが低いネットワークはレベルが高いネットワークの一部となる。マルチタスクラーニングを行うことで、低レベルのネットワークはタスクごとに共通な特徴量を学習し、高レベルのネットワークはタスクに特化した特徴量を持つ。そのため、データやサイズの制限によって使用するレベルの上限を変更することで以前学習した内容を保ったままファインチューニングが可能。

Item3Image

新規性・結果・なぜ通ったか？

ネットワークの有効性を確認するために、adaptive deep compression、knowledge distillation、hierarchical classificationを行った。

adaptive deep compression：かくレベルごとに重みとチャンネルを削減した結果、CIFAR-10のclassificationにおいて既存手法よりもネットワークのサイズを小さくしつつ精度を保つことを確認した。
knowledge distillation：NestedNetの内部のネットワークをスクラッチで学習し直すのではなく、knowledge distillationを行った場合の精度をNestedNetとベースラインと比較、CIFAR-10のclassificationにおいて同等の精度を達成。また実行時間も短くなったことを確認。
Hierarchical classification：CIFAR-100におけるhierarchical classificationを行なった結果、NestedNetはベースラインのネットワークやSoTAであるSplitNetよりも高い精度を達成。

コメント・リンク集

かなり実用的なネットワーク！ネットワークのサイズ変更に伴って学習をし直さなくていいことは商用的に、かなり価値があると思われる。
論文
Supplementary material

[#251]

2018.7.22 19:08:17

Learning Compositional Visual Concepts with Mutual Consistency

Yunye Gong, Srikrishna Karanam, Ziyan Wu, Kuan-Chuan Peng, Jan Ernst, Peter C. Doerschuk

CVPR 2018

1959

Kazuki Inoue

概要

“handbag vs. shoe”と“photo vs. edge”など複数のconceptを学習する際に、いずれかのサブドメイン(photo handbagなど)のトレーニングデータが無い場合にも、他のサブドメインの学習によって画像を生成することが可能なConceptGANを提案。論文では2つのコンセプトで、一つのサブドメインのトレーニングデータない場合を主に説明してる。CycleGANをベースにサブドメイン間のconsistencyを保つために以下のlossを設定

Adversarial loss：トレーニングデータが存在するサブドメインにおいて実画像vs生成画像のdiscriminatorを導入
pairwise cycle consistency loss：2つのサブドメイン間でcycle pathによる入力画像と生成画像のL1ロス
(Counter-)Clockwise cycle-consistency：(反)時計回りのパスによって生成された画像と入力画像のL1ロス
commutative loss：右図において対角上のサブドメインの画像を生成する際に時計回りのパスと反時計回りのパスで生成された画像で似た画像を生成するためにL1ロス

Item3Image

新規性・結果・なぜ通ったか？

“smile”と”eyeglass”(両方ありのトレーニングデータがない)、”eyeglass”と”bangs”(両方ありのトレーニングデータがない)、"handbag vs. shoe”と“photo vs. edge”(edge shoeのトレーニングデータがない)のそれぞれにおけるコンセプトにおける生成画像を確認。CycleGANがうまく画像を生成できていない一方で、提案手法ではCycleGANよりも綺麗な画像を生成できている。
”eyeglass”と”bangs”、"handbag vs. shoe”と“photo vs. edge”のそれぞのコンセプトで生成した画像に対するattribute classificationを行った結果、CycleGANによる生成画像よりも高い精度を達成。
face verificationにおいて、提案手法で生成された画像を用いてトレーニングデータをオーギュメンテーションした結果、テスト結果はより高くなった。

コメント・リンク集

最適化に関するコントリビューションを特に主張していなくて、本当に学習が収束するのかどうかがとても気になる。このConceptGANの学習を安定させ（不安定なら）、より綺麗な画像を生成することができれば新しいGANの知見を得ることができる？
画像の解像度は64x64
論文
Supplementary material
参考 Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (CycleGAN)

[#252]

2018.7.22 17:29:53

Learning Deep Sketch Abstraction

Umar Riaz Muhammad et al.

CVPR 2018

Yoshihiro Fukuhara

概要

初のストロークレベルのスケッチ抽象化モデルを提案した. 強化学習の Agent がストロークセグメントを観測し, それを残すか消すか決定する. また, 提案手法を用いた新しい写真からのスケッチ合成手法を提案し, fine-grained SBIR (FG-SBIR) のタスクに置いて upper bound（実際に写真とスケッチの対応データから学習したもの）に類する精度を, 写真だけから学習したモデルで達成した.

新規性・結果・なぜ通ったか？

初のストロークレベルのスケッチ抽象化モデルを提案. また, 提案手法を用いた新しい写真からのスケッチ合成手法を提案
簡潔さ（ストローク数）と認識可能性はトレードオフの関係という仮定に基づいて, 強化学習によってどのストロークが消去可能かを学習
Agent は各ステップでストロークセグメントを観測し, それを残すか消すか決定
Agent は Bi-directional GRU（B-GRU）と Multi Layer Perceptron （MLP）で構成され, B-GRU が状態の時間的遷移から特徴を抽出し, MLPが行動を決定
Agent の学習は Policy Gradient 法を用いる
Raward は各ステップでストロークを消すと小さいマイナス, 最終的なスケッチのクラス識別の結果がGTと同じなら大きなプラスを得る（これ以外にも各ステップでの識別結果のランクに基づいたrewardも用いている）
提案手法は Sketch abstraction や Photo to sketch synthesis 等のタスクで高い認識精度を達成
特に, fine-grained SBIR (FG-SBIR) に置いては upper bound（実際に写真とスケッチの対応データから学習したもの）に類する精度を, 写真だけから学習したモデルで達成

コメント・リンク集

2018.7.22 15:49:55

Appearance-and-Relation Networks for Video Classification

Limin Wang, Wei Li, Wen Li, Luc Van Gool

CVPR2018, arXive:1711.09125

172

Hiroshi Fukui

概要

動画認識における特徴空間の学習で，RGBからAppearanceとRelationを効率的に学習するAppearance-and-Relation Network(ARTNet)を提案．ARTNetは，SMART Blockという複数のブロックから構築されており，このブロックはAppearanceとRelationをそれぞれ学習ブランチから構成されている． Appearance branchは2D Conv.をベースに構築し，Relation branchは3D Conv.をベースに構築している． 3D Conv.と2D Conv.の組み合わせによりAppearanceとRelationを効率的に特徴を抽出できるため，より良い特徴を得ることができる．最終的に，それぞれのブランチから出力された特徴を結合することで，最終的な特徴を抽出していく．

新規性・結果・なぜ通ったか？

2D Conv.と3D Conv.を効率的に使ったモデルの提案で，Kinetics，UCF101，HMDB51 Datasetで評価し，従来のC3Dより高精度な特徴抽出が可能であることを示している．

コメント・リンク集

モデルとしては，two-stream CNNと3D CNNの良いところ取りしたような印象の手法．汎化性も高く，様々な時系列対応のタスクに応用できそう．

論文リンク

[#253]

2018.7.22 19:06:50

Diversity Regularized Spatiotemporal Attention for Video-based Person Re-identification

Shuang Li, Slawomir Bak, Peter Carr, Xiaogang Wang

CVPR2018, arXive:1803.09882

Hiroshi Fukui

概要

時系列を考慮したAttention機構を導入したRe-identificationを提案．手法としては，各時刻の人物画像をMultiple Spatial Attention Modelsに入力して人物画像からAttentionを得る． Multiple Spatial Attention Modelsでは，ResNetにより特徴マップを抽出してグリッド状に分割し，分割した獲得した各グリッドの特徴からAttentionを施して新たな特徴(Spatiotemporal Gated Feature)を抽出する．このAttentionにより，各時系列で異なる領域にAttentionが強く反応するAttentionを得ることができる．また，オクルージョンに対しても頑健になる． PRID2011，iLIDS-VID，MARS Datasetで評価し，高い性能を達成している．

新規性・結果・なぜ通ったか？

これまでのAttention機構とは異なり，Attentionが強く反応する領域をばらけさせるためにMultiple Spatial Attention Modelsを導入．かつ，誤差関数にHellinger距離を追加して正則化している．これらの工夫点から3つのRe-identificationのデータセットで高い性能を示している点が評価されたと思われる．

コメント・リンク集

論文リンク

論文

[#257]

2018.7.22 18:26:50

Quantization of Fully Convolutional Networks for Accurate Biomedical Image Segmentation

Xiaowei Xu, Qing Lu, Yu Hu, Lin Yang, Sharon Hu, Danny Chen, Yiyu Shi

CVPR2018

概要

既存手法が主に目的としているメモリや計算量の削減のための量子化手法ではなく、FCNの高精度化のためover-fittingを減らすことを目的とした量子化手法を提案。著者らは、元の学習データセットから代表的なアノテーションサンプルを抽出するsuggestive annotationに焦点を当てており、これをベースとして、提案するframeworkは、suggestive annotationでの量子化(QSA)と、高精度化のためのネットワークの学習の量子化(QNT)と2つの量子化手法から構成される。

Quantization_of_Fully_Convolutional_Networks_for_Accurate_Biomedical_Image_Segmentation.png

新規性・結果・なぜ通ったか？

医用画像(suggestive annotation)においてFCNはパラメータが余剰であり、これにより過学習に陥り精度の低下を招くことに着目して、量子化を行っている点が賢く、従来手法とは異なる点である。MICCAI Gland datasetで両方の量子化手法が性能向上を示すことを確認し、提案手法がsotaの性能を1%超えているうえ、メモリ使用量を6.4倍削減している。

コメント・リンク集

suggenstive anntation自体の計算コストが高そうな上、データ数が少なく変動が小さい医用画像だからこその手法にも思える(一般物体への適用できなさそう)。

論文

[#258]

2018.7.22 16:23:44

NAG: Network for Adversary Generation

K.R.Mopuri, U.Ojha, U.Garg and R. V.Babu

CVPR2018

Kota Yoshida

概要

Adversary perturbationsは機械学習で脅威となりうる．最近の研究では，画像にとらわれずほとんどの自然画像で分類を騙すことができる．本研究では，Adversary perturbationsの分布をモデル化する生成的アプローチを提案．アーキテクチャはGANと類似．我々の訓練されたジェネレータネットワークは、与えられた分類に対するAdversary perturbationsの分布を捉えようと試み、そのようなAdversary perturbationsの幅広い多様性を容易に生成する．

新規性・結果・なぜ通ったか？

Adversary perturbationsの未知の分布をモデル化するための簡単に訓練可能なフレームワークを提示．
生成されたAdversary perturbationsは，SoTAで分類を騙すことができた．
学習されたモデルが摂動の分布を捉え、多様性、高い騙す能力、および優れたクロスモデルの一般性を示すAdversary perturbationsを生成することを実証．

コメント・リンク集

アーキテクチャによってAdversary perturbationsが異なることが明白
Paper

[#259]

2018.7.25 17:04:38

End-to-End Deep Kronecker-Product Matching for Person Re-identification

Y.Shen T. Xiao H. Li, S. Yi and X. Wang

CVPR2018

Kota Yoshida

概要

人物再同定のタスクは人物画像間の類似性を測定する．画像中の人物の姿勢や視野角の違いによってこのタスクはチャレンジングになる．本手法ではend-to-endで学習可能なDNNを用いた異なる人物の特徴マップを一致させるKronecker Product Matching(KPM)モジュールを提案する．データセットとしてMarket-1501, CUHK03, DukeMTMCを用いて実験したところSoTAを示し，本手法の有効性と一般性を示すことができた．

新規性・結果・なぜ通ったか？

入力する2つの画像が同じ人物に属するかどうかを判定するために、それらの間の類似度スコアをKPMによって算出．
ネットワークの構造としてはKPM，soft feature wrapping, self residual-attentionを用いた単一スケールのsiamese-CNN．
図のようなsiamese-CNNを用いて類似点を出力

コメント・リンク集

Paper

[#260]

2018.7.20 16:51:49

Large-scale Distance Metric Learning with Uncertainty

Q. Qian et al.,

CVPR 2018

Kensho Hara

概要

Triplet Lossを用いて距離尺度を学習する話で，扱うデータがLarge-scaleの場合でもうまくいく手法を提案． Tripletの制約はO(n^3)なのでLarge-scaleの場合は扱うのが大変になる．加えて，データは曖昧なものがあって，サンプルによって姿勢や照明が違ったりノイズが乗っていたりするのも問題になる．提案手法では，少数のキレイなLatent Examples（下図各列の一番左）と距離尺度を同時に学習する手法を提案． Latent Examplesに基づく少数のactive setをベースにtriplet制約を作ることでLarge-scaleであってもうまく扱えるようにしている．加えて，曖昧さの減っているLatent Examplesを元に距離尺度を学習することで本質を捉えた距離尺度の学習も実現．評価実験で高速な学習が可能なことを示したほか，認識精度の向上に寄与することも確認．

新規性・結果・なぜ通ったか？

Large-scaleデータでも高速に動作する距離尺度学習の実現
Latent Examplesを距離尺度を同時に学習することで，より本質的な距離尺度の学習にも貢献

コメント・リンク集

論文

[#261]

2018.7.25 16:12:12

Person Re-identification with Cascaded Pairwise Convolutions

Yicheng Wang, Zhenzhong Chen, Feng Wu, Gang Wang

CVPR 2018

Kazushige Okayasu

概要

・人物再同定のためのネットワークBraidNetの提案・BraidNetはカメラ間の不整合や色の違いに頑健なWconvをカスケード構造に設計・学習画像の不均衡問題や勾配消失問題に対応した新しい学習方法Sample Rate Learning (SRL)とChannel Scaling (CS) layerの提案

Person_Re-identification_with_Cascaded_Pairwise_Convolutions

新規性・結果・なぜ通ったか？

・人物再同定の多くのデータセット(CUHK03-Detected, CUHK03-Labeled, CUHK01, Market-1501 and DukeMTMC-reID datasets)でstate-of-the-art

コメント・リンク集

[#262]

2018.7.25 13:57:58

Baseline Desensitizing In Translation Averaging

B. Zhuang et al.,

CVPR 2018

Kensho Hara

概要

Global Structure-from-Motion (SfM)の手法で用いるTranslation Averagingにおいて，カメラのベースラインの長さにsensitiveでない手法 (BATA) を提案．正規化を行う変数を目的関数に導入し，シンプルかつ効率的な最適化を実現．加えて，外れ値への対応のためのIterative Reweighted Least Squares (IRLS) も提案．

新規性・結果・なぜ通ったか？

BATAの提案
IRLSの提案

コメント・リンク集

論文
前提知識足りなくてあまりわかってないです...

[#263]

2018.7.25 10:30:45

Structure Preserving Video Prediction

Jingwei Xu, Bingbing Ni, Zefan Li, Shuo Cheng and Xiaokang Yang

CVPR2018

175

概要

細かな動作や境界でも高精度に検出できるvideo prediction手法の提案．このアルゴリズムは，高頻度なビデオコンテンツ（細かい物体や関節運動など）と低頻度なビデオコンテンツ（位置や移動方向など）を別々のストリームで扱う2ストリーム生成アーキテクチャ（図中左側）に加えて，時間で変化する動作パターンやシーン内の小さい物体を取得するtemporal-adaptive畳み込みカーネルを用いたRNN（LSTM）構造（図中右側）を持つ．2ストリームアーキテクチャでは，1段階目ではベースのEncoder-decoderモデルのみ学習し，2段階目および推論時はLSTMブロック部分も学習および推論に用いる．

新規性・結果・なぜ通ったか？

既存のアルゴリズムでは満足な結果を得られなかった，物体境界のような構造情報を持つ場合や，関節運動のような細かな動作でのvideo predictionの精度を向上した．データセットにはUCF-101（のうち，Clean-Jerkと呼ばれるデータ），Human3.6M（人間の細かい動きのデータ），CityScape（市街地動画のセマンティックセグメンテーションのデータ）を用いて評価し，他の手法よりも良い性能を得た．特に，物体境界や細かい動作に頑健な検出が可能である．

コメント・リンク集

一見するとシンプルな作りだが，LSTM部分に多くの工夫が含まれている．結果を見ても，提案手法は細かい部分までpredictできていることがわかる．

論文

論文

[#273]

2018.7.19 00:49:28

Deep Group-Shuffling Random Walk for Person Re-Identification

Yantao Shen, Hongsheng Li, Tong Xiao, Shuai Yi, Dapeng Chen, Xiaogang Wang

CVPR 2018

概要

従来の人物再同定（Person Re-identification; ReID）においてはProbe画像を入力として、Gallery画像内を探索してランクづけを行うことで探索を行う（P2G）。本論文では、Gallery同士の関連性（G2G）も含めて評価することでよりProbe自体の探索を強化させるためのGroup-Shuffling Random Walk Networkを提案。提案のネットワークはEnd-to-Endかつ単純な行列演算でG2Gの関連性からP2Gをより正確に推定するためのリファインメントを行う。特徴のグルーピングとグループのシャッフルを行うことでより良い人物特徴を学習可能とした。

180718GroupShufflingRandomWalk

新規性・結果・なぜ通ったか？

入力と検索画像群を比較するのみならず、検索画像群同士の関連性も記述しておくことで、ReIDのためのよりよい画像検索を実施することに成功した。特徴のグルーピング/ランダムシャッフルにより、より良い特徴評価を行えるように学習した。Market-1501,CUHK03,DukeMTMCデータセットにおいてState-of-the-art。

コメント・リンク集

SenseTimeが誇る44の研究のうちの一つ。CUHK-SenseTimeは（ひとつ前の会議の）自らの精度を打ち破ればState-of-the-artと言える。世界一である強みを活かしてこれからもどんどんReIDの論文を書いて欲しいと思う。

[#274]

2018.7.18 20:47:20

Multiple Granularity Group Interaction Prediction

Taiping Yao, Minsi Wang, Bingbing Ni, Huawei Wei, Xiaokang Yang

CVPR 2018

概要

入力された短期（数秒レベル）の動画像から、グループ行動・インタラクションとして未来の姿勢の状態を推定する枠組みを提案する。モデルとしてはBi-directional LSTMを適用し、グローバル/ローカルな行動を評価できるようにする。ここでは、Bi-directional LSTMに与える情報として関節点と姿勢全体を入力として、内的に動線と行動（action）を予測するように学習される。誤差は行動推定や動線予測との推定の差分により計算する。

180718GroupInteractionPrediction

新規性・結果・なぜ通ったか？

従来の行動予測は単一人物に着目されがちであったが、本論文では姿勢としてグループ行動を予測するところに新規性がある。平均誤差（displacement）ではSocial-LSTM、単純なBidirectional-LSTMなどと比較しても提案手法（マルチタスクにより学習するBi-directional LSTM）が総合的にもっとも小さい値となっている（行動ごとにおいても大体において誤差が小さい）。

コメント・リンク集

グループ行動予測とは。。これは思いつきそうで思いつかなかった（やればよかった）。

論文

[#275]

2018.7.18 15:46:27

Wing Loss for Robust Facial Landmark Localisation With Convolutional Neural Networks

Zhen-Hua Feng, Josef Kittler, Muhammad Awais, Patrik Huber, Xiao-Jun Wu

CVPR 2018

概要

顔に関するランドマーク検出を効果的に行うための誤差（に対する重み付け）関数WingLossを提案。L2,L1とSmoothL1と比較して、より小領域や中領域に対してアテンションをつけるべきというところから発想されており、（-w,w）。の区間でL1誤差からLog関数に切り替えるべきと主張。もうひとつの主張はData Imbalance（顔中心を境に左右どちらかが欠ける問題？）に対して、データ拡張（bboxを並進させるといった解決策）を用意。さらに確実性を高めるため、two-stepによるランドマーク検出を行った。データとしてはAFLWや300Wデータセットを適用した。

180718WingLoss

新規性・結果・なぜ通ったか？

誤差関数が重要と言われる深層学習の中で、顔ランドマーク検出の問題についてはあまり効果的な策がなかったが、本論文で提案するWingLossは打開策になると主張（従来のL2誤差ではアウトライアに対して弱い）。

コメント・リンク集

良いと言われていた誤差関数、問題ごとに意外とよくないものもあるかも？一個一個調べて欲しい。

論文

[#276]

2018.7.18 15:11:43

Unifying Identification and Context Learning for Person Recognition

Qingqiu Huang, Yu Xiong, Dahua Lin

CVPR 2018

概要

人物自体（e.g. 個人同定、頭部推定）の推定のみでなく、人物に関連するコンテキスト（e.g. イベントと人物、人物間）についても学習できるようなモデルを提案する。本論文ではRegion Attention Networkを提案し、インスタンスごとに関連する視覚特徴を対応づける学習を行う個人の認識だけでなく、個人間やイベントとの関連付けを行う。右図は本論文で行おうとしていることが書かれており、従来型の顔認識（Face）のみでは個人認証に失敗する可能性が高いが、提案のVisualContext/SocialContextを用いることにより、個人認証を成功させる確率が高くなると主張。データセットとしてはPIPA（参考文献27）、本論文にて提案のCast In Movies（CIM）を用いた。

180718IdentificationContextLearning

新規性・結果・なぜ通ったか？

データセットとしてはPIPA（参考文献27）、本論文にて提案のCast In Movies（CIM）に対して処理を実行し、いずれのデータセットについてもState-of-the-artな精度を達成した。

コメント・リンク集

センスタイム44本のうちの一本である。

[#277]

2018.7.18 14:44:31

Sliced Wasserstein Distance for Learning Gaussian Mixture Models

Soheil Kolouri, Gustavo K. Rohde, Heiko Hoffmann

CVPR 2018

Kazushige Okayasu

概要

・GMMのパラメータを推定する手法の提案・ラドン変換でスライシングし低次元化・p-Wasserstein距離の最小化を用いてGMMのパラメータ推定

Sliced Wasserstein Distance for Learning Gaussian Mixture Models

新規性・結果・なぜ通ったか？

・Kullback-Leibler divergenceベースの手法より初期値に対してロバスト・GMMは画像認識では多く使われているため，応用先が多い

コメント・リンク集

[#278]

2018.7.20 22:18:26

Image Blind Denoising With Generative Adversarial Network Based Noise Modeling

Jingwen Chen, Jiawei Chen, Hongyang Chao, Ming Yang

CVPR 2018

Kazushige Okayasu

概要

・GAN-CNNベースのノイズ除去手法のGAN-CNN Based Blind Denoiser (GCBD)を提案・GANを用いてノイズ画像生成し，ノイズが無い画像とセットでCNNでノイズ除去

Image_Blind_Denoising_With_Generative_Adversarial_Network_Based_Noise_Modeling

新規性・結果・なぜ通ったか？

・未知ノイズの除去に対して初めてGANというアプローチを用いた．・ノイズ除去のGANのアプローチではノイズ無し画像とノイズ有りのペアが必要だが本手法ではノイズ有りの画像を生成するので，ペア画像を準備する必要ない

コメント・リンク集

[#279]

2018.7.20 20:02:47

Resource Aware Person Re-identification across Multiple Resolutions

Y. Wang et al.,

CVPR 2018

Kensho Hara

概要

Person Re-IDでは単純な色とかだけで簡単に認証できる人もいれば，かなり高次の情報を使わないと難しい人もいる．従来手法だとそのようなものを全部含めてCNNで高次特徴表現して使っているが，それは無駄もあるので対象に合わせたレベルの表現を単一のモデルで行う手法を提案．やっていることは単純で，ResNetの各ステージごとにGlobal Average Pooling & FCでベクトルを計算し，ステージごとにLossを計算できるようにする．これにより，途中のステージで十分近いサンプルが見つかるようなクエリは打ち切ることを可能にしている．

新規性・結果・なぜ通ったか？

利用可能な計算資源を考慮したPerson Re-IDを実現
普通のRe-IDの設定でも，複数のデータセットでSOTAを達成

コメント・リンク集

論文
手法は単純だし，実際イントロでStraightforwardな変更を追加，物体検出やセグメンテーションでは前からあるアイディア，とかネガティブ表現してる
計算資源考慮はUbicompとかだと前からよくあったけど，CV分野でも少しずつ増えてきている印象

[#280]

2018.7.24 09:51:43

Non-Linear Temporal Subspace Representations for Activity Recognition

A. Cherian et al.,

CVPR 2018

Kensho Hara

概要

人物行動認識などの多変数時系列データを扱うための新たなPooling手法を提案．従来はRank Poolingで時系列情報を保持したPoolingがされていたが，ユークリッド空間が仮定されていたり，線形のランク制約が使われていたりと問題があった．そこで，この研究ではKernelized Rank Poolingを提案し，無限次元のKernel Hilbert Spaceにマッピングした上でのPoolingを実現している． RGB動画や人物スケルトンデータを用いた行動認識タスクに置いてSOTAを達成．

新規性・結果・なぜ通ったか？

Rank Poolingをカーネル化して時系列データのPoolingにおいて非線形な扱いを実現
複数のデータセットでSOTAを達成

コメント・リンク集

論文
データセットのチョイスがちょっと謎で，UCF-101くらい結果出して欲しかった感がある．やったけどだめだったのか?と疑ってしまう．
HMDB-51でTwo-stream I3Dに勝ったとしているが，KineticsでのPretrainingをなしにした場合の結果で比較した時の話．

[#281]

2018.7.23 14:11:55

A Bi-directional Message Passing Model for Salient Object Detection

Lu Zhang, Ju Dai, Huchuan Lu, You He and Gang Wang

CVPR2018

204

概要

Salient object detection（SOD）のために，マルチレベルの特徴を統合するbi-directional message passing modelを提案．Multi-scale Context-aware Feature Extraction Module （MCFEM）を用いて豊富なコンテキストの情報を得て，双方向構造によりマルチレベル特徴の間でメッセージをやり取りするように設計される．その間にはゲート機能があり，メッセージの通過率を制御する．最終的にマルチレベル特徴を統合してsaliencyを予測し，それらを融合して出力を得る．

新規性・結果・なぜ通ったか？

SODの研究で未解決課題だったマルチレベルの特徴を統合する手法を提案した．ECSSDやPASCAL-Sなどの5つのデータセットを用いてF値とMAEを比較した結果，全てのデータセットにおいて提案手法が最も良い性能となった．

コメント・リンク集

複数スケールの特徴マップの統合は例に漏れずこの分野でも用いられている．（内容とはあまり関係ないが，この分野の論文は結果比較表を結果順に色をつける傾向がある？）

論文

[#282]

2018.7.23 16:25:50

Defocus Blur Detection via Multi-Stream Bottom-Top-Bottom Fully Convolutional Network

Wenda Zhao, Fan Zhao, Dong Wang and Huchuan Lu

CVPR2018

386

概要

Defocus blur detection （DBD）をEnd-to-endで行うBTBNetを提案．FCNを用いて，入力画像からピクセル単位のDBDマップを直接推論する．Defocusやblurの程度がスケールに影響されやすいことから，異なるスケールの入力画像に対応したマルチストリームBTBNetを用いることで性能を向上させた．また，ボトム・トップにエンコードされたマップをトップ・ボトムにエンコードされたローレベル特徴をマージする．評価用のデータセットの作成も行い，既存のデータセットとあわせて性能評価を行った．

DBD：画像内の焦点が合った領域と焦点が合っていない領域の分割．

新規性・結果・なぜ通ったか？

DBDをEnd-to-endで行う最初の試みである．データセットはShiによるデータセットのみであるため，自らでデータセットの収集を行った．提案データセットは低コントラストの焦点ボケや複雑背景を含むので，非常に挑戦的である．他の手法とF値とMAEを比較して性能が良いことを示した．

コメント・リンク集

データセットは近日公開とのこと．

論文

[#283]

2018.7.23 16:21:36

Salient Object Detection Driven by Fixation Prediction

Wenguan Wang, Jianbing Shen, Xingping Dong and Ali Borji

CVPR2018

201

概要

Fixation prediction（FP）を用いてSalient object detection（SOD）を行い，画像内の顕著な物体を識別しセグメンテーションするAttentive Saliency Network （ASNet）を提案．FPによって得られるFixation mapは，画像シーンの高レベルでの理解を行い，SODで細かい物体レベルでのセグメンテーションを行う．ASNetはconvLSTMを階層構造にしたもので，トップダウンに最適化される．

※FP：人間がひと目見て焦点を当てる場所を予測する．SOD：画像内の顕著な物体領域を強調（検出）する．

新規性・結果・なぜ通ったか？

Visual saliencyの主要なタスクのFPとSODについて，あまり探求されていない両者の関係について焦点をおいて新しいネットワークを開発した．学習用と評価用で別のデータセットを複数用いている．SOTAを含む他の手法と比較して同等またはそれ以上の性能（F値，MAE）を示した．正確なSODのために，Fixation mapが補助になっていることも示した．

コメント・リンク集

FPとSODについてあまり良く知らなかったが，本手法は人間が物体を見る時に近い，という点で理に適っており良いアイデアだと感じた．

[#284]

2018.7.23 16:13:57

Flow Guided Recurrent Neural Encoder for Video Salient Object Detection

Guanbin Li, Yuan Xie, Tianhao Wei, Keze Wang and Liang Lin

CVPR2018

403

概要

動画のsalient object detection（SOD）をend-to-endで学習するflow guided recurrent neural encoder（FGRNE）を提案．Optical flowとsequential feature evolution encodingの情報をLSTMで用いることで，フレームごとの特徴量の時間的コヒーレンスを強化する．これは，FCNベースのstatic saliency detectorを動画のSODに拡張する普遍的なフレームワークであると言える．

新規性・結果・なぜ通ったか？

SOTAのsaliency detectorを画像から動画に拡張した．DAVISとFBMSデータセットを用いて比較した結果，様々な手法と比較して最も良い性能を達成した．

コメント・リンク集

Saliency mapを比較すると，他の手法はうまく検出できないか細部が欠けているが，提案手法はGTに近い．

論文

[#285]

2018.7.23 16:09:36

Fast Video Object Segmentation by Reference-Guided Mask Propagation

Seoung Wug Oh, Joon-Young Lee, Kalyan Sunkavalli and Seon Joo Kim

CVPR2018

967

概要

半教師ありの高速なVideo object segmentation（VOS）手法の提案．VOSでよく使われる物体マスクの伝搬と物体検出の2つを用いたdeep siamese encoder-decoder networkを設計した．少ないデータでも良い精度が出るように，学習時は合成データで事前学習を行い実データで微調整する2段階学習を行い，オンライン学習や後処理は不要である．合成データは，1枚の画像内で物体マスクを用いて物体位置を変更した画像の生成と，背景と物体マスクのペアを用いて背景に物体を合成した画像の2種類を用いている．

新規性・結果・なぜ通ったか？

速度を上げながらもSOTAと同等の性能を達成した．DAVIS-2016/2017，SegTrack v2を用いて評価し，性能はSOTA同等だが速度はSOTAが0.3～13secに対して，本手法は0.13secで処理可能である．

コメント・リンク集

タスク的に，合成画像を用いて移動を再現して学習するのは賢いと思った．Adobe Researchのインターン結果とのこと．

論文

[#286]

2018.7.23 16:04:03

DoubleFusion: Real-time Capture of Human Performances with Inner Body Shapes from a Single Depth Sensor

Tao Yu, Zerong Zheng, Kaiwen Guo, Jianhui Zhao, Qionghai Dai, Hao Li, Gerard Pons-Moll, Yebin Liu

CVPR 2018

1321

Kazuki Inoue

概要

パラメトリックな身体形状表現とノードグラフによって表された外側のレイヤーを用いることで、単眼のデプスカメラのみから詳細なジオメトリの復元、非剛体のモーション、人間の内部のshapeの復元をリアルタイムで行う手法を提案。外側のレイヤーで使用されるノードグラフは、体付近の変形を表現するための事前に定義されたものと、体から離れたスカートなどを表すfree-form dynamically changing graphからなる。身体形状表現にはSMPLを使用する。身体形状と、外部のノードグラフの最適化を同時に行うことで、身体形状と外側のジオメトリの2つのトラッキングを可能にした。

Item3Image

新規性・結果・なぜ通ったか？

既存手法であるBodyFusionに比べてトラッキングの精度が高い。
既存手法では欠損やノイズが出るような形状でも、正確にリコンストラクションが可能。
BodyFusionのでも動画と見比べてみると、よりダイナミックな動きにも対応できているように見える。

コメント・リンク集

デモ動画のインパクトがすごい！単眼デプスカメラから身体形状とジオメトリの2つのに加えて、ダイナミックな動きをトラッキングできている。
論文
Project page with a video and software
参考 A skinned multi-person linear model (SMPL)
参考 BodyFusion: Real-time Capture of Human Motion and Surface Geometry Using a Single Depth Camera (BodyFusion)

[#287]

2018.7.22 08:09:15

CNN in MRF: Video Object Segmentation via Inference in A CNN-Based Higher-Order Spatio-Temporal MRF

Linchao Bao, Baoyuan Wu, Wei Liu

CVPR 2018

1249

Kazuki Inoue

概要

ターゲットオブジェクトの初期フレームのマスクが与えられた状態で、動画内のターゲットオブジェクトに対するセグメンテーションをMarkov Random Field (MRF)とCNNを組み合わせて行う手法を提案。CNNを用いた従来の手法では各フレームごとに対してのみしか処理できなかったことに対し、提案手法ではCNNによってエンコードされる空間特徴量をMRFに利用する。また、時間的な情報をもつオプティカルフローを用いることでさらなる精度を向上を達成。

Item3Image

新規性・結果・なぜ通ったか？

データセットごとにファインチューニングを行っていないにも関わらず、多くの設定でSoTA、あるいはSoTAと同等な精度を達成。
appearance-based one-shot segmentation CNNで初期化した場合には、DAVIS 2017 Challengeの優勝モデルよりも高い精度をもつ。
DAVIS 2017, DAVIS 2016, Youtube-Objects, SegTrack v2で実験。

コメント・リンク集

論文
Supplementary material (CVPR 2018 open access、該当箇所をクリックするとzipのダウンロードが行われます)
参考 One-shot video object segmentation (appearance-based one-shot segmentation CNN)

[#288]

2018.7.22 07:12:21

Shape from Shading through Shape Evolution

Dawei Yang and Jia Deng

CVPR 2018

127

Kazuki Inoue

概要

実画像のshape-from-shadingをDNNに学習させる際のデータとして、CGのシンプルなプリミティブを用いて作成されたshapeデータを用いる手法を提案。既存手法では全て人手で作成されたデータを用いていた。提案手法ではシンプルなプリミティブを組み合わせて複雑な形状データセットを適宜作成して、DNNの学習を行うことでデータ不足を解決。またバリデーションは実画像で行うため、実画像がもつ形状とかけ離れた形状を持つトレーニングデータは捨てられて行くため、合成画像に対する過学習を防ぐ。ネットワークはstacked hourglass networkを使用。

Item3Image

新規性・結果・なぜ通ったか？

シンプルなプリミティブを組み合わせてデータを増やすことで、トレーニングの際には実画像は一切使っていないにも関わらず、実画像に対するshape-from-shadingにおいてSoTAを達成。
ablation studyにより、提案手法の各モジュールの重要性を確認。
MIT-Berkeleyで評価を行った。

コメント・リンク集

プリミティブから複雑なshapeを構築するのはgraphicsでは相当古典的であり、温故知新を体感することができ非常に面白い！
プリミティブからデータを構築するごとにネットワークがファインチューニングされていくため、入力に対する最適な結果を見つけるためにはいくつかの重みで検証する必要がある？
論文

[#289]

2018.7.22 06:36:05

Lean Multiclass Crowdsourcing

Grant Van Horn, Steve Branson, Scott Loarie, Serge Belongie, Pietro Perona

CVPR 2018

1324

Kazuki Inoue

概要

実画像に対するマルチクラスアノテーションをクラウドソーシングで行う際に有効な方法を提案。1枚の画像に対して複数のワーカーがアノテーションを行うが、既存手法ではアノテーションに対する各ワーカーの重みは均等に決められていた。これに対し、提案手法ではユーザのスキルやそれまでのアノテーションの実績を考慮して重みを決定する。ワーカーのスキルによるアノテーションのラベルを条件付き分布として扱う。スキルとアノテーションラベルが独立なモデルに加えて、スキルとラベルが独立でないモデルを構築することで、よりワーカーのスキルを反映したクラウドソーシングを行うことが可能。また、スキルとラベルを線形SVMで学習することで、より効率的にデータセットの構築を可能にした。

Item3Image

新規性・結果・なぜ通ったか？

既存手法に比べて、各画像に対するアノテーションを5.4個減らすことができ、より確信度の高いアノテーションを実現したと主張。
クラウドソーシングの結果を線形SVMで学習したところ、既存のクラウドソーシングよりもエラー率を90%減らすことが可能であったと主張。
生物学上同じように分類されるクラスのような複雑なアノテーションに対しても低いエラー率を達成することができたことから、ワーカーの有する専門知識を活用できたことを確認。

コメント・リンク集

SVMの結果が良いことからトレーニングデータが高品質なことが伺えるため、良いクラウドソーシング手法だと言うことが確認できる。機械学習の結果が良い、ということもクラウドソーシング結果の一つの指標になるかもしれない？
クラウドソーシングの実験に対するGTのアノテーションは誰が行ったのだろうか。
論文

[#290]

2018.7.22 05:55:16

Analytic Expressions for Probabilistic Moments of PL-DNN with Gaussian Input

Adel Bibi, Modar Alfadly, Bernard Ghanem

CVPR 2018

487

Kazuki Inoue

概要

(Affine, ReLU, Affine)から構成されるpiecewise linear (PL) network(e.g. LeNet)のガウシアンノイズに対する平均値と分散を解析することで、DNNの性質を調査した論文。理想的には出力される値の確率分布を観測したいがそれは難しいため、平均値と分散に対する解析をおこなう。実験の内容は以下の通り。また以下の実験を通してadversarial attackの生成法についても提案している。

実験1：ランダムに重みが決定された総数のことなるfully connected net、fully convolutional netに対して分散が異なる3種類のガウシアンノイズから生成される7.5x10⁴サンプルの入力を計200回行った
実験2：LeNet+MNISTに対してガウシアンノイズから生成される7.5x10⁴サンプルの入力を計200回行った
実験3：AlexNet+ImageNetに対して、画像にVGG16’s universal noiseと、それに加えてガウシアンノイズを乗せた時のfooling rateの関係性を調査。
実験4：PL-Netの2つのAffineブロックにおけるlinearlizationパラメタの変化に対する、平均と分散の調査。

Item3Image

新規性・結果・なぜ通ったか？

実験1、２、４より、様々な設定においてもPL-Netにおける出力と、モンテカルロ法によって計算される平均値と分散に強い正の相関関係が確認でき、PL-Netによる出力は狭い領域にあることを確認することができた。
実験3より、どちらの設定でもfooling rateがほとんど同じであったため、PL-Netの出力の平均値と分散からfooling rateを推測可能と主張。
実験1〜4の知見を元に、adversarial attackの生成方法を提案。

コメント・リンク集

実験3の結果からなぜこのように考察をできるのかがよくわからなかった。
実験3では分散が 10^-4のガウシアンノイズが使用されているため、単にガウシアンノイズの影響が小さいという可能性があるのではないか？
論文
Supplementary material
参考 Universal adversarial perturbations (universal noise)

[#291]

2018.7.22 03:29:31

Fast and Accurate Online Video Object Segmentation via Tracking Parts

Jingchun Cheng, Yi-Hsuan Tsai, Wei-Chih Hung, Shengjin Wang, Ming-Hsuan Yang

CVPR 2018

423

Kazuki Inoue

概要

動画内のターゲットオブジェクトに対するセグメンテーションをオンラインかつ正確に行うために、ターゲットの各パーツに対するトラッキングとセグメンテーションを行う手法を提案。既存手法ではターゲット全体に対するセグメンテーションを学習する必要があったため、動画ごとにネットワークのファインチューニングが必要など、オンラインでセグメンテーションを行うことができたなかった。提案手法は以下の3つの要素から成る。

part-based tracking：オクルージョンや形状の変化に対応するため、初期フレームから代表パーツが選択されROIとしてトラッキングを行う。
region-of-interest segmentation：各ROI内の各パーツに対してCNNベースのROI SegNetをトレーニングを行う。
similarity-based aggregation：より精度を高めるために、初期フレームのマスクとトラッキングされたパーツの類似度を測る。

Item3Image

新規性・結果・なぜ通ったか？

セグメンテーション結果を既存手法と比較した結果、精度を保ちつつ13倍程度速くなっている。(0.6FPS)
トラッキングの精度においても、IoU-recall curvesを比較尺度として提案手法がもっとも良い結果となっている。
Ours-part：提案手法に加えてSSDを用いてターゲットのバウンディングボックスを決定。
Ours-ref：Ours-partに加えて、dense CRFによって物体境界の精度を向上。

コメント・リンク集

similarity-based aggregationは本当に有効なのかどうかが気になる。変形が激しいパーツもある上、グレースケールで類似度が測れるかが疑問。
論文
Supplementary material
GitHub
参考 SSD: Single Shot MultiBox Detector (SSD)
参考 Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials (dense CRF)

[#292]

2018.7.22 00:56:58

Augmented Skeleton Space Transfer for Depth-based Hand Pose Estimation

Seungryul Baek, Kwang In Kim, Tae-Kyun Kim

CVPR 2018

128

Kazuki Inoue

概要

デプスがアノテーションされた人間の手のポーズのデータオーギュメンテーションを行うために手の骨構造とCycle GANを用いた手法を提案。オーギュメンテーションを行う際に、デプスを変更してしまうと実際にはありえない手の形状になってしまう。そのため、提案手法では手の骨構造を変更することで、データオーギュメンテーションを行う。提案手法はデプスから骨構造を推定するhand pose estimator (HPE)、骨構造からデプスマップを生成するhand pose generator (HPG)、実画像と合成画像を識別するhand pose discriminator(HPD)からなる。まず既存のデータセットを用いてHPEを学習し、次にHPE、HPG、HPDでデプスマップ、骨構造に対してcycle consistencyが保たれるようにGANによる学習を行う。実験では骨構造の推定精度を既存研究と比較する。

Item3Image

新規性・結果・なぜ通ったか？

hand pose estimationのベンチマークであるICVL、MSRA、NYU、Big Hand 2.2M datasetsで実験。全てデータセットにおいてSoTAを達成。
骨構造を入力とすることでデプスマップを生成することができるため、既存データセットに対するデータ数の増加を行うことが可能。
トレーニングデータとは大きくかけ離れたデータに対する精度はまだ高くないことを主張している。

コメント・リンク集

Cycle GANをうまく使った論文。ハンドポーズからデプスは恐らく学習が難しいが、デプスからハンドポーズをを推定するHPEの学習が可能なため、Cycle GANの学習もうまくいっていると考えられる。
論文

[#293]

2018.7.21 23:09:27

Features for Multi-Target Multi-Camera Tracking and Re-Identification

Ergys Ristani and Carlo Tomasi

CVPR 2018

3817

Kazuki Inoue

概要

Person Re-Identification (Re-ID)に対して有効なtriplet lossによってトレーニングしたCNNによってRe-IDとMulti-Target Multi-Camera Tracking (MTMCT)を行う手法を提案。Re-IDとはカメラに写っている人物をクエリの中にある人物と対応させること、MTMCTとは複数のカメラで撮影された映像を用いて同時刻の複数人の位置を把握することである。CNNをトレーニングする際のtripletの重みをアンカーとの類似度におけるsoftmax/minとする。各バッチにはアンカー画像と、アンカー画像にもっとも類似度が高いhard-negatives、ランダムにサンプルされた画像によって構築する。また、よいトラッキングとよいre-IDのスコアの相関関係を算出することで、両タスクの関係性を調査。

Item3Image

新規性・結果・なぜ通ったか？

MTMCTにおいて多くの設定でSoTA。（いくつかの設定でMTMC_ReIDに劣っている）
Re-IDのmAP、rank-1 accuracyにおいてSoTAを達成。
MTMCTのスコアとRe-IDのスコアに相関関係があることを示し、片方の精度をあげることでもう一方の精度も挙げることを主張。

コメント・リンク集

MCMCTに関する学習を行っていないのがミソ。トラッキングの際にはRe-IDを行うために学習したCNNの特徴量を用いる。
MCMCTのベンチマークであるDukeMCMCTを配布しているチームによる研究。
論文
[Project page] DukeMTMC Project
参考 Multi-Target, Multi-Camera Tracking by Hierarchical Clustering: Recent Progress on DukeMTMC Project (MTMC_ReID)

[#294]

2018.7.21 20:11:47

Multi-Task Adversarial Network for Disentangled Feature Learning

Yang Liu, Zhaowen Wang, Hailin Jin, Ian Wassell

CVPR 2018

1589

Kazuki Inoue

概要

ターゲットとなるファクターを認識するmulti-task learningを行う上で、ターゲットとなるファクター(content)を識別可能かつ、それ以外のファクター（style）を識別不可能な特徴量を学習するmulti-task adversarial network (MTAN)を提案。従来のmulti-task learningではファクターごとに共通の特徴量表現を学習していた。提案手法ではencoderから得られた特徴量に対してターゲットとなるファクターの識別が可能なように識別器を学習させる一方で、それ以外のファクターについてはdiscriminatorとadversarial gameを行うことで、識別が不可能なように学習を行う。またターゲットとなるファクターをよく学習するように、ターゲット以外のファクターをアトリビュートとした画像生成を行っている。

Item3Image

新規性・結果・なぜ通ったか？

fontとfaceのデータセットで実験。font recognition, 及びface recognitionにおいて既存手法よりも高い精度を達成。
スタイルの識別に関するロス関数としてクロスエントロピーではなくWGANを参考にEarth Mover’s Distanceを導入したことで、最適化の安定化を実現。
ablation studyを行った結果、提案したモデルがもっとも高い精度を達成したことを確認。

コメント・リンク集

スタイルとコンテンツを同時に学習したことをマルチタスクと読んでいる。ただしアプリケーションとしてはコンテンツの認識と、画像生成。
adversarial gameによる拡張版triplet-lossのような学習方法。
論文
Supplementary material

[#295]

2018.7.21 18:48:46

Group Consistent Similarity Learning via Deep CRF for Person Re-Identification

Dapeng Chen, Dan Xu, Hongsheng Li, Nicu Sebe, Xiaogang Wang

CVPR 2018

1057

Kazuki Inoue

概要

person re-identification(RE-ID)を行うために、グラフモデルであるCRFによって構築されたデータセット内の画像全ての類似度を用いる提案。RE-IDとは異なる映像から同一人物を検出することである。既存手法では2組~4組の画像の類似度を学習する手法をとっていたが、データセット全ての関係性を学習する。DNNによって得られた画像特徴量を用いて画像ペア類似度を学習し、このペア類似度とCRFによってグループ類似度を計算する。

Item3Image

新規性・結果・なぜ通ったか？

データセットとしてMarket-1501、DukeMTMC-reID、CUHK03を使用。評価指標はrecognitionに対するmAP、top1-accuracy、top5-accuracy。
全ての状況においてSoTAを達成。mAPは8.5%、top1-accuracyは4.5％ほど向上している。
ablation studyにより、提案手法の有効性を確認。
t-SNEによる可視化により、提案手法を用いた方が特徴量空間で人物をよく分離できていることを確認。

コメント・リンク集

Market-1501やDukeMTMC-reIDでトレーニングしたモデルをCUHK03でテストした際にもSoTAとなっており、データセットに強く依存しそうなグループ類似度を学習にも関わらずドメインの影響をあまりいけていないのがすごい！それともそれを上回るほどグループ類似度が強力？
論文

[#296]

2018.7.19 18:22:11

Structured Set Matching Networks for One-Shot Part Labeling

Jonghyun Choi, Jayant Krishnamurthy, Aniruddha Kembhavi, Ali Farhadi

CVPR 2018

2732

Kazuki Inoue

概要

実画像と線画のオブジェクトに対するパーツ位置推定をCNNによるone-shot学習で行うStructured Set Matching Network (SSMN)を提案。ソース画像とターゲット画像はどちらもパーツのラベルとカテゴリクラスを持つが、ソース画像はラベルとともにパーツ名を持つが、ターゲット画像はパーツ名を持たない。またソース画像は各カテゴリに対して1枚のみ。SSMNではラベルのマッチングを画像の変形で行うことができると仮定し、ラベル位置の局所特徴量と、全ラベルの相対位置の一貫性を考慮することでパーツラベリングを行う。データセットの構築も行っている。また線画を入力とする際には、distance transformationが有効であったと主張。

Item3Image

新規性・結果・なぜ通ったか？

実画像間、線画間、実画像をソースとした線画へのパーツラベリングの3つの実験を行い、全てにおいてSoTA。
distance transformationやラベルの相対位置の考慮の有効性を主張
3種類のデータセットを構築
- Diagram Part Labeling (DiPART)：4921枚、200カテゴリ、10種類のパーツ名とその位置のアノテーションを持つ線画データセット
- Pascal Part Matching (PPM)：92780枚、8カテゴリ、10種類のパーツ名とその位置のアノテーションを持つ実画像データセット
- Cross-DiPART-PPM：22669枚、5カテゴリ、4つのパーツ名とその位置を持つ実画像と線画のデータセットを構築

コメント・リンク集

one-shotで行った理由としてデータ不足をあげているが、正確なアノテーション画像が一枚であれば、ラベリングの任意性を避ける意味では、むしろone-shotの方が都合がいい？
論文
Supplementary Material
Project page

[#297]

2018.7.18 05:32:14

Decoupled Networks

Weiyang Liu, Zhen Liu, Zhiding Yu, Bo Dai, Rongmei Lin, Yisen Wang, James M. Rehg, Le Song

CVPR 2018

4133

Kazuki Inoue

概要

CNNのコンボリューションにおける内積計算について、より識別精度を高くするためのノルム関数、角度関数を提案。CNNは画像パッチとconvolutional layerとの内積を行い、右図のように、角度方向に異なるクラスを、動径方向に同一クラスを並べる。これに着想を得て、CNNの内積計算を行う際にL2ノルムやcosineの代わりとなるノルム関数、角度関数を提案。ノルムについては大きさが有界な3つの関数、非有界な3つの関数、角度関数については3つの関数を提案。ノルム関数が有界な場合にはadversarial attackに頑健になり、ノルム関数が非有界な場合には様々な種類のインスタンスに対応することが可能となる。モデルに不変であるため、様々なCNNに適用することが可能。

Item3Image

新規性・結果・なぜ通ったか？

CIFAR-10、CIFAR-100に対する物体認識において、提案手法+ResNet32がResNet1001よりも高い精度を達成。
通常のCNNよりも速く収束することを確認。
White/Black -box adversarial attackのどちらに対しても通常のCNNよりも高い精度を達成。

コメント・リンク集

識別精度を上げるという意味では、角度方向にクラスを並べると原点付近で曖昧さが残ってしまうので、異なるクラスが大きく離れるように学習したほうが精度が上がるように思えるがどうなのだろう？
論文
Supplementary Material

[#298]

2018.7.18 01:56:15

Partial Transfer Learning with Selective Adversarial Networks

Zhangjie Cao, Mingsheng Long, Jianmin Wang, Michael I. Jordan

CVPR 2018

1363

Kazuki Inoue

概要

大規模なデータセット(ソースドメイン、SD)で学習したclassifierを、そのデータセットの一部のクラスをもつラベルなしデータセット(ターゲットドメイン、TD)へのdomain adaptationをGANで行うPartial Transfer Learningを提案。既存手法ではデータセットのもつラベル数に関わらずdomain adaptationをおこなっていたため、adaptation後のclassifierが前のclassifierよりも悪い精度をもつnegative transferが起きてしまっていた。提案手法では、右図のように、generatorから得られた特徴量をclassifierは学習するため、SDのインスタンスで識別率が悪いもののクラスはTDに所属していない可能性が高い。そのため、識別率を重みとすることでSDから学ぶべきインスタンスを学習することで、TDへのnegative transferを防ぐ。

Item3Image

新規性・結果・なぜ通ったか？

Office-31, Caltech-Office, ImageNet-Caltechで検証。ADDAなどの既存手法と比較
画像識別において、全てのデータセットでSoTAを達成。
ターゲットのクラス数を変化させた際の精度を比較しており、RevGradではクラス数が減るとともに精度も落ちているが提案手法では比較的精度が保たれている。

コメント・リンク集

Partial transfer learningを初めて提案した論文。今までの手法や問題提起とは異なり、問題設定自体が面白い。
論文
GitHub
参考 Adversarial Discriminative Domain Adaptation (ADDA)
参考 Domain-Adversarial Training of Neural Networks (RevGrad)

[#299]

2018.7.18 00:41:20

Learning Transferable Architectures for Scalable Image Recognition

Barret Zoph, Vijay Vasudevan, Jonathon Shlens, Quoc V. Le

CVPR 2018

3298

Kazuki Inoue

概要

各データセットに対して最も有効なCNNを構築する手法NASNetを提案。大規模なデータセットを扱う際にはそのまま学習するのではなく、小規模なデータセットで学習したアーキテクチャを用いてスクラッチで学習する。論文では小規模なデータセットとしてCIFAR-10、大規模なデータセットとしてImageNetを使用している。NASと呼ばれるアーキテクチャ探索手法を用いてCNNの各ブロックを構築しており、CNN全体を構築するよりも7倍速く構築することができると主張。

Item3Image

新規性・結果・なぜ通ったか？

既存の手法とは異なり、小規模なデータセットを学習することで得られたアーキテクチャをそのまま大規模なデータセットに適用することができること。
画像識別においてCIFAR-10ではエラー率2.4%を達成し、SoTA。ImageNetではパブリッシュされた論文におけるSoTAである82.7% top-1 and 96.2% top-5となり、人間が構築したモデルよりも高い精度を達成した。
NASNetから得られる特徴量を物体検出に用いた結果、COCOで43.1% mAPを達成し、Faster-RCNNよりも4.0%高い精度となった。

コメント・リンク集

500GPUで4日間かかるらしい。(それでもアーキテクチャ全体を探索するよりは7倍速い)
NASは主著が同じであるからか、NASについて詳しい説明がなかったのは元論文を読んでね、ということ？
論文
ソース論文：NEURAL ARCHITECTURE SEARCH WITH REINFORCEMENT LEARNING

[#300]

2018.7.17 22:57:47

Art of singular vectors and universal adversarial perturbations

Valentin Khrulkov and Ivan Oseledets

CVPR 2018

3771

Kazuki Inoue

概要

ソース画像に不変なadversarial pertubationをCNNの特徴量マップを近似して得られる特異値によって生成する。adversarial petubationとはDNNが画像識別などにおいて誤認識を起こさせるように画像に加えられるパターンのこと。CNNから得られる特徴量マップはヤコビ行列によく近似できることが知られているため、特徴量マップをヤコビ行列に近似し、(p, q)特異値によってpetubationを生成する。行列Aの(p, q)特異値は以下の最適化問題を解くことで得られる。

||Av||_q → max, ||v||_p = 1

Item3Image

新規性・結果・なぜ通ったか？

ILSVRC 2012 validation datasetの64x64の1000クラス画像50000枚を用いた結果を用いており、fooling rateはおよそ40%となり、比較的小さなデータセットから良好な結果が得られたと主張。
特異値とfooling rateの関係性も調査しており、qが大きくなるほどfooling rateも高くなることを主張。
pertubationの生成と、画像識別のfooling rateの調査ではどちらもVGG16、VGG19、ResNet50を使用している。

コメント・リンク集

今回の実験ではトレーニングでもテストでも同じデータセットを使用しているが、生成されるpertubationは使用するデータセットのドメインには依存しないのだろうか？この手法によって、どのデータセット、どのネットワークに対しても同等なfooing rateを保つpertubationは生成できる？
論文
Supplementary material

[#301]

2018.7.17 18:21:01

HSA-RNN: Hierarchical Structure-Adaptive RNN for Video Summarization

Bin Zhao, Xuelong Li, Xiaoqiang Lu

CVPR 2018

2266

Kazuki Inoue

概要

映像要約を行う際に、ショットセグメンテーションを映像に対して事前に行うHierarchical Structure-Adaptive RNN(HSA-RNN)を提案。既存手法では一定間隔で切り取られたフレーム群をショットとしていたが、提案手法ではショットセグメンテーションを行うことで要約の精度向上を主張。ショット検出はsliding bidirectional LSTMを、映像要約ではショット特徴量とBidirectional LSTMを用いる。映像要約だけでなくショットセグメンテーションでもSoTAを獲得。

Item3Image

新規性・結果・なぜ通ったか？

ショットセグメンテーションの精度をBoundary-aware RNNなどの既存手法と比較し、提案手法の精度がもっとも高いことを主張。
ショットセグメンテーションの精度をHierarchical RNNなどの既存手法と比較し、SoTAを獲得。
SumMe, TVsum, CoSum and VTWの4つのデータセットで検証。

コメント・リンク集

動画に対する意味的なセグメンテーションは行動認識や、物体検出でも効果が期待できそう。
動画に対する意味的なセグメンテーションはaction recognitionや、object detectionでも効果が期待できそう。
論文

[#302]

2018.7.17 16:35:14

Interpret Neural Networks by Identifying Critical Data Routing Paths

Y. Wang, H. Su, B. Zhang, X. Hu

Yue Qiu

概要

新たな視点で学習済みネットワークを解釈(Interpret) する手法の提案．ネットワークの予測プロセスのcritical data routing paths(CDRPs)をidentify及び統計分析することをベースとする．
学習済みネットワークのテスト画像ごとのCDRPsを得られるためのDGR(Distillation Guided Routing)を提案した．Layersの出力チャネルにscalar control gateを付け， gateによりそのチャネルがcritical nodeかどうかを決める.また，知識蒸留手法からcritical nodeをcontrol gatesの値を最適化する．学習済みのcontrol gatesにより全部のlayersのcritical nodeでDGRを得られる．
大量な画像からDGRを生成し，クラスタリングによりクラスの分類もできる．著者達がadversarial examplesと元のクラスの高層のDGR clusteringの分布が異なることを発見し， adversarial examplesを検出できる手法を提案した．

InterpretNN-IdentifyCDRP

新規性・結果・なぜ通ったか？

従来のネットワークinterpretに関する研究が各々のフィルタなどを対象とすることが多い．この文章で新たなネットワークinterpretの視点を提案した．
提案のDGRをクラスでクラスタリングし，それを用いて新たな画像に対し認識を行う場合，元のネットワークより良い精度を得られることを発見した．また，DGRをクラスでクラスタリングによりadversarial examplesをリアルデータを区別できる

コメント・リンク集

各々のフィルタの活性化マップによりフィルタが学習できているセマンティックコンセプトに関する研究が多い．この文章で識別する際のcriticalルートからinterpretを行う視点が新しい．今後同じような視点でのinterpretに関する研究が多くなるように思う．
論文

[#303]

2018.7.20 15:49:44

Learning Semantic Concepts and Order for Image and Sentence Matching

Yan Huang, Qi Wu, Liang Wang

CVPR 2018

Yue Qiu

概要

画像キャプション生成に用いられるSemantic-enhanced画像―テキストマッチングモデルを提案した．従来の手法より画像からセマンティックコンセプト・コンセプトの順序の学習により良い性能を図る．
画像キャプション生成において，画像からいかに有用な情報を抽出することはまだ改善の余地がある．従来のキャプション手法では画像からグローバル特徴を抽出するフレームワークを用いる手法が多い．しかし，画像からリージョンベースなセマンティック情報の抽出が良い性能を得る上に重要だと著者達が指摘した．
提案の手法のプロセスは：①multi-region, multi-label CNNを利用した画像からセマンティックコンセプト(オブジェクト・属性・行動)を抽出する②リージョンベース情報・グローバル情報からcontext gated sentence生成スキームを利用しsemanticのorderを求める③LSTMによりsentenceを生成する．

LearningSemanticConceptsOrder-ImageSentenceMatching

新規性・結果・なぜ通ったか？

従来のlanguage-visionタスクに画像認識の側グローバル情報が広く用いられている．著者達がregionベースなsemantic concepts, concepts orderを画像抽出情報としてvisionを表す．
Flickr30k,MSCOCOデータセットにおいて，SoTAなimage annotation and retrieval精度を得られた．

コメント・リンク集

自然言語の面の理解が画像の理解より未だに深いような気がして，Language-and-visionの分解でいかに画像から有用な情報を抽出することが重要と感じている．セマンティックコンセプトだけだはなくて，画像側のもっと深い理解がこの分野に需要されているように思う．
論文

[#304]

2018.7.20 15:44:37

Where and Why Are They Looking? Jointly Inferring Human Attention and Intentions in Complex Tasks

Ping Wei, Yang Liu, Tianmin Shu, Nanning Zheng, Song-Chun Zhu

CVPR 2018

Yue Qiu

概要

RGB-Dビデオからタスク(人が何をしようとしているのか)，attention(人がどこを見ているのか),intention(どうしてそこを見るのか)を推定する新たなタスク，データセット及び手法の提案．
従来のビデオから行動推定タスクに，更にintention推定を提案した．著者達がintentionをlocate,direct,guide,checkの4種類に分け，一つのintentionをhumanpose-humanAttention-objectsから構成される．Intentionの予測はビデオフレームごとに一つのintention categoryを与える．
新規な提案タスクに対応する新たなグラフHAOを提案した．HAOがタスク・intention・objectsをunifiedな階層的なフレームワークにより表示できる．タスクがintentions序列から構成される．Beam searchアルゴリズムを用いて，グラフHAOからattention,intention,taskをジョイントで予測できる．

WhatAndWhyAreTheyLooking-AttentionIntention

新規性・結果・なぜ通ったか？

従来のビデオから行動認識と比べて，新たに人の意図の定義し，ビデオから意図の推定も提案した．
新規なRGB-DデータセットTIF(14tasks, 70intention, 28objects, 809videos)を提案した．
定性的結果により，提案手法はintention推定に対し良い精度を得られる．また，attention,task推定においてそれぞれTIFデータセットでSoTAな精度を得られた．

コメント・リンク集

行動をグラフ構造によりで更に細かく分解することによって，ほかのタスクに用いることがもっとflexibleになる．
論文

[#305]

2018.7.20 15:39:21

Non-blind Deblurring: Handling Kernel Uncertainty with CNNs

S. Vasu et al.,

CVPR 2018

Kensho Hara

概要

ブラーのカーネルが既知の状態でモーションブラーを除去するNon-blind Deblurring (NBD) における新手法を提案．従来のブラー除去手法では，得られているブラーカーネルがノイジーな場合，画像のPriorに対する重みを低くするとアーティファクトが多く出るし，逆に高くすると細かい情報が欠損してしまうという性質がある．しかしこれらは相補的に情報を持っていて，これらを組み合わせることできれいに画像を復元できるというのがアイディア．提案手法では，まず従来手法で重みを変化させていくつもの復元画像を生成し，これらの複数画像をCNNに入力して組み合わせることで最終的な復元画像を生成する．これにより従来よりも良い復元画像を得ることに成功した．

新規性・結果・なぜ通ったか？

ブラーカーネルがノイジーな場合でも高品質なモーションブラーの除去を実現
ノイジーなカーネルを人工的に生成することで大量の学習データを得ることに成功

コメント・リンク集

論文
最近の流れ的にEnd-to-Endでやっちゃおうとしていないのは少し意外
理論的にカッチリわかってるところはボトムアップにしないとかはあって良いとは思うけども

[#306]

2018.7.20 14:52:30

Distributable Consistent Multi-Object Matching

N. Hu et al.,

CVPR 2018

Kensho Hara

概要

多物体のマッチングを行うための新たなフレームワークを提案．このようなマッチングにおいては循環制約というものが重要になるが，それを満たす対応を求めると物体数に対してscalableなアルゴリズムとするのが難しい．提案手法のポイントは物体の集合全体で制約を満たすようにするんじゃなくて，重なりのある部分集合に分けてそれぞれで制約を満たすように扱うというもの．部分集合に対して制約が満たされているときにグローバルにも制約が満たされる条件を定義して，それに沿うように部分集合を選ぶようにしている? SOTAに匹敵する精度でありながら高速なマッチングを実現．

新規性・結果・なぜ通ったか？

循環制約を満たす多物体のマッチングにおける新しいアプローチを提案
SOTAレベルのマッチング精度でありながら非常に高速な動作を実現

コメント・リンク集

論文
図は，一番下が提案手法で，黄色が正しい，青色が間違ったマッチング

[#307]

2018.7.20 13:37:54

Focal Visual-Text Attention for Visual Question Answering

Junwei Liang, Lu Jiang, Liangliang Cao, Alexander Hauptmann

CVPR 2018

Yue Qiu

概要

Visual-Text sequencesデータから質問に対して回答するVQAの手法FVTAを提案した．
携帯の写真集のような，大量な画像―付加情報（GPS,title,caption，time）の情報から質問文に対して応答するタスクに対し，我々人間がまず質問文を答えるためのhintがある画像をlocateして回答する仕組みである．そこで，著者達が質問文に応じで，動的にどの画像・時間帯を注目すべきかを決める階層的な手法FVTAを提案した. FVTAはまず質問文に基づき相関情報が含めたvisual-text sequencesをlocateし，そしてこういったsequences,questionの抽出情報により答える．
FVTAのプロセスは：①pre-trained CNNモデルにより画像情報抽出，pre-trained word2Vecによりwordsをembedding②Bi-directional LSTMによりwords・質問文の序列情報をエンコーディング③質問文とコンテキスト（画像・テキスト）のhidden statesを用いてFVTA tensorを計算④FVTA attentionにより質問文とコンテキストをそれぞれsingle vectorsに変換し，最終的な答えを生成する．答えはマルチクラス分類問題として解く．

FVTA-VQA

新規性・結果・なぜ通ったか？

MemexQA,MovieQAの2つデータセットにおいて，SoTAなパフォーマンスを得られた．
FVTAが質問文に対して答えるだけではなく，visual-text-question attention kernelにより，答えの根拠となる画像―テキストもpointできる．

コメント・リンク集

従来の画像・質問文から回答するVQAより実用性が高い．
論文
コード

[#308]

2018.7.19 20:40:41

Texture Mapping for 3D Reconstruction with RGB-D Sensor

Yanping Fu, Qingan Yan, Long Yang, Jie Liao, Chunxia Xiao

CVPR 2018

Yue Qiu

概要

RGB-Dセンサーから収集した画像でリコンストラクションした非剛体の3Dモデルのテクスチャーマッピング手法を提案した．提案手法の入力がRGB-Dビデオ序列，出力はhigh qualityテクスチャー付きのリコンストラクションした3Dモデル．
幾何errors，デプスセンサーの精度などの原因でRGB-Dセンサーにより得られる3Dモデルのテクスチャーの精度が良くないことがある．この問題を解決するために，著者達がglobal-to-localな最適化手法を提案した(①global最適化でテクスチャーの姿勢を修正，②local最適化でtexture boundariesをリファイン)．
提案手法の流れは：①preprocessing:RGB-Dセンサーにより得られたDフレームからmeshモデルを作成し，RGBフレームからtexture candidates抽出する．②従来手法より，meshのブロックに対し，最適なtextureを選択する．③Global optimization:ブロック間のカラー・幾何一致性に基づきtextureの姿勢を最適化．④Local optimization:隣接するブロック間のテクスチャー連結部のseamless性によりテクスチャーのboundariesを最適化．

TextureMapping-3DReconstruction

新規性・結果・なぜ通ったか？

Kinect V1センサーによりtoy,book,hat,keyboardなどの物体で検証した結果，従来の2種類の手法より良い定性的テクスチャーマッピング結果を得られた．また，処理時間が1桁速い．
従来のテクスチャーマッピングのblurring artifacts,面のバウンドリーのseam inconsistencyを改善できた．

コメント・リンク集

提案手法は複雑なPre-processingが必要で，ほかの分野の人が使いにくい気がする．
RGB-Dセンサーの3Dモデルのテクスチャーマッピングを高精度でできるEnd-to-Endな手法が期待している．
論文

[#309]

2018.7.19 20:35:29

Interpretable Convolutional Neural Networks

Quanshi Zhang, Yingnian Wu, Song-Chun Zhu

CVPR 2018

Yue Qiu

概要

伝統的なCNNに変更を加え，Interpretable性を高める手法の提案．提案したInterpretable CNNの高層Conv層のfiltersがセマンティックコンセプトとのIoUがより大きい．
学習済みモデルの高層convのfilterがどのようなセマンティック情報を学習されていることを可視化・統計分析によりネットワークに対しある程度のInterpretable性を評価できる．提案手法の目的は高層convのfiltersをできるだけ同じセマンティックコンセプトにしか活性化されないように学習させる．
具体的には，従来のConv-layerのfiltersの出力feature mapに新たなロスを導入した．提案ロスはinter categoryのentropyを抑え，一つのフィルタが2つ以上のcategoryに活性化されないように学習ができる．また，neural activationsの空間分散のentropyも抑え，一つのフィルタが1つのcategoryに活性化されることように学習させる．

interpretable-cnn

新規性・結果・なぜ通ったか？

Pascal VOC part datasetを用いた実験によりInterpretable CNNが従来のCNNと比べ，クラス分類問題において認識精度がほぼ落ちずに高層conv層のfilterのInterpretable性が高い(Alexnet,VGGなどに対して実験)．
提案の手法をあらゆるネットワークに適応しやすい．追加する監督信号を用いずに，普通のCNNのInterpretable性を高められる．

コメント・リンク集

Interpretable CNNをVision-and-Languageに応用してみたい
Interpretable CNN構造が高層convのfilterに対して同じセマンティックコンセプトにしか活性化されないように学習するので，このレベルでは“Net2Vec”と逆になっている．
論文
コード

[#310]

2018.7.19 20:29:10

End-to-end Recovery of Human Shape and Pose

Angjoo Kanazawa, Michael J. Black, David W. Jacobs, Jitendra Malik

CVPR 2018

890

OKIMOTO Yusuke

概要

人物を含む画像から人物の3Dメッシュをend-to-endで推定するframeworkの提案．画像中の人物のキーポイントがアノテーションされたデータと，人物の3Dモデルのパラメータのデータを用い，推定した3Dモデルを画像に投影した際におけるキーポイントの誤差と，3Dモデルが画像から推定したものか，人物の3Dモデルのデータセットから持ってきたものかを識別するDiscriminatorのAdversarial lossの２つを損失関数として学習を行う．Adversaial Lossは，推定した3Dモデルが人物の3Dモデルと自然かどうかの弱教師として働く．

overview_image

新規性・結果・なぜ通ったか？

人物のメッシュ推定における一般的な評価データセットは存在しないため，他手法との比較は主に人体の関節推定とpart segmentationで行う．この２つのタスクにおいては既存手法とcompetitiveな性能．
人物の3Dモデルの自然さについての情報を与える，推定した3Dモデルか既存の3Dモデルか識別するdiscriminatorの導入．これにより，直接の教師データが大規模には存在していない，画像からの人物の3Dモデルというタスクに置いて，2Dの人物のキーポイントのデータと，人物の3Dモデルのデータという，それぞれ独立なデータセットを用い，end-to-end推定を行うネットワークを学習させることを可能にした

コメント・リンク集

上手にDiscriminatorを設計することで，互いにはunpairな複数の大規模データセットを用いるというアイデイアは，他のタスクでも有用だと思われる．
メッシュ推定というタスクという意味でNeural 3D Renderer(H. Kato et al, CVPR2018)とも関係

[#311]

2018.7.19 17:37:21

Intrinsic Image Transformation via Scale Space Decomposition

L. Cheng et al.,

CVPR 2018

Kensho Hara

概要

Intrinsic Image Decompositionにおける新しい手法を提案．ラプラシアンピラミッドを導入したネットワーク構造により，マルチスケールに分解した処理を実現している．評価実験により，SOTAよりも高い性能を達成したことを確認．

新規性・結果・なぜ通ったか？

ラプラシアンピラミッドを導入したネットワーク構造を提案
SOTAよりも高い性能を達成

コメント・リンク集

論文
具体的な実装が全然書いてなくて詳細が理解できない気がするんだけどこれでいいの?
Intrinsic Image Decompositionにおいてラプラシアンピラミッドの導入が重要という話があるように見えなくて，なぜこれがいいのかよくわからない

[#312]

2018.7.19 15:09:08

Learning Pixel-level Semantic Affinity with Image-level Supervision for Weakly Supervised Semantic Segmentation

Jiwoon Ahn et al.

CVPR 2018

Yoshihiro Fukuhara

概要

画像レベルのラベルから Semantic Segmentation の学習で使用する画素レベルのラベルを生成する研究. 隣接する領域の意味的な親和性を推定する, AffinityNet を提案. 入力画像の CAM のアクティベーションの情報を AffinityNet で推定された意味的親和性に基づいて伝搬することで, 完全なマスクを生成する. 提案手法によって作成されたラベルによって学習した Semantic Segmentation 手法は PASCAL VOC 2012 において弱教師の手法の中でSOTAを達成した.

fukuhara-Learning_Pixel-level_Semantic_Affinity_with_Image-level_Supervision_for_Weakly_Supervised_Semantic_Segmentation.png

新規性・結果・なぜ通ったか？

画像クラスのラベルから Semantic Segmentation の学習で用いる画素レベルのラベルを生成する手法を提案
隣接する領域の画素レベルでの意味的親和性を推定する AffinityNet を提案
CAMのアクティベーションの情報（弱教師）を AffinityNet によって推定された画素間の意味的親和性に基づいて伝搬し, 完全なマスクを生成する.
AffinityNet の学習にはCAMの中で信頼度の高い領域を使用
提案手法によって生成した教師データによって学習した, ResNet38 は PASCAL VOC 2012 でSOTAを達成し, FCN（fully supervised）をも上回る結果を達成

コメント・リンク集

[#313]

2018.7.9 0:32:55

Towards High Performance Video Object Detection

Xizhou Zhu, Jifeng Dai, Lu Yuan, Yichen Wei

CVPR 2018

2494

Kazuki Inoue

概要

既存手法のSparse Feature Propagation、 Dense Feature Aggregationをアップデートした動画に対する物体検出手法を提案。提案手法は以下の3つの要素からなる。1) recursively aggregate feature for key frames：隣合うキーフレームごとに特徴量を抽出する。隣合うキーフレームではフレーム内に大きな変化は少ないため効率的に特徴量を抽出することができる。2)partially update feature for non-key frames：キーフレーム出ないフレームに対して、キーフレームと異なる部分のみに対して特徴量を抽出する。3)temporally-adaptive key frame scheduling：ここまでの処理ではキーフレームに主に学習してしまっているため、過学習を防ぐためにトレーニング動画全体で特徴量抽出器を調整する。なおここでのキーフレームは10フレームごとのフレームを指す。

Item3Image

新規性・結果・なぜ通ったか？

ImageNet VIDに対して77.8% mAP score と 15.22FPSとなり、SoTAを獲得。
ablation studyにより、手法のハイパーパラメタに寄らず既存手法より良い結果となっていることを示している。
学習にはResNet101を使用している。

コメント・リンク集

キーフレームを取得する間隔が精度、FPSにどの程度影響するのかが気になった。
論文

[#314]

2018.7.17 01:10:37

Action Sets: Weakly Supervised Action Segmentation without Ordering Constraints

Alexander Richard, Hilde Kuehne, Juergen Gall

CVPR 2018

1284

Kazuki Inoue

概要

動画のaction labelingとactionごとのtemporal segmentationをactionラベルと確率モデルによる弱教師学習で行う手法を提案。既存研究では弱教師とはいえほとんどの手法ではactionの順序は与えられていたが、提案手法ではactionラベルのみを用いる。手法は大きく3つに分けられ、context modelによる起こりうるactionの順序の推定、length modelによるactionのtemporal segmentation、multi-task learningによる各actionラベルの推定からなる。context modelの構築方法として以下の3つを検証。1)Naive Grammer、2)Monte-Carlo Grammer：行動が様々な順番で並び替えられた動画を学習3)：Text-Based Grammer：ネット上の本やレシピなどのテキストを利用して順番を学習する。length modelでは以下の2つを検証。1) Naive Approah：全ての行動クラスが一様に同じ時間的長さをもつ、2)Loss-based：行動クラスごとに時間的長さが異なるため、行動クラスごとの平均値を求める。

Item3Image

新規性・結果・なぜ通ったか？

Breakfast dataset(48クラス)、MPII Cooking 2(67クラス)、Hollywood Extended(16クラス)で実験
context model, length modelのそれぞれの方法の有効性を確認。context modelではmonte-carloとtext-basedの精度が高く、length modelではloss basedの方が精度が高い。
Breakfasta datasetでは23.3%、MPII Cooking 2では10.6%、Hollywood Extendedでは9.3%となり、行動の順序を教師として持つ手法と比べて10%程度精度が落ちなかった。

コメント・リンク集

使用しているデータベースがBreakfastの精度が高いのは、朝食で行う行動の順序はある程度決まっているから？
完全教師ありの手法ではBreakfast datasetで55%の精度。
論文
GitHub

[#315]

2018.7.17 01:02:30

Knowledge Aided Consistency for Weakly Supervised Phrase Grounding

Kan Chen, Jiyang, Gao Ram Nevatia

CVPR 2018

589

Kazuki Inoue

概要

phrase groundingを弱教師学習で行う際に、検出された領域と入力された名詞句から推定されるオブジェクトとのvisual consistencyを使用するKnowledge Aided Consistency Network (KAC Net)を提案。phrase groundingとは入力名詞句に相当するオブジェクトを画像中から検出するタスクである。既存手法では検出されたオブジェクトから名詞を推定し直すlanguage consistencyを用いていたが、提案手法ではlanguage consistencyとvisual consistencyの両方を用いる。具体的には、いくつかのカテゴリにおける画像識別をプリトレインしておくことで、オブジェクトの検出精度を高めることができ、かつ言語と画像の対応精度も高くなる。

Item3Image

新規性・結果・なぜ通ったか？

画像識別のプリトレーニングを用いてphrase groundingを弱教師学習で行う手法を提案。
2つのgroundingデータセットFlickr30K EntitiesとReferit Gameで評価。それぞれで38.71%(9.78%の向上)、、15.83%(5.13%の向上)の精度が向上しSoTAを達成。
特に人に対する精度が高い。一方で、名詞句(e.g. A man is taking a photo of another man and his two dogs on some grassy hills)を入力するよりも名詞単体(e.g. a man)を入力した方が精度が落ちた。

コメント・リンク集

MS COCO（90カテゴリ）とPASCAL VOC2007（20カテゴリ）で画像識別をプリトレーニング。MS COCOでプリトレーニングした方が若干精度が高い。
識別ではなく検出をプリトレーニングすると制度は上がる？
論文
Supplementary material

[#316]

2018.7.17 00:53:26

Learning Facial Action Units from Web Images with Scalable Weakly Supervised Clustering

Kaili Zhao, Wen-Sheng Chu, Aleix M. Martinez

CVPR 2018

237

Kazuki Inoue

概要

弱弱教師によるスペクトルクラスタリングによってembedding空間を再形成し、アノテーションを貼り直すことで顔のaction unitの手法を提案。提案手法ではネット上の画像とそのアノテーションを使用することで、画像の見た目とアノテーションのどちらも考慮した手法を提案。教師ありの手法ではどちらか一つの要素しか考慮できず、弱教師だとノイズや外れ値の影響を受けてしまうが、提案手法ではどちらも要素も考慮する。

Item3Image

新規性・結果・なぜ通ったか？

F1 score, S scoreで結果を比較、AlexNet、DRML、GFK、LapSVM、TSVMを用いて検証
そのままのアノテーションを使用するよりも高い精度を達成した。
教師あり学習と同程度の精度を達成。

コメント・リンク集

論文

[#317]

2018.7.17 00:17:13

Mesoscopic Facial Geometry Inference Using Deep Neural Networks

Loc Huynh, Weikai Chen, Shunsuke Saito, Jun Xing, Koki Nagano, Andrew Jones, Paul Debevec1 Hao Li

CVPR 2018

2496

Kazuki Inoue

概要

深層学習によってLight Stageから得られる1Kの顔のUVテクスチャを入力として4Kのディスプレイスメントマップを推定する手法を提案。事前実験により、テクスチャから全てのディスプレイスメントを推定するのではなく、中周波数帯、高周波数帯のディスプレイスメントをそれぞれ推定した方が精度が高いことを確認しているため、周波数帯ごとに二つのブランチで推定を行う。提案手法ではimage-to-image networkによって1Kのテクスチャを1Kのディスプレイスメントに変換し、super-resolution networkによって高周波数帯のディスプレイスメントを高開画像度化し、中周波数帯に対してはバイキュービック方で高解像度する。最終的には顔の3D meshにディスプレイスメントマップを統合することでリアルな3Dジオメトリモデルを得る。

Item3Image

新規性・結果・なぜ通ったか？

中周波数帯のみ、1Kの中・高周波数帯、4Kの中・高周波数帯(提案手法)のディスプレイスメントマップを用いた結果を比較。
既存手法と比較した結果、提案手法の方がGTに近い復元ができており、定量的にも提案手法の方がよりGTに近い。
主観評価を行い、提案手法、GT、既存手法のどれが最もリアルかという質問に対して、20.7%、67.2%、12.1%という結果となった。
in-the-wildな顔画像に対してもある程度うまく復元できることを主張。

コメント・リンク集

手法的に新しいことはないものの、pore-levelと書いてある通り、推定されたディスプレイスメントでは肌の細孔も表現されておりかなり綺麗な結果となっている。とはいえ、主観評価ではGTが圧倒的な評価を集めているため、人間の顔に対する知覚の鋭さに驚いた。
テスト時にはディスプレイスメントの生成に1秒、4K化に5秒程度かかる
論文
Supplementary material

[#318]

2018.7.17 00:10:47

Revisiting Dilated Convolution: A Simple Approach for Weakly- and Semi- Supervised Semantic Segmentation

Yunchao Wei, Huaxin Xiao, Honghui Shi, Zequn Jie, Jiashi Feng, Thomas S. Huang

CVPR 2018

812

Kazuki Inoue

概要

複数のカーネルサイズのdilation conv層をclassification networkに付け足すことで、image-levelのオブジェクトラベルから、オブジェクトごとの密なlocalization mapを生成し、これを元にセマンティックセグメンテーションを行う手法を提案。image-levelのラベルのみが与えられていても、複数サイズのdilated convolutionを組み合わせることで様々なスケールでオブジェクトを探索することが可能。最終的なlocalization mapはとdilated conv層の平均と通常のconv層の推定結果を足し合わせた物を使用する。このlocalization mapとonline mannerのそれぞれから得られたセグメンテーションとを教師とすることでセグメンテーションネットワークを訓練する。localization mapの汎用性を示すために、weakly/semi-supervisedの両方を行っている。

Item3Image

新規性・結果・なぜ通ったか？

Pascal VOC 2012(20ラベル)におけるセマンティックセグメンテーションのmIoUにおいてweakly/semi-supervisedが60.8%(既存手法+2.1%)/67.6%(既存手法+1.4%)となりSoTAを達成。
semi-supervisedの設定において、使用するpixel-levelの教師画像が500枚と1400枚ではmIoUが0.9%ほどしか変わらなかったため、localization mapの効果を示している。

コメント・リンク集

dilated convolutionの強力な探索能力を示した論文。シンプルがゆえにCNNの汎用性の高さが伺える。
onlineによるセグメンテーションはどのように得られている？
論文

[#319]

2018.7.16 23:48:11

Weakly-Supervised Semantic Segmentation Network with Deep Seeded Region Growing

Zilong Huang, Xinggang Wang, Jiasi Wang, Wenyu Liu, Jingdong Wang

CVPR 2018

2541

Kazuki Inoue

概要

画像に対するimage-levelのラベルのみを用いてセマンティックセグメンテーションを行う際に、ラベルを貼る領域をイテレイティブに増やす手法を提案。既存手法ではシードの初期値から一気にラベルを貼っていくが、提案手法では自信が高い領域にのみラベルを貼り、これを繰り返すことでセマンティックセグメンテーションを行う。ラベル(背景含む)の初期値としてclassificationから得られるヒートマップを用いてconfidenceが高いピクセルを使用する。DNNを用いてラベルごとのヒートマップを作成し、一つ前のイテレーションで推定したラベル領域と照らし合わせることでラベルの更新を行う。ロス関数は各ピクセルが各クラスに所属する確率と、物体境界の推定誤差からなる。

Item3Image

新規性・結果・なぜ通ったか？

PASCAL VOC 2012, COCOで検証しそれぞれでmIOUが61.4%(既存手法+2.8%)、 26.0%(既存手法+3.6%)となり、弱教師学習においてSoTA。
セグメンテーションを行う際の閾値の変化による結果への影響や、ablation studyを行なっている。VGG16とResNet101で実験。

コメント・リンク集

li ablation studyより、tableやsofaなどは提案手法によって結果が悪化しているのはなぜだろうか？

[#320]

2018.7.16 23:44:00

Self-Supervised Adversarial Hashing Networks for Cross-Modal Retrieval

Chao Li, Cheng Deng, Ning Li, Wei Liu, Xinbo Gao, Dacheng Tao

CVPR 2018

124

Kazuki Inoue

概要

画像とテキストのそれぞれから得られるハッシュを用いたクロスモダリティな検索において、中間的な情報である画像のラベルを自己教師として噛ませる手法を提案。DNNによって画像、ラベル、テキストのそれぞれから得られる特徴量をV、L、Tとすると、Lから得られるハッシュを自己教師とすることでVとTのそれぞれから得られるハッシュを同一のものにする。また特徴量分布を近づけるためにVとL、TとLそれぞれについてadversarial learningを行う。ハッシュ化するネットワークのロス関数としてハッシュ値の類似度、ラベルに対するclassificationのロスをとる。

Item3Image

新規性・結果・なぜ通ったか？

MIRFLICKR-25K、NUS-WIDE、MSCOCOを使用し、MAP、PR曲線、P@nの3つの指標で評価。既存手法としてshallow/deep structureと比較し、フェアな比較を行うために入力特徴量は全ての手法で統一。
ハッシュ値のビット数に関わらず、画像→テキスト、テキスト→画像の両方におけるMAP、PR曲線、Precision@top1000。
/adversarial learningを用いたクロスモーダル検索手法であるACMRに対しても優位に精度が高い。ただしACMRはハッシュを使用していないことに注意。

コメント・リンク集

ハッシュを自己教師とすることで、2つのモダリティをうまくつなげる方法。adversarial learningを使用しておりトレンドが反映されている。
論文

[#321]

2018.7.16 23:40:21

The Perception-Distortion Tradeoff

Yochai Blau and Tomer Michaeli

CVPR 2018

2765

Kazuki Inoue

概要

画像復元手法に対する評価尺度であるdistortion quality(DQ、MSEなど)、peceptual quality(PQ、主観評価、KL-divergenceなど)は反比例関係(どちらの尺度も値が低いほうが良い結果であると設定)にあることを様々な実験により示した論文。DQは復元された画像とオリジナルの画像との類似度を表し、PQはオリジナルの画像とは関係なく復元された画像がいかに自然かを表す。

Item3Image

新規性・結果・なぜ通ったか？

DQとPQが反比例関係にあることは定性的には述べられてきたが、本論文ではこの関係を証明するために定量的な実験を行った。
自然画像が二項分布などの単純な離散分布から生成されるとし、これに対してガウス分布から生成されるノイズをかけ、ノイズ画像に対してMSEが最小となるような分布を推定すると、自然画像の分布とは大きく異なる。つまりKL-divergenceは大きく異なるため、MSEとKL-divergenceが反比例にあることを示した。
WGANをL2ロスとWasserstein distanceを様々な比率の重みで学習させた際に、生成画像に対する両者のあたいは反比例関係にあった。
16種類の超解像手法に対してPQとして超解像の評価に特化したMa et al.を、DQとして6種類の尺度を使用した結果は、やはり反比例関係となった。
画像の復元手法は必ずdistortionとperceptionの両方で比較すべきである、と結論づけている。

コメント・リンク集

peceputual qualityとして実際の人間の評価を使用した例を見たかった。この場合も本当に反比例になるのだろうか？
画像の見た目を再現できたところで、ドメインシフトが解消された訳ではなく、むしろ大きくなっていくというのは非常に興味深い。
論文
Supplementary material

[#322]

2018.7.16 23:37:29

Probabilistic Joint Face-Skull Modelling for Facial Reconstruction

Dennis Madsen, Marcel Luthi, Andreas Schneider, Thomas Vetter

CVPR 2018

3236

Kazuki Inoue

概要

骨格のtissue-depth vector(ランドマークにおける皮膚と骨格のデプス)を用いてMCMCによって顔と骨格の統計的形状モデルの同時分布を推定する手法を提案。顔の統計的形状はPCAによって次元削減したものを使用し、求めるべき同時分布をベイズの定理によって骨格の統計的形状に対する事前分布と顔の事後分布に分ける。骨格の事前分布を30の骨格のCTスキャンを使用することで作成。tissu-depth vectorを用いてGTの骨格と推定された顔形状の交差、対応点の一致度を用いて顔に対する事後分布を推定する。

Item3Image

新規性・結果・なぜ通ったか？

MRI画像、3Dスキャンデータ、写真に対するverificationを行うことで精度を検証し、上位30%程度の精度だった。
顔に対するPCAの次元数に対する考察を行い、50次元程度に圧縮した場合に最も精度が高くなった。

コメント・リンク集

論文

[#323]

2018.7.16 23:34:25

A Prior-Less Method for Multi-Face Tracking in Unconstrained Videos

Chung-Ching Lin and Ying Hung

CVPR 2018

3502

Kazuki Inoue

概要

動画内の人数を指定することなく、動画内でメインで登場する人物のIDを保ったmulti-faceトラッキングを行う手法を提案。提案手法は三段階に別れている。まずショット内で顔、頭、胴体、全身の重心、幅、高さを算出しグラフ構造を用いることでショット内、間でIDを保ったトラッキングを行う。次に同一フレーム内のトラッキング軌道を繋げるためにVGG-face descriptorと既に存在する軌道の接続性を見て繋げる。最後にGaussian processによってVGGの特徴量を18次元まで削減した特徴量を使用することで、メインで登場していない人物に対する外れ値認定やトラッキングのリファインメントを行う。検証には人物の見た目の激しい動画やカメラモーションが激しい動画を使用する。

Item3Image

新規性・結果・なぜ通ったか？

顔の見た目の変化や、任意のカメラ向き、ショット変化、早いカメラモーションなどが含まれているミュージックビデオ8本、激しいオクルージョンや多くの暗い画面や正面顔が含まれていないシーンが多く含む4本のBody-worn camera videoで検証。
WCPによってIDのクラスタリング結果を、CLEAR MOTによってトラッキングをそれぞれの評価指標とし、それぞれの既存手法と比較を行った。WCP、CLEAR MOT共にミュージックビデオでは7/8、Body-worn videoでは4/4においてSoTA。

コメント・リンク集

スリラーでマイケルジャクソンをトラッキングし続けることはできる・・？
論文

[#324]

2018.7.16 23:30:48

Generate To Adapt: Aligning Domains using Generative Adversarial Networks

Swami Sankaranarayanan, Yogesh Balaji, Carlos D. Castillo, Rama Chellappa

CVPR 2018

2082

Kazuki Inoue

概要

Unsupervised domain adaptationにおいて、ソースドメイン(SD)とターゲットドメイン(TD)の識別に加えてAuxiliary Classifier GAN(AC-GAN)による画像生成を用いた手法を提案。F networkでドメインに普遍な特徴量を取得した後、GANによってドメインに固有な表現を獲得。Generatorによって生成された画像に対して、Discriminatorではドメインの識別とSDに対してはクラスの識別も行っている。

Item3Image

新規性・結果・なぜ通ったか？

ドメインシフトの困難さに応じて3つの設定でclassificationを行うことで検証。DIGITS(10クラス、3ドメイン)、OFFICE(31クラス、３ドメイン)、合成画像から実画像(CAD syntheticsデータセット、PASCAL VOCデータセットを使用、20クラス)
DIGITSデータセットでは3/4、OFFICEデータセットでは7/7の設定で、SoTA。合成画像と実画像の設定においてもSoTA。
ablation studyにより、GANによる生成、AC-GANによる識別のそれぞれが有効であることを確認。

コメント・リンク集

Supplementaryを見るとターゲットドメインで生成された画像はまだまだという印象。他の教師なしで画像を生成する手法やGANの知識と組み合わせることで、より高い精度を実現できる？少量データセット、教師無しで生成ができたらインパクトは大きい！
論文
Supplementary material
GitHub

[#325]

2018.7.16 23:26:45

Efficient parametrization of multi-domain deep neural networks

Sylvestre-Alvise Rebuffi, Hakan Bilen, Andrea Vedaldi

CVPR 2018

3009

Kazuki Inoue

概要

マルチドメインな学習を行うために、少量のドメインに固有なDNNのパラメタを学習する手法を提案。既存手法のresidual adaptorと呼ばれるドメインに固有なパラメタを学習する機構を改良しており、提案手法ではドメインごとに学習すべきパラメタが普遍特徴量に対するバイアス項となっている。既存研究のモデルでは不変特徴量に対する係数となっているので、提案手法の方がより学習が容易になっている。

Item3Image

新規性・結果・なぜ通ったか？

10の異なるデータセットからなるVisual Decathlonを用いて検証。ImageNetでプリトレーニングしたResNetに対し得てVisual Decathlonデータセットを学習する。
top-1 classification、decathlon scoreと呼ばれるマルチドメインに対する評価尺度においてSoTA。
学習し直す際にかかる時間がファインチューニングの5分の1となった。
他のデータセットに対する転移学習において、ターゲットとなるデータセットのデータ量が少ない場合にも既存手法と同等かつファインチューニングよりも良い精度を達成。
residual adaptorの位置、有効なregularizationについても検証。

コメント・リンク集

具体的にパラメタ数はどれくらい減る？
論文
GitHub

[#326]

2018.7.16 23:03:34

Dynamic-structured Semantic Propagation Network

Xiaodan Liang et al.

CVPR2018

1803.06067

Takumu Ikeya

概要

セマンティックセグメンテーションの新たな手法としてDynamic-Structured Semantic Propagetion Network(DSSPN)を提案した．
DSSPNは意味的概念階層をネットワークと結合することでsemantic neuron graphを構築する
それぞれのneuronは食品などのスーパークラスまたはピザのような特定の種類の物体を認識するためのインスタンス化されたモジュールを表現している．

新規性・結果・なぜ通ったか？

4つの公開されているセマンティックセグメンテーションデータセット（ADE20K、COCO-Stuff、Cityscape，Mapillary）を用いて評価実験を行い、最先端のセグメンテーションモデルと比較してDSSPNの優位性を実証した．
意味的階層を持つネットワークモジュールを明示的に構築している点で新しい.

コメント・リンク集

論文

[#327]

2018.7.17 22:19:17

Adversarial Data Programming: Using GANs to Relax the Bottleneck of Curated Labeled Data

Arghya Pal, Vineeth N. Balasubramanian

CVPR 2018

概要

弱いラベルを付与する関数から、出来る限り厳選したラベルを教師として与えるAdversarial Data Programming（ADP）を提案してデータを生成しながら識別器を学習する。マルチタスク学習と同様に、ドメイン変換についても効果的に行えるGANの学習とした。生成Gに相当するタスクではデータラベルの分布を生成して、識別Dに相当する部分では相対的精度の向上、ラベリングの依存性を考慮しながらラベルづけの正当性を確認する。

180717AdversarialDataProgramming

新規性・結果・なぜ通ったか？

従来のDPは最尤推定により条件付きモデルP(y|x)を推定する問題であったが、本論文で提案するADPは同時確率モデルP(x,y)を推定する問題（データとラベルのペアを評価すること）に相当し、GANにより最適化する。MNIST, Fashion MNIST, CIFAR10, SVHN datasetにて実験を行い、多くの比較手法を抑えてstate-of-the-artなモデルであることを確認。マルチタスク学習やドメイン変換にも有効である。

コメント・リンク集

データラベルを作り出すGANである。少量にラベルづけすればどんな場面でも高精度に識別可能である、ということを示したい。

論文

[#328]

2018.7.17 09:55:11

Improving Landmark Localization With Semi-Supervised Learning

Sina Honari, Pavlo Molchanov, Stephen Tyree, Pascal Vincent, Christopher Pal, Jan Kautz

CVPR 2018

概要

部分的にのみアノテーションが手に入る比較的少量のデータにおいて、顔ランドマーク検出問題にてSemi-Supervised Learningの手法を提案。ラベルなしのデータに対してキーポイントを推定して、誤差逆伝播ができるように構築。さらに、教師なし学習の枠組みでもキーポイント推定ができるようにした。右図は顔キーポイント検出の枠組みであり、上から順に（S）ラベルありのデータにて学習、（M）顔キーポイントからの属性（Attribute）推定、マルチタスク学習により間接的にキーポイント検出を強化、（N）正解画像に対して画像変換を施してデータ拡張。

180716LandmarkLocalizationSSL

新規性・結果・なぜ通ったか？

半教師あり学習（Semi-Supervised Learning）の枠組みで顔キーポイント検出を実行することを可能にした。特に、AFLW datasetで5%のみのラベルありデータで従来法を超えてState-of-the-artを実現した。

コメント・リンク集

間接ラベルが効くというのは、キーポイント検出にかなり依存している顔表情や頭部位置推定が働いているから？それでも半教師あり学習によりState-of-the-artを実現したことはかなりすごい！間接ラベル、いろいろ使えると思うのでアイディアを出したい。

[#329]

2018.7.16 20:31:44

Recurrent Residual Module for Fast Inference in Videos

Bowen Pan, Wuwei Lin, Xiaolin Fang, Chaoqin Huang, Bolei Zhou, Cewu Lu

CVPR 2018

概要

高速に動画処理をできるようにするRecurrent Residual Module（RRM）を提案。計算時間を大幅に削減するために、連続するフレーム間で畳み込みによる特徴マップを共有。AlexNetやResNet等と比較すると約2倍は高速であり、ベースラインであるDenseModelと比較すると8--12倍は高速であった。それだけでなく、XNORNetsなどの圧縮モデルにしても9倍高速であることが判明。この枠組みを用いて姿勢推定や動画物体検出のタスクに適用。右図は提案であるRRMの構造を示している。DenseConvolutionは最初のフレームのみであり、後続のフレームは差分の把握とSparseConvolutionによりforwardを実行。

180716RecurrentResidualModule

新規性・結果・なぜ通ったか？

一番の新規性は動画の連続フレーム間でパラメータを共有して高速かを図るRecurrent Residual Module（RRM）である。同枠組みを姿勢推定や動画物体検出に使用して高精度な推論を実現した。動画物体検出ではYOLOv2+RRMにて61.1@Youtube-BB、姿勢推定ではrt-Pose+RRMにて46.2@MPII-Poseを達成し、ベースラインから精度をほぼ落とさずに高速な処理を実行。

コメント・リンク集

汎用的に高速化が狙える枠組みの提案は重要。構造に依存しないフレームワークという点がよい！

論文

[#330]

2018.7.16 19:45:55

Global Versus Localized Generative Adversarial Nets

Guo-Jun Qi, Liheng Zhang, Hao Hu, Marzieh Edraki, Jingdong Wang, Xian-Sheng Hua

CVPR 2018

概要

実環境データの多様体を学習するための敵対的学習（GAN）を実現するLocalized GAN（LGAN）を提案。従来の多様体を表現するGANと比較して、LGANはいかに多様体間を変換するかの学習が効率よく行えている。同学習はMode Collapseを避けるためにも有効であることが確認され、さらにはロバストな識別器にもなることが実験により明らかとなった。図は任意の3次元空間に埋め込まれた多様体空間であり、Normal Vector（法線ベクトル）とTangent Vectors（タンジェントベクトル）が示されている。このTangent Vectorが多様体空間M内にて点xの位置の局所的変換を可能にする。

180716GlobalLocalizedGAN

新規性・結果・なぜ通ったか？

LGANの利点は主にふたつ、（１）多様体において、グローバルな点を参照することなくローカルな参照にて所望の結果を得ることができる。多様体であるが、局所的な探索で良い。（２）Local Tangentにて正規直交基底による事前情報を入れることができ、局所的なCollapseをケアできるという意味で有用である。GANのMode Collapse問題にも有効。また、提案する多様体空間構築は、画像識別においても有効であることが示された。

リンク集

[#331]

2018.7.16 19:24:02

Net2Vec: Quantifying and Explaining how Concepts are Encoded by Filters in Deep Neural Networks

Ruth Fong, Andrea Vedaldi

CVPR 2018

Yue Qiu

概要

学習済みネットワークの中間層が学習したセマンティックコンセプトを可視化及び統計分析を行う．更にNetwork Dissectionと比較して，一つ一つのフィルタではなく，フィルタの線形コンバインが表せるセマンティックコンセプトを考察した．
CVPR2017論文Network Dissectionが学習済みモデルの各々の中間層フィルタが学習したセマンティックコンセプトについて可視化・統計考察を行った．その結果，各々のフィルタが習得したコンセプトが少ないことから，フィルタの線形コンバインがより豊かなセマンティックコンセプトを表していることを推定し，更にそれを用いてNetwork Dissectionより良い可視化・分析を行う．手法としては，セマンティックコンセプトをfilter responsesのvectorial embeddingにマッピングするネットワークNet2Vecを提案した．セマンティックセグメンテーションタスクによりNet2Vecを学習．

Net2Vec

新規性・結果・なぜ通ったか？

提案手法によりmulti-filterの線形結合がNetwork Dissectionに提出したsingle filterより遥かにセマンティックコンセプトを表示できる(IoU)．
いくつか面白い発見があった．①ほとんどの場合，single filterではなくコンセプトがmulti-filtersにより線形表示できる．② filterが一つのコンセプトだけではなく，いくつかのコンセプトを同時に表せることが多い．(いくつかのコンセプトの線形成分の一つに入る)③single filterよりmulti-filterの線形表示によりmeaningfulなコンセプトを表示でき，また異なるconcept間の関係も表示できる

コメント・リンク集

Network dissectionと比べ変動がかなり少ない（研究対象を学習済みモデルのfilter->multi filterの線形表示），行った実験もほとんど類似している．
提案手法とNetwork dissectionを利用して，学習状態の確認分析が行いやすくなる．
論文
コード

[#332]

2018.7.18 20:27:44

Reconstruction Network for Video Captioning

Bairui Wang, Lin Ma, Wei Zhang, Wei Liu

CVPR 2018

Yue Qiu

概要

Encoder-decoder-reconstructor構造のビデオキャプションネットワークRecNetを提案した．ビデオからのキャプション生成とキャプションからビデオrepresentationをreconstruction両方利用した．
従来のビデオキャプション手法はencoder-decoderによりforwardでビデオからキャプションを生成．生成キャプションのセマンティック情報が利用されなかった．しかし，翻訳などの分野でdual情報がすでに利用されている．そのため，forwardのビデオカラのキャプション生成のencoder-decoder及びbackwardキャプションからのビデオrepresentation復元の-reconstructor構造を用いた手法を提案した．Encoderと類似したvideo representationを復元するのが-reconstructorの目標で，encoder-reconstructorのreconstruction lossesを用いてend-to-endで実現できる．
また，local, globalなvideo representationを生成できる2種類のreconstructor構造を提案した

ReconstructionNetwork-VideoCaptioning

新規性・結果・なぜ通ったか？

新たなencoder-decoder-reconstructor構造のビデオキャプション手法の提案．Reconstructor-video encoder間のreconstruction lossを利用し，ネットワークをend-to-end可能にした．また，backwardキャプションからのビデオ特徴reconstructすることにより，更にinformativeなビデオ特徴抽出を可能にした．
MSR VTT, MSVDの2種類のデータセットで従来のencoder-decoder video captioning手法より良い性能を得られた．

コメント・リンク集

Dual-taskを利用して，精度向上を図る手法が多そう
論文

[#333]

2018.7.18 20:21:11

Cascade R-CNN: Delving into High Quality Object Detection

Zhaowei Cai, Nuno Vasconcelos

CVPR 2018

Yue Qiu

概要

高精度で物体検出を行えるMulti-stageな物体検出フレームワークCascade R-CNNを提案した．
従来2-stage検出手法のIoUが学習段階均一に設定されている．著者達が実験によりIoUの閾値とbounding box regressorのIoUが近い場合最も良い精度を得られることを発見し，高精度検出器を得られるためにsingle IoUの設定が最優ではないと指摘した．これにより，学習段階でIoUが変化させることをベースとした手法を提案した．具体的に，R-CNNをmulti-stageに拡張し，学習段階でstageごとに序列的に学習を行い，一つのstageの出力で次のstageを訓練．

CascadeR-CNN

新規性・結果・なぜ通ったか？

従来の固定IoU設定方法の2つの問題点:①閾値が大きい場合，学習段階でoverfittingしやすい②閾値が小さい場合，ノイズバウンディングボクスが出やすいを改善できる．
Cascade R-CNN構造が一般的な検出ネットワークに適応しやすい．また，COCO，VOCデータセットなどでの比較によりCascade R-CNNがよりあらゆる評価指標において良い精度を達成した．

コメント・リンク集

構造的にほかのネットワークに適応しやすい．簡単な変化で驚くべき精度向上
論文
コード

[#334]

2018.7.18 20:15:36

Revisiting Oxford and Paris: Large-Scale Image Retrieval Benchmarking

Filip Radenovic, Ahmet Iscen, Giorgos Tolias, Yannis Avrithis, Ondrej Chum

CVPR 2018

Yue Qiu

概要

画像検索用benchmarks:Oxford 5k, Paris 6kに対し，修正・サイズ拡大・評価方法を加え，新たなbenchmarks: Roxford, Rparis, R1M を提案した．
従来の画像検索用benchmarksが①アノテーションエラーが含め②データセットサイズが小さい③現在の方法がOxford 5k, Paris 6kに対し完璧な結果を得られるので，quantitative evaluationができないの3つの問題点を指摘した．それぞれに対し①gtの信頼度付きの新たなアノテーションを追加し②Oxford 100k distractor setなどのdistractor setを追加し，データセットのサイズ・難易度を大きくした③更に3種類の新たなevaluation protocolsを提案し(Easy,Medium,Hard)，異なる手法にたい公平的な比較を可能にした．

LargeScale-ImageRetrievalBenchmarking

新規性・結果・なぜ通ったか？

画像検索用benchmarksに対し徹底的な問題分析・再アノテーション・評価指標の増加などを行った．
新たなbenchmarksに対し従来のfeature based, CNN basedな画像検索手法の評価を行った．評価結果により，CNN + feature basedな手法が最も良い精度を達成した．また，新たなbenchmarksに対し現在の画像検索方法はまた精度向上の余地があると指摘した．

コメント・リンク集

大規模画像検索用データセットをほかのタスクにも用いられそう．
論文
コード

[#335]

2018.7.18 20:09:31

MapNet: An Allocentric Spatial Memory for Mapping Environments

Joao Henriques, Andrea Vedaldi

CVPR 2018

Yue Qiu

概要

SLAM, mapping, agent navigationなどに用いられる新たなallocentricな(egocentricではない・観測視点に頼らない)3DスペースのDNN representation及びonlineで行うmapping-localizationネットワークの提案．
提案手法がシーンmapを2.5Dに表示し，地面に対し垂直の軸の情報をdense 2D ground表示の特徴ベクトルにエンコーディングする．このような表示により，より効率よく地面に垂直する方向に分布しやすいあらゆる室内・室外シーンを表示できる．
提案手法が2.5D spatial memoryをベースとしていて，移動カメラで撮影された画像に対し情報抽出を行い，更にground に射影し，動的にspatial memoryを更新する．
提案手法のコアがallocentric spatial memory. RGB-D画像から抽出した特徴tensorをallocentric spatial memoryに入力し，memoryが更新され，outputとしてlocalizationが得られる．localization/registrationがこのメモリースペースのdual convolution/deconvolution pairにformulateされる．

MapNet

新規性・結果・なぜ通ったか？

Onlineで行える高精度mapping&localization. Egomotionと独立したallocentricマップ表示の提案．
従来の複雑なmappingアルゴリズムより簡潔なrepresentationで良い精度・ロバスト性を得られた．また，リアル・CGの2種類のデータセットでbenchmark手法より良い精度を達成．

コメント・リンク集

3Dシーンをgroundに射影し， 3Dシーンを2.5Dに表示する手法がある程度優位と感じた．
論文
プロジェクト

[#336]

2018.7.17 14:43:31

Learning a Discriminative Prior for Blind Image Deblurring

Lerenhan Li, Jinshan Pan, Wei-Sheng Lai, Changxin Gao, Nong Sang, Ming-Hsuan Yang

CVPR 2018

Yue Qiu

概要

Blind Image Deblurringに用いられるdata-drivenなdiscriminative priorを提案した．また，提案したdiscriminative priorを用いた有効的なImage Deblurringアルゴリズムを提案した．
提案手法がBlind Image Deblurring問題のImage priorをblur画像・clear画像の2クラス分類のCNNによりformulateする．FCの代わりに，Global Average Poolingを用いることで，異なるサイズの画像を対応できるようにする．また，multi-scale学習策を用いて，入力画像サイズに対しロバスト性を向上する． Learned image priorをcoarse-to-fineなMAPフレームワークにembedし， half-quadratic splitting algorithmによりblur kernel推定を行う．

DiscriminativePriorFor-BlindImageDeblurring

新規性・結果・なぜ通ったか？

提案のCNNベースなdiscriminative priorがいくつか異なったタイプの画像に用いられる：自然画像，テキスト画像，顔画像及びローイルミネーション画像．また，提案手法がnon-uniform deblurringにも対応できる．
従来のdeblurring手法の①エッジ検出精度に頼る②自然画像に良い性能を得られるが，ほかのspecificな場合が対応できずなどの問題点を有効的に対応できる．
定量及び定性的実験により提案手法がSoTAなアルゴリズム(domain-specificな手法を含め)より良い性能を達成した．

コメント・リンク集

かなり良い精度でblurを除去できる．推定したblur kernalにより動画像生成するのができそう．
論文

[#337]

2018.7.17 14:37:56

Language-Based Image Editing with Recurrent attentive Models

Yelong Shen, Jianbo Chen, Jianfeng Gao, JingJing Liu, Xiaodong Liu

CVPR 2018

Yue Qiu

概要

新たなタスク:言語ベースな画像編集(Input descriptionによりInput画像を編集)を提案した．また，2種類のサブタスク：①画像セグメンテーション②画像colorizationを取り扱える通用的フレームワークを提案した．
提案ネットワークのコアなところは：recurrent attentiveモデルにより画像と言語特徴をfuseし，fixed stepではなく画像リージョンごとにダイナミックで編集を続くかどうかを決めるtermination gateを用いる．また，2種類のサブタスクに対し同じフレームワークを用いられる．

IBIE

新規性・結果・なぜ通ったか？

新規な問題設定LBIE(言語ベースな画像編集)及び新規なCGデータセットCoSaL(人工言語付き形状着色)の提案．
3つのデータセットで提案手法の有効性を示した． CoSaLにより提案end-to-endのネットワークの有効性を示し，ReferItデータセットでSoTAな言語ベースな画像セグメンテーションの精度を達成し、Oxford 102 Flowersデータセットにおいて初めての言語ベースなcolorizationを実現した．

コメント・リンク集

Language-and-Visionには様々な応用分野がある．基本的なLanguage-and-Visionモデルを熟練したら，ほかの分野への応用もしやすいと感じた．
論文
ポスター

[#338]

2018.7.17 14:31:13

PIXOR: Real-time 3D Object Detection from Point Clouds

Bin Yang, Wenjie Luo, Raquel Urtasun

CVPR 2018

Yue Qiu

概要

自動運転に用いられるLIDARセンサーの点群に対して，リアルタイムで行える3D検出する手法PIXORの提案．
新たな3Dデータのコンパクト2D　representationを提案した．提案手法はBEV(Bird’s Eye View)視点の点群を用いてBEVでの高さを1つのchannelとして取り扱う．自動運転に対しての検出タスクでは主に地面上の物体を対象とするため，2D BEV representationが計算コストを節約できるほか，物体間のoverlapがほぼなし．
また， 2D BEV 表示からpixel wiseで検出するネットワーク構造PIXORを提案した．

PIXOR

新規性・結果・なぜ通ったか？

KITTIデータセット及びATG4DデータセットでSoTAな精度を達成した．
BEV視点で観測された点群を2次元CNNにより対応できる新たな3Dデータのrepresentation及びネットワークを提案．こういった構造を用いて，提案手法は高スピード(10FPS)で3D検出が行える．

コメント・リンク集

BEV視点の3次元表示が自動運転に使いやすいと感じた．
論文

[#339]

2018.7.17 14:24:04

Indoor RGB-D Compass from a Single Line and Plane

Pyojin Kim, Brian Coltin, H. Jin Kim,

CVPR 2018

Yue Qiu

概要

Manhattan World(MW)の１つの直線及び平面からRGB-Dカメラの3自由度3DoFを推定する手法の提案．
従来のカメラ3DoF推定手法は少ない平面しか観測されてないシーンに対して，推定がうまくできない場合が多い．このような問題点を対応するため，1つの平面(depth mapから推定)及び1つの線(RGBから推定)しか観測されていない場合でも3DoFを推定できる手法を提案した．
具体的プロセス：①RGB,Depth画像から直線・平面を検出；②theoretical minimal samplingの線・平面により初期カメラ3DoFを推定;③直線グループのendpointsとMW axesまでの平均orthogonal距離を最小化することで，カメラ3DoFを精密化する．

RGBDCompass-SingleLinePlane

新規性・結果・なぜ通ったか？

従来の3DoF推定手法はスパースな観測(少ない平面しか観測されない)などの場合でうまく行えない．提案手法は一つの平面及びRGBから観測できる直線だけで3DoF推定を行える．また，camera driftに対してロバストである．
ICLNUIM,TUM RGB-Dデータセットで提案手法はSoTAな精度を達成し，また従来手法よりロバストで安定した検出ができる．

コメント・リンク集

DNNを用いないカメラ姿勢推定の手法を紹介した．伝統的手法及びDNNを用いた手法のロバスト性の比較に関する実験が期待している．
論文

[#340]

2018.7.17 14:19:17

A PID Controller Approach for Stochastic Optimization of Deep Networks

An Wangpeng , Haoqian Wang, Qingyun Sun, Jun Xu, QIonghai Dai, Lei Zhang

CVPR 2018

Yue Qiu

概要

SGD,SGD Momentumの代わりにautomatic control分野に広く用いられているPID optimizer(proportional integral derivative)をDNN optimizationに用いるアプローチの提案．
DNNの最適化過程(gradientsによりウェイトを調整)とPID (エラーによりデバイスの状態を調整)が本質的に共通していることを示した．また， SGD,SGD MomentumとPIDの共通点と異なる点を示した：①SGDが現在のgradientだけによりウェイトを更新し，P controllerと類似する．②SGD Momentumが現在と過去のgradientによりウェイトを更新し，PI controllerと類似．③PID controllerが過去，現在及び変化情報によりデバイスを更新するので，従来のSGD momentumのovershooting問題を大幅に抑制できる．

PID_Controller

新規性・結果・なぜ通ったか？

SGD momentumがovershootingのため，正しく収束できない場合がある．PIDを用いたら， overshootingを大幅に抑制できる．
MINIST,CIFAR,Tiny ImageNetなどのデータセットで検証した結果，PID optimizerがSGD momentumより低いエラー率を達成しながら，最適化スピードが30%~50%速い．

コメント・リンク集

ほかの分野で長年成功していた方法をうまくDNNに用いることがかっこいい！
論文
コード

[#341]

2018.7.17 14:09:09

Optimal Structured Light à La Carte

P. Lei et al.,

CVPR 2018

Kensho Hara

概要

Structured Light方式の3次元計測で用いるプロジェクタの投影パターンの最適化を行う手法を提案．従来は経験的なもので決められていることが多かったが，それに対して提案手法は目的関数を定義することで最適な投影パターンを求めることを可能にしている．投影パターン数をK，エピポーラ線上の画素数をNとして， K×Nの行列であるCode Matrix Cを求める定式化をしている． Cを使ったときのステレオマッチングの誤差が目的関数．

新規性・結果・なぜ通ったか？

プロジェクタの投影パターンを最適化するための手法を提案
計算的に投影パターンをその場で決定することを可能にした

コメント・リンク集

論文
馴染みのない分野なので具体的な中身はそこまでわかっていないです...
目的関数の中に，画素qに対する真のステレオ対応の点が入っているけど，それが既知な情報になっているのがよくわからない

[#342]

2018.7.18 13:14:05

Dual Attention Matching Network for Context-Aware Feature Sequence based Person Re-Identification

Jianlou Si, Honggang Zhang, Chun-Guang Li, Jason Kuen, Xiangfei Kong, Alex C. Kot, Gang Wang

CVPR 2018

Takahiro Itazuri

概要

Person Re-Identification（ReID）をするためのEnd-to-Endなネットワーク（Dual ATtention Matching network: DuATM）を提案した論文。DuATMのコアとなる要素はdual attention mechanismであり、映像内と映像間のattentionを特徴量の補正とペアリングに用いる。また実験では、いくつかのベンチマークでSoTAを達成した。

DuATM

手法・新規性

DuATMは大きく２つの構成要素からなる。１つは動画内から特徴量を抽出する要素であり、もう１つはそれらの特徴量のマッチングを行う要素である。後者にdual attention mechanismが導入されており、１つはコンテキストに応じて映像内の特徴量を補正するものでありもう１つは映像間の割り当てを行うものである。DuATMの損失関数はtriplet lossに加えて、de-correlatoin lossとcross-entropy lossを用いており、これに対してsiamese networkを学習する。

コメント・リンク集

論文

[#343]

2018.7.17 17:52:08

Tracking Multiple Objects Outside the Line of Sight Using Speckle Imaging

Brandon M. Smith, Matthew O'Toole, Mohit Gupta

CVPR 2018

Takahiro Itazuri

概要

スペックル・イメージングを利用して見えていない（non-line-of-sight: NLOS）複数の物体を追跡する手法を提案した論文。安価なコストで角付近に存在する複数の物体を10マイクロメートル程度の精度で追跡可能にした。拡散反射する壁を通して間接的にしかセンシングできない環境において、スペックル・イメージングの方法と動きのモデルを提案した。

手法・新規性

スペックルとはコヒーレント光が荒い表面で反射した際に発生する高周波なノイズのような画像である。提案手法では、このスペックルの動きと実際の物体の動きの関係をモデル化することで、拡散反射する壁から得られる情報から物体追跡を行う。実際には参照画像とそこから物体が移動したことで得られた画像の相関を取り、ピークを得ることで、物体の移動量を得る。

コメント・リンク集

[#344]

2018.7.17 17:12:19

Interactive Image Segmentation with Latent Diversity

Zhuwen Li, Qifeng Chen, Vladlen Koltun

Takahiro Itazuri

概要

より少ないインタラクションで高精度なInteractive Image Segmentationを行う論文。インタラクションが少ない場合に発生する曖昧さ（multimodality）の問題に取り組んだ。また従来の手法と同様のインターフェースと互換性のあるシステムとなるような設計を行った。実験では、従来手法より少ないクリック回数で良い精度のセグメンテーションを得ることができるようになった。

新規性・結果・なぜ通ったか？

ネットワーク構造はユーザの入力を考慮した複数の異なるセグメンテーション結果を出力するネットワークとそれらから１つのセグメンテーション結果を選択するネットワークで構成される。複数のセグメンテーション結果をランク付けし、それに伴った重み付けを行った損失関数を用いる。

コメント・リンク集

論文

[#345]

2018.7.16 17:34:28

RayNet: Learning Volumetric 3D Reconstruction With Ray Potentials

Despoina Paschalidou, Osman Ulusoy, Carolin Schmitt, Luc Van Gool, Andreas Geiger

CVPR 2108

Takahiro Itazuri

概要

異なる視点から撮影された映像から、CNNとMRFを用いて物理的制約を考慮可能な密な３次元復元を行った論文。CNNはタスクに対してネットワーク全体をデータから学習可能であるが、物理的制約を考慮することができない。一方でRay-Potentialを用いたMRFはモデルに陽な物理的制約を与えることができる一方で、大きな表面を上手く扱うことができない。本論文ではこの２つの手法の良いところをそれぞれ活かした手法であるRayNetを提案した。

RayNet

手法・新規性

構造としては、Multi-View CNNとMarkov Random Fieldから構成されている。Multi-View CNNは入力として複数の画像とそれに対応するカメラの姿勢を受け取り、視点による影響が小さい特徴量を抽出し、Rayごとにデプスの分布を出力する。Morkov Random Fieldは各視点からにおける遮蔽を考慮して、CNNから出力されたデプスの分布のノイズを除去する。

コメント・リンク集

論文

[#346]

2018.7.16 18:14:40

Learning to Parse Wireframes in Images of Man-Made Environments

P. Lei et al.,

CVPR 2018

Kensho Hara

概要

環境の3次元構造を推定するのは局所特徴ベースがよく使われるけどテクスチャの少ない人工物の多い環境ではうまくいかない．そのような環境において有効な表現としてWireframe（図参照）という表現とその検出手法を提案．人手で5000枚以上の画像に直線のアノテーションをさせたデータセットを用意してCNNベースの手法を学習することで， End-to-EndにWireframeを検出することを実現．提案手法は直線検出と交差点検出をそれぞれ行ってから結合するという構造のCNN．

新規性・結果・なぜ通ったか？

Wireframeの検出という新しい問題設定を提案してデータセットも用意
Wireframe（直線と交差点）をEnd-to-Endで検出するためのCNN構造を提案

コメント・リンク集

[#347]

2018.7.17 10:41:34

Generative Adversarial Learning Towards Fast Weakly Supervised Detection

Yunhan Shen, Rongrong Ji, Shengchuan Zhang, Wangmeng Zuo and Yan Wang

CVPR2018

706

概要

オンラインの弱教師あり物体検出（WSD）に敵対的生成学習を用いて高速な検出を行う．Generator（G）は画像からb-boxを生成し，surrogator（F）はannotation情報からb-box分布を推定する．GおよびFからの検出結果はdiscriminator（D）に入力される．Dはb-boxおよび分布が真（Fからの出力）であるか偽（Gからの出力）であるか区別する．各モジュールを学習して，推論時は学習されたGのみを用いる．

新規性・結果・なぜ通ったか？

作者らの知る限りでは，弱教師あり学習でYOLOやSSDのような1ステージ物体検出を用いる最初の手法である．VOCを用いて実験を行い，ほとんどのクラスでSOTAと同等またはそれ以上の性能を達成し，平均では47.5mAP，66.1CorLocを達成した．検出速度は入力画像サイズが300のとき8.48ms，512のとき19.93msとかなり高速（1080Ti, i7-6900K）．

コメント・リンク集

学習時のみFを用いて推論時はGを用いることで高速化しているのは面白い．コードはすぐに公開されるとのこと．

論文

[#348]

2018.7.16 15:01:34

Triplet-Center Loss for Multi-View 3D Object Retrieval

Xinwei He, Yang Zhou, Zhichao Zhou, Song Bai and Xiang Bai

CVPR2018

概要

多視点画像から3次元物体検索手法を提案。クラスの重心に近づくように最適化するcenter lossと、同一クラス同士の距離を小さくし他クラスとの距離を大きくするtriplet lossを組み合わせたcenter-triplet lossを導入した。 triplet-center lossにより、正解クラスの重心との距離を最小化しつつ、他クラスの重心との距離は最大化する。 triplet,centerそれぞれ単独よりtriplet-center＋softmaxが一番いい。他の手法よりも3d shape、sketchどちらにおいても精度がいい。

Item3Image

新規性・結果・なぜ通ったか？

triplet loss、center loss単独で最適化するよりcenter-triplet loss及びsoftmax lossを組み合わせたものがAUC及びmAPが最も良くなることを確認した。従来手法と比べ、generic 3D shape retrieval及びsketch-based 3D shape retrievalの2種類いずれのタスクにおいて、F1、mAP、NDCGの三つの指標が最も良いという結果が得られた。

コメント・リンク集

Future workとして書かれているが、手法自体は他のタスクにも試せそう。3D Object Retrievalに特化して構築された手法でないにも関わらず他のタスクが紹介されていないのは他のタスクがうまくいっていないということだろうか？

論文URL

[#349]

2018.7.15 02:33:13

Thoracic Disease Identification and Localization with Limited Supervision

Zhe Li, Chong Wang, Mei Han, Yuan Xue, Wei Wei and Li Fei-Fei

CVPR2018

概要

医療画像から、病名の特定及び異常箇所の特定を行う手法を提案した。ResNetにより抽出した特徴を、パッチに分割し各パッチが異常箇所であるかを予測する。予測したパッチ情報を用いて、病名の判定を行う。学習時には、病名のみラベルがついていて異常箇所のラベルが付いていない場合がある。そこで、病名のみしか存在しない場合は少なくとも1つのパッチが異常箇所であると仮定して学習を行う。

Item3Image

新規性・結果・なぜ通ったか？

病名診断については、14の病名のうち12の病名においてベースラインよりも精度が向上した。異常箇所の特定については、従来手法と比べ8つの病名全てにおいて精度が向上している。

コメント・リンク集

論文

[#350]

2018.7.16 00:59:33

Occlusion-Aware Rolling Shutter Rectification of 3D Scenes

Subeesh Vasu, Mahesh Mohan M. R. and A. N. Rajagopalan

CVPR2018

概要

カメラモーションによって生じるdistortionをなくすための手法を提案。市販のカメラの多くは、撮影時に行ごとに処理を行うためカメラが動いている場合同じ画像であっても各行のカメラの位置は異なるため、distortionが生じてしまう。そこで画像の各行が異なるカメラ位置として扱い、distortionのない状態への復元を行う。具体的には、動画の各フレームからdepth mapを推定することで、backgroundの復元を行う。続いて3次元空間をlayer分けして考え、background以外のlayerに対するマスクを作成することでocclusion領域を埋めていく。

Item3Image

新規性・結果・なぜ通ったか？

従来手法と比べ、ピクセルの推定値を評価するPSNR、カメラモーションの推定値を評価するAPMEどちらも向上した。特にカメラモーションの推定は従来手法と比べて格段に向上している。

コメント・リンク集

論文URL

[#351]

2018.7.15 04:38:09

Joint Optimization Framework for Learning with Noisy Labels

Daiki Tanaka, Daiki Ikami, Toshihiko Yamasaki and Kiyoharu Aizawa

CVPR2018

概要

学習データのラベルにノイズが含まれている場合の学習方法を提案した。ネットワークのパラメータを求めるのみならず、ラベルそのものも更新していくことでラベルからノイズを取り除くことを可能とする。ネットワークのパラメータとラベルの一方を固定した更新を繰り返すことにより最適化していく。

Item3Image

新規性・結果・なぜ通ったか？

CIFAR-10 dataset及びClothing1M datasetにより評価を行った。CIFAR-10の結果は、ノイズの割合に関わらず提案手法がベースラインと比べ精度が向上し、ノイズが50%含まれる場合でもTest Accuracy84.7%、Recovery Accuracy88.1%を記録した。 Clothing1M datasetもベースラインよりaccuracyが良く、72.23%を記録した。

コメント・リンク集

論文

[#352]

2018.7.16 02:39:24

Geometry-aware Deep Network for Single-Image Novel View Synthesis

Miaomiao Liu, Xuming He and Mathieu Sapzmann

CVPR2018

概要

1枚画像から視点を変えた画像を生成する方法を提案した。有限の数の平面の存在を仮定し、各平面の組み合わせによって新たな視点の画像を生成する。入力画像に対してピクセル単位でdepthとnormalを推定し、平面の数と同様のHomography変換を考える。同時に入力画像からピクセル単位でどの平面を出力画像の生成に用いるか決定することで、出力画像を得る。

Item3Image

新規性・結果・なぜ通ったか？

従来手法が考慮していなかった3次元的な特徴を考慮することで、歪みなどが存在しない画像を出力することに成功した。数値評価においても、ground truthとのL1ノルムがベースラインと比べ小さくなっている。

コメント・リンク集

論文

[#353]

2018.7.14 15:58:18

Compassionately Conservative Balanced Cuts for Image Segmentation

Nathan D. Cahill, Tyler L. Hayes, Renee T. Meinhold and John F. Hamilton

CVPR2018

概要

グラフカットの問題において、edgeの重みが他よりも小さい場合そのedgeで切断してしまいnodeが１つしかないクラスができてしまう。この問題を解決するために、Compassionately Conservative Balanced (CCB) Cut costsを提案した。クラス間のnode数のバランスを取るための方法として、Compassionately Conservative Ratio CutやCompassionately Conservative Normalized Cutなどが提案されているが、CCBはこれらを一般化したcostとなる。

Item3Image

新規性・結果・なぜ通ったか？

コメント・リンク集

論文

[#354]

2018.7.14 16:44:14

CLEAR: Cumulative LEARning for One-Shot One-Class Image Recognition

Jedrzej Kozerawski and Matthew Turk

CVPR2018

概要

Positiveデータが1枚のみであり、Negativeデータが存在しないOne-Shot One-Class(OSOC)問題を解く方法としてCulmulative LEARning(CLEAR)を提案した。人間が学習する際、同じことを何度も繰り返すこと、似たような技能を既に修得している場合はそうでない場合よりも上達が早いことに着目した。学習済みの特徴抽出器から得られた画像特徴より、識別の境界を決定するネットワークによって識別器を構築する。学習の際には、ImageNetから取って来た1枚の画像に対して境界を決定し、その画像が得られた境界によって正しく識別できているかを見ることで学習する。

Item3Image

新規性・結果・なぜ通ったか？

5種類のデータセット(Caltecb-256, Oxford Flowers, Caltech-UCSD Bird-200-2011, MIT Indoor scene recognition and SUN attribute database)で実験した。実験の結果、MAP及びF1の指標がランダム出力、One-ClassSVMと比べ精度が良いことを確認した。

コメント・リンク集

論文

[#355]

2018.7.15 16:53:02

A Hierarchical Generative Model for Eye Image Synthesis and Eye Gaze Estimation

Kang Wang, Rui Zhao, Qiang Ji

CVPR2018

Hiroshi Fukui

概要

与えられた視線方向から視線画像を生成してくれるHierarchical Generative Model(HGM)を提案．HGMは2つのネットワークから構築されており，KnowledgeベースのHierarchical Generative Shape Model(HGSM)とData-drivenなconditional Bidirectional Generative Adversarial Network(c-BiGAN)から構成されている．ここで，入力する視線方向は，yaw, pitch, rollである． HGSMは，与えられた視線方向から目の形状のパラメータを推定する． c-BiGANでは，2種類の入力によりDiscriminatorを学習する． Generatorが出力したsynthesized imageとHGSMの出力と，real imageとEncoderで出力した目の形状パラメータであり，これらの入力を用いてDiscriminatorを学習する．

70_overview

新規性・結果・なぜ通ったか？

生成されたCGを用いて学習するアプローチ．SimGANではCGを作った後に学習しているが，この手法では視線方向等のサンプルパラメータのみで学習サンプルの生成&推定が可能である．この論文では，視線推定だけでなく，表情推定にも応用することができる．

コメント・リンク集

論文リンク

[#356]

2018.7.16 01:12:34

HydraNets: Specialized Dynamic Architectures for Efficient Inference

Ravi Teja Mullapudi, William R. Mark, Noam Shazeer, Kayvon Fatahalian

CVPR 2018

Takahiro Itazuri

概要

DNNの高い精度を保持したまま計算コストの削減が可能なHydraNetを提案した。HydraNetには推論時に入力に対して良い精度を出すようにネットワークアーキテクチャの部分集合を選択するsoft gating mechanismが組み込まれている。このような動的な構造を持たせることでaccuracy-per-unit-costを向上させた。実験では、画像分類タスクにおいてResNetやDenseNetと同等の精度をより少ない計算コストで出した。

手法・新規性

HydraNetは複数のbranchで構成され、各branchは特定のsubtask特化するように学習されている。その後、gating mechanismによって動的に適切なbranchを選択し、その選択されたbranchから来る特徴量を統合し、最終的な推論を行う。HydraNetでは、各branchは最後の推論までは行わず、subtaskに対応する特徴量だけを計算するような構造になっていることが計算効率の向上につながっている。

リンク集

論文

[#357]

2018.7.15 20:53:13

Dual Skipping Networks

Changmao Cheng, Yanwei Fu, Yu-Gang Jiang, Wei Liu, Wenlian Lu, Jianfeng Feng, Xiangyang Xue

CVPR 2018

Takahiro Itazuri

概要

右脳と左脳で視覚情報を処理している解像度が異なるという人間の脳の仕組みを模倣したネットワークDual Skipping Networksを提案した。このネットワークは２つのサブネットワークで構成されており、それぞれ同様の構造を持つが、左右でスキップ可能な層のパラメータが異なっており、その結果、左右非対称なネットワークがそれぞれglobalな推論とlocalな推論をするようになっている。画像分類の問題において、既存のデータセットに加えて、小さな文字で他の文字を構成するsb-MNISTデータセットで実験を行い、可視化によってそれぞれがglobalな情報とlocalな情報を保持していることを確認し、また非常に良い精度を出した。

手法・新規性

Dual Skipping Networksのネットワーク構造は、右脳と左脳に対応する２つのサブネットワークとそれらが共有するCNNから構成される。共有されているCNNは脳におけるV1領域に対応しており、２つのサブネットワークはそれぞれ右脳と左脳に対応し、globalな推論とlocalな推論をするようになっている。各サブネットワークはSkip-Dense BlockとTransition Layerを交互に重ねた構造になっており、Skip-Dense Blockにおけるスキップ率の違いが２つのサブネットワークの差になっている。Skip-Dense BlockはDense LayerとGating Networkで構成され、Gating Networkがスキップをするか否かを司っている。またglobalな推論をするネットワークからlocalな推論を行うネットワークへの情報を伝達するGuideにより、coarse-to-fineな推論が可能になった。

リンク集

論文

[#358]

2018.7.15 20:05:24

Zigzag Learning for Weakly Supervised Object Detection

Xiaopeng Zhang, Jiashi Feng, Hongkai Xiong and Qi Tian

CVPR2018

551

概要

物体検出の弱教師あり学習において，overfittingを防ぐためにretrain・relocalizeを繰り返すジグザグ学習を提案．特定の対象物を参照して学習画像の難しさを自動で測定する指標「mean Energy Accumulated Scores（mEAS，下図）」を導入し，これに基づいて検出ネットワークを学習する．また，学習中に特徴マップのマスキングを行い，細部に集中するだけでなく，ランダムにoccludeされたpositive-instanceを導入することでoverfittingを防ぎ，汎化性能を高める．

新規性・結果・なぜ通ったか？

対象物体がわかりやすいかわかりにくいかの単純な戦略を用いて検出モデルを学習し，信頼性の高いインスタンスを検出することができる．弱教師あり学習の物体検出手法でSOTAを達成．VOCデータセットを用いた評価により，ほとんどの物体が他の手法よりも良い性能を達成し，総合のmAPは3～6%程度向上した．

コメント・リンク集

背景がmEASにもたらす影響が気になる．

論文

[#359]

2018.7.14 21:10:38

Boundary Flow: A Siamese Network That Predicts Boundary Motion Without Training on Motion

P. Lei et al.,

CVPR 2018

Kensho Hara

概要

物体の境界の推定と隣接フレーム間での境界のモーションの推定を同時に行うBoundary Flow Estimationという問題の提案．これができるとMid-levelの表現として色々なタスクに利用できたりして嬉しい．提案手法は，tフレームとt+1フレームの2入力を受け取るSiamese Net型の構造で，Encoder-Decoderにより両フレームのBoundaryを推定する． Boundaryのマッチングのために，Excitation Attentionのスコアでマッチングスコアが計算される． Siameseの2つのパスのモデルは同じ構造で重みは共有されているので，Boundaryのアノテーション付いている静止画データがあれば学習可能． Boundary Detection, Boundary Flow Estimation, Dense Optical Flow Estimationの3タスクで良い性能を達成．

新規性・結果・なぜ通ったか？

Boundary Flow Estimationという新しい問題設定を提案
Fully Convolutional Siamese Networkという構造の提案手法

コメント・リンク集

論文
Excitation Attentionがよくわかってないからか，マッチングの話がよくわからず...
そこがわかってないからか，なぜBoundaryのマッチングの学習データがなくてもうまくいくのかよくわからず...

[#360]

2018.7.11 15:45:23

Active Fixation Control to Predict Saccade Sequences

C. Wloka, I. Kotseruba and J.K. Tsotsos

CVPR2018

Ryota Suzuki

概要

人間の目はサッケード運動をしていることが知られている．これは，意識的に目を動かしていなくても，無意識的に注視点(fixation point)を決めてそこの間を移動するように高速に眼球運動しているというものである．このモデリングは過去より行われており，近年では深層学習によって劇的に向上した．

しかし，静止画の上で行う上では，顕著性マップを通じた非清冽な注視点の推定に大きく依存していた．人間のようなサッケードの時間的整列済み系列を生成できる改善モデルはほぼない．

そこで，STAR-FCを提案．これは中心視野・高レベル物体ベース顕著性と，周辺視野・低レベル特徴ベース顕著性の統合による．

新規性・結果・なぜ通ったか？

注視点推定において人間レベルの性能を達成．

コメント・リンク集

心理学に絡みそうなネタがCVPRに出ていると，個人的にはワクワクする．

論文

[#361]

2018.7.13 12:05:21

Accurate and Diverse Sampling of Sequences based on a “Best of Many” Sample Objective

A. Bhattacharyya, B. Schiele and M. Fritz

CVPR2018

Ryota Suzuki

概要

自動移動エージェントの実世界での走行が成功するには，環境における将来のイベントや状況の緩和が鍵を握る．この問題は，系列の外挿問題として定義された．系列からの将来の推定に，観測の数が使われる．

実世界シナリオにおいては，不確定さのモデリングが必要となる．それは時間が経つにつれて不確定さが増大する．

未来の系列の上で複数モーダルの分布を誘発するシナリオは挑戦的である．

この研究では，Gaussian Latent Variableモデルによって系列推定に挑戦する．その中心的なアイデアは，「Best of Many」（多くの中から最良を）である．これにより，より正確かつより多様な推定を導く．

新規性・結果・なぜ通ったか？

実験により，交通シーン，天気データなどの3つの多様なタスクにおいて従来手法を越えたことを示した．

シンプルで強力だが新たな考え方を示している．

コメント・リンク集

ICRA感がある．

論文

[#362]

2018.7.13 11:25:18

Modifying Non-Local Variations Across Multiple Views

T. Tlusty, T. Michaeli, T. Dekel and L. Zelnik-Manor

CVPR2018

Ryota Suzuki

概要

繰り返し構造・パターンを持つような同じシーンの複数画像の間での，小さいNon-local Variationを修正する手法を提案する．

異なる視点，異なる照明条件で撮影された画像間の一貫性を保つように修正を行うのがポイント．独立にやってしまうと，繰り返し構造を持っている場合，一貫性が壊れ，幾何学的構造が歪むことを示す．

新規性・結果・なぜ通ったか？

少しニッチだが，注目されていなかったところで発生する問題を報告し，更に解決策を正しく与えている．

コメント・リンク集

著者らの前論文の正統進化といえる．

[#363]

2018.7.13 10:55:31

Graph-Cut RANSAC

D. Barath and J. Matas

CVPR2018

Ryota Suzuki

概要

RANSACのバリアントに，一番よく見えるモデルが見つかった時に局所最適化でリファインするLO-RANSACがあるが，この局所最適化の部分を2クラス分類の雄であるGraph-Cutに代替した．従来法における，ただ最小二乗で局所最適化するより局所最適化の評価回数がかなり少なくなる（理論的にはlog(サンプル＋検証の数)）ようになっており，その結果，CPUでミリ秒単位で動く高速性がある．実際には，空間的コヒーレンスが効いて理論値より評価回数が更に少ない模様．

ユーザ定義パラメータは少なく，連結とみなす距離r，局所最適化適用しきい値ε_confを決めればよい．これらは学習可能である．

新規性・結果・なぜ通ったか？

特徴として，１．インライヤ・アウトライヤが空間的コヒーレント，２．パラメータは直感的かつ学習可能，４．計算効率がよい，３．収束性がよい．

タイムリミットを置いて比較したとき，ノイジーなデータにおいての正解数が他のLO-RANSAC系手法より優れていることを示した．

コメント・リンク集

シンプルで強力な手法に感じたので熟読したが，重複表現が多かったり誤植があったりして読解性が低く感じた．900本強あるCVPR論文の中，時間を浪費するのでポスターといえど論文としてのクオリティは最低限維持してほしいと完全読破チャレンジャーとしては思う．

論文

[#364]

2018.7.11 09:14:45

Compressed Video Action Recognition

Chao-Yuan Wu, Manzil Zaheer, Hexiang Hu, R. Manmatha, Alexander J. Smola, Philipp Krahenbuhl

CVPR 2018

Takahiro Itazuri

概要

MPEG-4やH.264のようなコーデックによって圧縮された映像を直接入力として行動認識を行う論文。背景として、映像には時間方向の冗長性が多く含まれており、その事実はコーデックによって大幅に圧縮できることが挙げられる。圧縮された状態に含まれるmotion vectorとresidualを直接入力とするネットワークCoViARによって、高速かつ高精度な行動認識に成功した。

手法・新規性

提案手法の入力として、初期フレームにおいてはRGBの情報を持っており、後続するフレームには初期フレームに対するmotion vectorとresidualを持っている。通常のコーデックでは1つ前のフレームに対するmotion vectorとresidualが格納されているので、初期フレームから注目フレームまで累積することで、初期フレームと累積したmotion vectorとresidualを用いることで現在フレームを復元することできる。実際に推定する際には、初期フレームにおけるRGBから得られた特徴量と、各フレームのmotion vectorとresidualから得られた特徴量を統合して、各フレームの行動認識スコアを出力する。異なる動画間の入力ドメインでの分布を見ると、motion vectorとresidualは領域を共有しており、その結果効率的に学習することができる。

コメント・リンク集

論文

[#365]

2018.7.12 17:00:50

Matryoshka Networks: Predicting 3D Geometry via Nested Shape Layers

Stephan R. Richter, Stefan Roth

CVPR 2018

Takahiro Itazuri

概要

2次元画像から3次元形状を復元する論文。DNNを使って3次元形状を推定する手法は、voxelを直接出力するようになっており、GPUのメモリ容量の制限から高解像度な3次元形状を復元することができなかった。本論文では、メモリ効率を良くするため、特定の方向へ延びるtubeが各ピクセルに対応する二次元表現voxel tubeを出力するshape layerを提案した。またネスト構造を持たせたshape layerを適用することで、自己遮蔽領域への対応したネットワークMatryoshka Networkを提案した。

手法・新規性

shape layerは6軸方向から見た深度画像を出力し、各軸に対応する2つの深度画像に挟まれた領域の共有部分を出力する。この場合、すべての軸から見ても遮蔽されている領域を復元することができないため、マトリョーシカのようなネスト構造を持つshape layerを出力するMatryoshka Networkを提案し、このネットワークは集合の差と和集合を交互に繰り返すネスト構造を持つ。

コメント・リンク集

論文

[#366]

2018.7.12 15:12:46

Depth-Based 3D Hand Pose Estimate: From Current Achievements to Future Goals

Shanxin Yuan et al.

CVPR 2018

Takahiro Itazuri

概要

3D Hand Pose Estimationのサーベイ的論文。主に以下の2つの点に主眼を置いている。

デプス画像からの3D Hand Pose Estimationの現状を明らかにする
次に挑戦するべきである課題は何かを明らかにする

Hands In the Million Challenge (HIM2017)のトップ10の最新手法に関して、3つのタスク（単一画像からの姿勢推定、3次元トラッキング、物体とインタラクション中の姿勢推定）において調査を行った。

新規性・結果・なぜ通ったか？

DNNによる手法が混濁する中で、業界を整理するサーベイ的論文が評価されている（？）。最終的に、3D Hand Pose Estimationの現状において以下の7点の洞察を得た。

3DCNNを用いた3次元表現は入力のデプス情報の空間的構造を捉えることができ、良い精度を出した。
検出ベースの手法は回帰ベースの手法より良い精度を出した。しかし、回帰ベースの手法は明示的に空間的制約を加えることで良い精度を出すことができる。
遮蔽された関節を推定することはほとんどの手法にとってチャレンジングであるが、明示的な構造の制約や関節間の空間的関係性をモデリングすることで、遮蔽なしとありの差を大きく狭めることができる。
識別的手法はまだ見ぬ手の形に著しく脆弱であり、良い生成能力を持つ機構を組み合わせることで、今後良い方向に進みそう。
70~120度の見え角では、非常に良い精度を出す一方で、極端な見え角ではエラーが大きくなる。
トラッキングでは、現在の識別的手法においては検出を姿勢推定の2つサブタスクに分けて問題を解いている。
単一画像からの姿勢推定は100万程度のデータセット上で学習すると良い精度を出すが、物体とのインタラクションには一般化できていない。今後の方針として、より良いセグメンテーション方法をデザインするか、物体とのインタラクションを含む大規模データセットで学習することが挙げられる。

リンク集

論文

[#367]

2018.7.12 08:03:19

Dimensionality's Blessing: Clustering Images by Underlying Distribution

Wen-Yan Lin, Siying Liu, Jian-Huang Lai, Yasuyuki Matsushita

CVPR 2018

Takahiro Itazuri

概要

画像分野では画像理解のために、画像を高次元の特徴ベクトルにして処理を行うことで大きな成功を収めてきた。しかしながら画像のクラスタリングは現在も非常に難しいタスクである。その理由として挙げられることは、クラス内分散がクラス間分散より大きいため、大部分が重複した分布を持っている点である。本論文では、高次元特徴量の場合、ほぼすべてのサンプルがある位置を中心に特定の半径の領域（hyper-shell）に分布することに着目し、新たなクラスタリング手法であるDistribution-Cluteringを提案した。これにより、従来のクラスタリング手法より良いクラスタリングが可能になった。

手法・新規性

高次元の球の体積がほとんど外側に集中していることはよく知られている事実であるが、それを掘り起こしてきて、クラスタリングに生かし、CVPRに通すところがすごい。具体的な手法の部分は正直なところ理解できなかったが、数学的にも妥当なクラスタリングができているようである。

コメント・リンク集

論文

[#368]

2018.7.11 14:39:18

CNN based Learning using Reflection and Retinex Models for Intrinsic Image Decomposition

D. Xu et al.,

CVPR 2018

Kensho Hara

概要

Intrinsic Image Decomposition（画像を反射特性 (Reflectance) や影 (Shading) などの要素に分解）において， Deepベースの手法はブラックボックス過ぎるので画像生成 (Image Formation) の原理なども考慮するような手法を2つ提案． 1つ目のIntrinsicNetはEncoder-Decoderのモデルで，DecoderはReflectanceとShadingそれぞれを復元．単なるReflectanceとShadingのLossに加えて，ReflectanceとShadingから復元した画像のLossも利用するのがポイント． 2つ目のRetiNetは従来手法のRetinex（画像の勾配の大きさからReflectanceとShadingに分解）のアイディアをDeep手法に導入．勾配の分解をEncoder-Decoderでやった後に元の画像と合わせてReflectanceとShadingを推定する．新しく提供する大規模データセットでモデルを学習して従来よりも高い性能を達成．

新規性・結果・なぜ通ったか？

Intrinsic Image DecompositionのDeepモデル学習のための大規模データセット（2万画像）を提供
従来の物理特性を考慮した手法とブラックボックスなDeep手法の良いとこ取りを実現

コメント・リンク集

[#369]

2018.7.11 15:45:23

Structured Attention Guided Convolutional Neural Fields for Monocular Depth Estimation

D. Xu et al.,

CVPR 2018

Kensho Hara

概要

単眼カメラからのデプス推定のための新しい手法を提案． CNNにCRFを導入して，途中の層から得られるマルチスケール情報の統合を最適化できるようにしたのが提案手法のポイント．マルチスケールの統合のためにはアテンション機構を導入して，それをうまく実現している．実行速度も速く精度も高いという結果が出ている．

新規性・結果・なぜ通ったか？

単眼デプス推定で高い性能を達成 (NYU Depth V2でSOTA超え，KITTIでSOTA並み)
単眼デプス推定 & CRFによるマルチスケール統合 & アテンションの合わせ技

コメント・リンク集

論文
うまいこと流行りの要素を混ぜ合わせました，という感じがしてしまった

[#370]

2018.7.11 14:20:43

Single Image Reflection Separation with Perceptual Losses

Xuaner Zhang, Ren Ng, Qifeng Chen

CVPR 2018

Takahiro Itazuri

概要

本論文では、DNNで単一画像から反射成分と透過成分を分離するタスクを解いている。入力画像Iを反射成分Rと透過成分Tに分離する問題は本来ill-posedな問題であり、従来は様々な前提知識を利用してこの問題を解いていた。近年ではDNNが利用され始めているが、最新の手法であるCEILNetでは低レベルなセマンティクスのみを考慮しているため、十分な精度が出ていなかった。そこで提案手法は高レベルなセマンティクスを考慮することで非常に高品質な分離が可能となった。DNNを学習するにあたって、データセットを構築し、またSoTAの精度を実現した。

手法・新規性

提案手法におけるネットワークの損失はFeature Loss、Adversarial Loss、Exclusion Lossの３つからなる。Feature Lossは提案ネットワークによって分離した画像と正解画像を深い部分における特徴量の差であり、Adversarial LossはCGANを適用しておいリアルな分離を実現するように学習し、Exclusion Lossは基本的に透過部と反射部は１つのエッジを共有しないという観察を元に勾配空間で透過部と反射部をよりはっきりと分けるように学習する。これらの損失を組み合わせたEnd-to-Endのネットワークを用いることでSoTAを実現した。

コメント・リンク集

論文

[#371]

2018.7.11 13:58:38

Attention-Aware Compositional Network for Person Re-identification

Jing Xu, Rui Zhao, Feng Zhu, Huaming Wang and Wanli Ouyang

CVPR2018

概要

Person Re-identificationにattentionを利用したAttention-Aware Compositional Network(AACN)を提案した。体の部位のocculusionや背景の影響を軽減するために、体のどの部分に注目すればいいかを考慮することで精度の向上を計る。 AACNは、Attentionを得るPose-guided Part Attention(PPA)と特徴を得るAttention-aware Feature Composition(AFC)の2つにより構築される。 PPAは、入力画像からnon-rigid part(腕など)、rigid part(頭など)、key pointの3つの観点からattentionを推定する。 AFCは、PPAにより得られたattentionを考慮した対象人物の特徴量を抽出する。

Item3Image

新規性・結果・なぜ通ったか？

従来の姿勢情報を用いた手法は注目領域に背景などを含んでしまったのに対し、より詳細なattentionを得ることを可能とした。これにより、従来手法と比べあらゆるPerson Re-identificationのデータセットにおいて精度の向上を確認した。

コメント・リンク集

この論文に限らずattentionを用いる論文をよく見る気がする

論文

[#372]

2018.7.11 00:47:05

Weakly Supervised Instance Segmentation using Class Peak Response

Yanzhao Zhou, Yi Zhu, Qixiang Ye, Qiang Qiu, Jianbin Jiao

CVPR2018, arXive:1804.00880

399

Hiroshi Fukui

概要

弱教師あり学習に畳み込み層のレスポンスを使ってセグメンテーションを行う手法であるPeak Response Map(PRM)を提案．手法としては，Class Response Mapという各クラスの特徴マップ(Class Activation Mappingのクラス数枚の特徴マップと同意？)からピークを算出し，そのピーク周辺の勾配を各特徴マップから抽出する事でPeak Response Mapを求める．そして，このピーク等を用いる事でセグメンテーションを行う．Pascal VOCとCOCOにおいて高い性能を達成している．

新規性・結果・なぜ通ったか？

特徴マップにおける特定のピークと勾配情報を用いる事で，セグメンテーションを可能にしている．また，弱教師あり学習(セグメンテーションラベルなし)によりセマンティックとインスタンスセグメンテーションをラベルなしに認識できるため，評価が高い．

コメント・リンク集

[#373]

2018.7.10 17:23:41

V2V-PoseNet: Voxel-to-Voxel Prediction Network for Accurate 3D Hand and Human Pose Estimation from a Single Depth Map

Moon, Gyeongsik, Ju Yong Chang, and Kyoung Mu Lee

CVPR2018

概要

Depthマップから手の３次元key pointを検出する手法を提案した。従来手法はdepthマップを２次元画像として扱っているため、2次元への射影時にdistorionが生じる、２次元から３次元への推定は非線形 mappingであるという問題があった。そこで３次元のボクセルデータから、各ボクセルが３次元のkey pointである確率を推定するV2V-PoseNetを提案した。２次元のDepthマップをボクセル化することで、V2V-PoseNetによってkey pointを推定する。

Item3Image

新規性・結果・なぜ通ったか？

直接key pointの座標を求める手法と比べ、ボクセル毎の確立を求めることで精度が向上した。具体的には、正解値との誤差、mAPの2つの尺度において従来手法よりも数値的に向上したことを確認した。

コメント・リンク集

github

[#374]

2018.7.10 14:00:42

Image Collection Pop-up: 3D Reconstruction and Clustering of Rigid and Non-Rigid Categories

A. Agudo, M. Pijoan, F. Moreno-Noguer

CVPR2018

Ryota Suzuki

概要

部分的に2Dアノテーションされた複数インスタンスの画像データセットにおいて，3D形状，カメラ姿勢，物体，変形のタイプのクラスタリングを同時に行う．また，不明瞭(indistinctly)に剛体・非剛体カテゴリ分類を行う．これは，クラスタが事前知識であるような既存手法の拡張となる．

物体変形のモデリングを行う．小さい領域の動きを，複雑な変形へと橋渡しできるように，サブスペーススの複数ユニオンに基づく定式化を行う．このモデルのパラメータは拡張ラグランジュマルチプライヤーで学習する．完全に教師無しで行え，学習データが不要である．

新規性・結果・なぜ通ったか？

剛体，非剛体カテゴリ，小さい・大きい変形を含む合成データ，実データセットで検証し，3D復元においてSoTA．

コメント・リンク集

※拡張ラグランジュ関数は条件を満たすと真凸関数．

論文

[#375]

2018.7.10 12:22:13

NeuralNetwork-Viterbi: A Framework for Weakly Supervised Video Learning

A. Richard, H. Kuehne, A. Iqbal and J. Gall

CVPR2018

Ryota Suzuki

概要

弱教師付き動画学習に，ビタビ復号を組み込んでみた話．タスクはアクションセグメンテーション．用意するのは動画とそのアクションラベルだけ．

動画がネットワークに入力され，その出力された確率分布に対しビタビ復号を実行する．すると，フレームラベルがビタビ復号で生成される．そして，勾配計算時にフレームワイズのクロスエントロピー計算を行い，逆伝播する．

明示的なコンテキスト・長さのモデリングが，これがビデオセグメンテーション・ラベリングタスクの改善に大きく作用することも示す．

新規性・結果・なぜ通ったか？

アクションセグメンテーションでSoTA．

コメント・リンク集

勉強していないと知らなそうなアルゴリズムの導入．だいぶ込み入った話をしに行かないと論文が通らなくなってきた？

論文

[#376]

2018.7.10 11:10:38

Eliminating Background-bias for Robust Person Re-identification

M. Tian, S. Yi, H. Li, S. Li, X. Zhang, J. Shi, J. Yan and X. Wang

CVPR2018

Ryota Suzuki

概要

人物再同定の話．人の領域で丁寧にバウンディングボックスを切ったとしても，やはり背景は映り込んでいて，背景バイアスは免れない．この事実を，以前作成した人領域をピクセルレベルでセグメンテーションして作ったデータセットで検証した．

そして，背景バイアス問題を解決すべく，3つのパーツに分ける人パージングマップに基づき，人領域をガイドとしたプーリングを行うDNNを構成．

また，人画像とランダム背景を合成するという，トレーニングデータのオーギュメンテーション手法も提案．背景画像は監視カメラ映像のフレームから100枚選び，対象の人画像と同じ大きさの背景画像をランダムにオンラインでクロップし，人画像とマージ．

新規性・結果・なぜ通ったか？

背景バイアスに関する調査と，それを低減できる人物再同定DNNの提案．

コメント・リンク集

人領域を自分たちで色塗りしたデータセットを作る力業ができるSensetime x CUHK．

Action recognition without humanは引用してくれなかった．

[#377]

2018.7.10 10:57:36

Weakly Supervised Facial Action Unit Recognition Through Adversarial Training

Guozhu Peng, Shangfei Wang

CVPR 2018

概要

顔表情の基本構成であるアクションユニット（AU; Action Unit）を弱教師により敵対的学習する論文である。最初に擬似ラベルによりAUを推定し、敵対的学習の枠組みにより高精度にAUを認識できるようにしていく。敵対的学習はAUの認識を行うRと、AUラベルかどうかを見分けるDから構成される（つまり認識した擬似ラベルが本物のラベルかどうか見間違うように学習を進めていく）。

180709WeaklySupervisedFacialActionUnit

新規性・結果・なぜ通ったか？

ラベルづけが困難なタスクである顔表情のアクションユニットに対して効果的なアルゴリズムを提案し、弱教師付き学習ができるようにした。GANの枠組みを改良し、擬似ラベルを正解として十分にするよう学習できたことが大きな貢献である。

コメント・リンク集

擬似ラベルでも使用可能なレベルに持っていく学習はSelf-Supervised Learningでも使われているし、最初は粗いラベルでも徐々に意味のある教師になっていく様子が確認できる。アイディアは世界で同時多発的に思いついて実装が行われるので、思いついたらすぐにやらないといけない。

論文

[#378]

2018.7.9 12:40:17

A Causal And-Or Graph Model for Visibility Fluent Reasoning in Tracking Interacting Objects

Yuanlu Xu, Lei Qin, Xiaobai Liu, Jianwen Xie, Song-Chun Zhu

CVPR 2018

概要

与えられた人物トラッキングやアピアランス情報から人物/物体間のインタラクション認識（ここではVisibility Fluent Reasoningと呼ばれている）を行う。ここで、通常人物や物体のトラッキングは欠損を含むことが多く、途切れ途切れになっている状態からでも認識ができるようにCausal And-Or Graph（C-AOG）を適用して対応関係を学ぶようにする。

180709VisibilityFluentReasoning

新規性・結果・なぜ通ったか？

C-AOGを用いて時間軸に伴うイベントの変化を理解することに成功、物体トラッキングと変化の理由づけを同時に行なっている。オクルージョン時の対応（トラッキングが一部できなくなっている）が行われたデータセットも公開し、より複雑かつ情報の欠損を含む環境においてもFluent Reasoningができるようにした。

コメント・リンク集

「ビジョンの認識精度は完璧ではない」という前提でより上位のタスクを完結するデータは今後さらに重要！査読に対する理解（完璧でないなら減点するといったことをなくす）も広がってほしい。

論文

[#379]

2018.7.9 11:33:11

Facial Expression Recognition by De-Expression Residue Learning

Huiyuan Yang, Umur Ciftci, Lijun Yin

CVPR 2018

概要

顔表情認識を行うために、De-expression（Happy=>Neutralのように顔表情を打ち消す）を学習することにより特徴表現能力を向上させる。De-expression Residue Learning（DeRL）とよばれる、生成的/識別的な誤差計算を同時に学習可能な枠組みを提案（右図）。DeRLではまずConditional GANによりある表情の顔を無表情の顔に生成するモデルを構築。従来ではピクセルレベル/特徴レベルの違いを見分けていたが、本論文では生成モデルにおける中間層レベルの違いを見分けることにより高精度な表情認識モデルが出来上がる。このうち、Encoder/Decorderの2,3,4,5層、最終識別結果においても誤差を計算。

180709DeexpressionResidueLearning

新規性・結果・なぜ通ったか？

顔表情認識に関して、表情を打ち消すための識別/生成的モデルから誤差を計算するDe-expression Residue Learning（DeRL）により学習を行なった。BU-4DFE/BP4D-spontaneousと2つのデータセットにより事前学習を行い、CK+/Oulu-CASIA/MMI/BU-3DFE/BP4D+にてテストを行なった結果、従来法を超える顔表情認識精度を達成した。

コメント・リンク集

生成的に顔表情を打ち消す（教師なし）学習が有効とは発想勝ちである。また、それでうまくいく実装力も評価できる。

論文

[#380]

2018.7.9 09:52:16

3D Human Sensing, Action and Emotion Recognition in Robot Assisted Therapy of Children With Autism

Elisabeta Marinoiu, Mihai Zanfir, Vlad Olaru, Cristian Sminchisescu

CVPR 2018

概要

児童心理ケアのシーンにおいて3D次元姿勢推定、行動認識、感情推定を実施した。長期の動画撮影、多様な行動、部分的にしか身体が映っていない、児童の年齢が異なる、などの課題があるが、このような環境にて上記タスクを行なった。詳細行動/感情認識（fine-grained action, emotion recognition）を行うために3,700動画を撮影（各動画は10-15分の長さを保有）、37人の児童から19の頻出行動を分類。

180709PoseActionEmotion

新規性・結果・なぜ通ったか？

提案手法は姿勢推定においてKinectとcompetitiveな精度を実現するとともに、行動認識や感情推定では良好な精度を実現、Child-Robot Interactionに関する新しいタスクを定義した。

コメント・リンク集

Child-Robot Interaction、新しいタスクである。大人とは異なり、子供の行動/感情は年齢により大きく異なりそうである。

[#381]

2018.7.9 09:07:24

Monocular 3D Pose and Shape Estimation of Multiple People in Natural Scenes - The Importance of Multiple Scene Constraints

Andrei Zanfir, Elisabeta Marinoiu, Cristian Sminchisescu

CVPR 2018

概要

Deep Multi-task Neural Networksにより複数人物の3次元姿勢+形状を推定する。直接的に画像のアピアランスから人物姿勢を推定するのみならず、環境の拘束条件や推定された関節情報からコンセンサスを取るように文脈を把握しながら（2次元や）3次元の姿勢+形状を決定していく。ビデオに拡張することも可能で、さらに自然環境下における高精度な人物姿勢推定も実行した。右図は処理フローを示す。初期段階では単一人物の姿勢推定と推定結果のフィードバックを行い、次に複数人物同時最適化を行い、最終的な複数人物の3次元姿勢とその形状を取得する。

180709Mono3DPoseShapeEstimation

新規性・結果・なぜ通ったか？

高精度に複数人物の3次元姿勢を推定するとともにその形状も復元可能にした点が貢献点である。さらに、モデルにおいても単一人物/複数人物/環境に関する拘束条件など文脈を把握することにより3次元姿勢や形状を推定した点にも新規性が認められた。

コメント・リンク集

単眼カメラからのモーキャプまでもう少し？

論文

[#382]

2018.7.9 08:46:45

Inferring Semantic Layout for Hierarchical Text-to-Image Synthesis

Seunghoon Hong, Dingdong Yang, Jongwook Choi, Honglak Lee

CVPR2018

概要

テキストからの画像生成において、テキストから画像への写像を直接学習するのではなく、layout generatorよりtextから中間表現としてsemantic layoutを生成するステップと、image generatorによりそれを画像へ変換するステップに分解して画像を生成する枠組みを提案。

Inferring_Semantic_Layout_for_Hierarchical_Text-to-Image_Synthesis_1.PNG

新規性・結果・なぜ通ったか？

意味のある画像をsemantic layoutに基づき生成する点だけでなく、生成画像のアノテーションも自動で行われている点と生成されたsemantic layoutを修正することによるユーザーがコントロールできる生成も可能にしている点が新しく有用である。StackGANのような鳥や花といった特定対象ではなく、より複雑な一般シーンを想定し、Fine-grained semantic layoutが必要であるという問題設定が良い。

コメント・リンク集

評価の際に、生成された画像のcaptionを生成し、元の文章との類似度を比較しており、納得できる生成モデルの評価をしていた。StackGANでは行われていなかった気がするが、こういった評価は普通？また画像生成等の中間表現としてSemantic layoutを利用する研究が増えてきた。それゆえ物体の形状とインスタンス情報(この研究で言うところのBox generatorとshape generator)をよりスマートに取得または統合できればと感じる。

paper

[#383]

2018.7.9 06:58:04

Referring Image Segmentation via Recurrent Refinement Networks

Ruiyu Li, Kaican Li, Yi-Chun Kuo, Michelle Shu, Xiaojuan Qi, Xiaoyong Shen, Jiaya Jia

CVPR2018

概要

自然言語に基づいてsegmentationするタスク(referring image segmentation)においてmulti-scaleなsemantic情報を取得するRecurrent Refinement Network(RRN)を提案。これは入力にPyramid特徴からの得られる情報を適応的に組み込み、segmentation maskを洗練する。実験では、ReferIt、UNC、UNC+、G-RefのデータセットでベースラインとSoTAより性能が優れていることを確認。

Referring_Image_Segmentation_via_Recurrent_Refinement_Networks.PNG

新規性・結果・なぜ通ったか？

Referring image segementationへmulti-scaleなsemantic情報を含むpyramid特徴を適用し、単純に利用するのではなく、ConvLSTMにより洗練化している点が新しい。そして4つのデータセットでSoTAの性能を達成。包括的な実験により、RRNの有効性を示している。

コメント・リンク集

ここでもPyramid特徴が利用され、有効性が示されている。Referring image segmentationにおいて、ConvLSTMにおいてtanhを利用すると大幅な精度改善がみられるのが不思議である。個人的な意見として、maskの生成のためのRefinementに再帰構造を利用するのは自然であり、加えて本論文の結果よりLSTMには、multi-scaleの特徴を適応的に追加・削除する機能があり、これがsegmentation maskに良い影響を与えている点がわかる。興味深い。

[#384]

2018.7.9 06:00:21

DenseASPP for Semantic Segmentation in Street Scenes

Maoke Yang, Kun Yu, Chi Zhang, Zhiwei Li, Kuiyuan Yang

CVPR2018

概要

自動走行のシーンで現れる物体はスケールの変動が大きく、multi-scaleな情報を適切にEncodeする必要がある。multi-scaleなsemantic情報を抽出するために、複数rateのAtrous ConvolutionによるAtrous Spatial Pyramid Pooling(ASPP)が提案されているが、このような自動走行のシーンではまだ十分ではない。そこで、よりスケールの変動に対応するために、Densely connected Atrous Spatial Pyramid Pooling(DenseASPP)を提案。

DenseASPP_for_Semantic_Segmentation_in_Street_Scenes.PNG

新規性・結果・なぜ通ったか？

ASPPのように、Dilation rateを上げると画素のsampling間隔が広がる。これは大きいストライドのconvolutionのようなもので、大きなrateのatrous convolutionは受容野を広げるが、その分情報の欠落が起こる(低密度化)。この問題を解決すべくStackしかつ密な結合をしたDenseASPPにより高密度化し、異なるdilation rateのlayerの多様なアンサンブルを可能とすることで、ASPPよりも多くのスケールを持つ特徴マップを効果的に得ることができる。これが新しい。

コメント・リンク集

Dense結合 + Pyramid特徴の単純な構造に思えるが、ASPPでのAtrous Convolutionの隙間に着目し、これを効果的に高密度化していることがおもしろい。semantic segmentationにおいて大小様々なスケールの変動への対応策は、最終段へ伝播できるパスが存在するかが重要？これって結局multi-scaleなpyramid特徴？

[#385]

2018.7.9 05:52:39

On the Importance of Label Quality for Semantic Segmentation

Aleksandar Zlateski, Ronnachai Jaroensri, Prafull Sharma, Frédo Durand

CVPR2018

概要

この論文ではcityscapeライクなcoarseラベルでの性能を人工データを使って、Semantic Segmentationでのラベルの品質とCNNの性能との関係を調査した研究。これにより、人間の労力を最小化しつつ、coarseラベルを作るべき時間を提案することができる。ラベル品質とあるが、domain adaptation等の手法によるラベル生成の品質検証というわけではなく、人間の労力は前提で、その上でのcoarseラベルの品質と性能を検証している。

On_the_Importance_of_Label_Quality_for_Semantic_Segmentation.PNG

新規性・結果・なぜ通ったか？

結果から、CNNの性能は人間のアノテーションコストに依存することがわかった。これつまり、大きなcoarseアノテーションデータセットは、小さなfineアノテーションデータセットの性能と同等で、coarseラベルでpretrainし、少ないfineアノテーションデータセットでfine-tuneした場合、大きなfineデータセットで学習した性能に匹敵またはそれ以上の性能を得ることができる可能性があることを示している。また様々なネットワーク構造や都市の様々なオブジェクトに対しても有効であることを証明。

ここではcoarseラベルを対象としていたが、ミスラベルの場合は？、汎化との関係は？、stuffクラスは？と異なる対象でさらなる検証がほしいと思わせる研究。これらについて検証した研究がもうすでにあったりする？

paper

[#386]

2018.7.9 05:43:49

A Memory Network Approach for Story-based Temporal Summarization of 360° Videos

Sangho Lee, Jinyoung Sung, Youngjae Yu, Gunhee Kim

CVPR2018, arXive:1805.02838

170

Hiroshi Fukui

概要

360°カメラの動画を用いたビデオ要約を，Memory NetworkをベースとしたPast-Future Memory Networkにより実現した研究．はじめに，入力の360°の動画から81個の領域(normal field of view)を，RankNetベースの手法を用いて切り出す．候補領域は，MemoryNetのMemoryへと記憶される． PFMNでは，これらの候補領域を過去と将来という形でMemoryに記憶しており，時刻tで最もスコアが高い記憶が過去のMemoryに残される．印象の強い候補領域を残しつつMemoryをアップデートしていくことで，高性能なビデオ要約が可能となる．

新規性・結果・なぜ通ったか？

この手法では，対象を360°カメラの動画としており，広大な情報量から効率的に印象的なシーンをMemory Networkを活用することで，高性能な成果を出している．Memory Networkをこのような問題設定に応用した事例はこの手法が初めてであり，この点が高い新規性となっている．また，このタスクを評価する指標として，新たなデータセット360◦ video summarization datasetを提案している．

コメント・リンク集

[#387]

2018.7.9 02:14:01

BlockDrop: Dynamic Inference Paths in Residual Networks

Zuxuan Wu, Tushar Nagarajan, Abhishek Kumar, Steven Rennie, Larry S. Davis, Kristen Grauman, Rogerio Feris

CVPR2018, arXive:1711.08393

1213

Hiroshi Fukui

概要

強化学習を使い，推論時のResNetの不必要な層(ブロック)を取り除いて計算コストを削減するBlockDropを提案．この研究では，ResNetが特定の層を取り除いた際に性能があまり低下しない能力を利用しており，どのブロックを落とせるかをPolicy Networkにより判定させている．報酬の設計では，画像認識時により少ないブロックで認識が成功できるほど報酬が高くなるように設計されている． BlockDropにより，ImageNetにおいてtop-1の性能を76%を保ちつつ，平均で20%の高速化(一部では36%高速化)を実現している．

新規性・結果・なぜ通ったか？

推論時のネットワーク構造を強化学習により最適化させる手法．強化学習によりネットワーク構造を削減する手法はあまり提案されていないため，新規性が高く評価されたと思われる．また，BlockDropでは速度を改善するだけでなく，場合によっては若干性能を向上させる事が可能である事を示している(CIFAR, ImageNetで検証)．

コメント・リンク集

強化学習の新しい使い方で非常に面白い手法．今後，改善や応用が期待できそう．

[#388]

2018.7.9 02:18:31

CondenseNet: An Efficient DenseNet using Learned Group Convolutions

Gao Huang, Shichen Liu, Laurens van der Maaten, Kilian Q. Weinberger

CVPR2018, arXive:1711.09224

350

Hiroshi Fukui

概要

DenseNetをベースにコンパクトなネットワークを構築するCondenseNetを提案．このCondenseNetは，学習中は更新回数が増えるに連れて畳み込む特徴マップを減らしていく．そして，推論時は疎になった畳み込み層の特徴マップを入れ替え，Group Convolutionする．これにより，畳み込みに対する処理時間を大幅に削減する事が可能であり，推定時の計算コストを大幅に削減する事ができる．

新規性・結果・なぜ通ったか？

コンパクトなネットワークを構築するために，学習では畳み込みをスパースにする処理を導入し，推論時には特定の特徴マップを畳み込むようにGroup Convolutionを導入している．このような畳み込みの最適化方法は提案されていないため，新規性として高い．また，DenseNetの構造も改良しており，複数種類のプーリングを使用する等の改良も導入している．同会議で提案されているShuffleNetよりコンパクトにする事ができる．

コメント・リンク集

[#389]

2018.7.9 02:23:06

Cube Padding for Weakly-Supervised Saliency Prediction in 360° Videos

Hsien-Tzu Cheng, Chun-Hung Chao, Jin-Dong Dong, Hao-Kai Wen, Tyng-Luh Liu, Min Sun

CVPR2018, arXive:1806.01320v1

171

Hiroshi Fukui

概要

360°カメラの動画から弱教師あり学習でSailency mapを効率的に求める方法を提案．方法として，360°のシーンを6つのパネルに分割し，チャンネル方向に結合する事で，ネットワークに入力する．ここで，シーンをパネルに分割する際にCube Paddingという方法を提案しており，特定パネルの周囲のパネルの一部を，その特定パネルの両端に結合させる．これにより，パネル間の関連性をネットワークに学習させる事が可能である．また，360°シーンのデータセットを新たに提案している．

新規性・結果・なぜ通ったか？

提案しているCube Paddingという広大なシーンに特化した入力方法は，解像度が高い場合においても処理速度の低下を抑制する事が可能である．また，パネルを分割する際にCube Paddingを導入する事で，パネル間の境界に対してロバストにする事ができる．今回のタスクに対して新しいデータセット”Wide-360° Dataset”を提案している点も，評価が高い．

コメント・リンク集

新たな問題設定にチャレンジした研究．そして，結果の見せ方が凄く良い．(特にオフィシャルページの360°のYouTubeを使った動画デモ)

[#390]

2018.7.9 02:08:03

Finding beans in burgers: Deep semantic-visual embedding with localization

Martin Engilberge, Louis Chevallier, Patrick Pérez, Matthieu Cord

CVPR2018, arXive:1804.01720

522

Hiroshi Fukui

概要

マルチモーダルに任意の領域を高精度にローカライズする研究．この研究では画像 & テキストを対象としており，右図のように入力されたテキストに適合した領域をヒートマップで推定している．画像特徴とテキスト特徴を同一空間に落とし込んでネットワークを学習する．そして，認識時にテキストの特徴ベクトルと画像の特徴マップを使ってヒートマップを出力する．

新規性・結果・なぜ通ったか？

方法としては，画像と単語からResNetとRNNを用いて特徴マップ / 特徴ベクトルを抽出し，同一特徴空間にembeddingさせる．学習では，画像とテキストの特徴からTriplet Ranking Lossを用いて学習させる．ヒートマップは，画像の特徴マップと文章の特徴ベクトルの掛け合わせから求めることができる．このローカライゼーションは，非常に高い性能を達成している．また，Zero-shot Learningにも応用できる．

コメント・リンク集

論文リンク

[#391]

2018.5.20 19:39:22

Learning Answer Embeddings for Visual Question Answering

Hexiang Hu, Wei-Lun Chao and Fei Sha

CVPR2018

概要

VQAの質問と画像、答えそれぞれを表現するembeddingを学習する手法を提案。従来のVQAは、任意の文章を答えとして出すものと用意された選択肢の中から選択するものの２種類に分けることができる。前者は答えが合っているか否かは主観的なものである、後者は選択肢に含まれない答えを出力できない、runningとjoggingのように似ている単語の区別が難しいといった問題がある。そこで質問と画像のペア、答えそれぞれを表現するベクトルを学習することで答え同士の類似度の定義や未知の答えへの対応を可能にする。具体的には、それぞれのベクトルを用いた確率モデルを構築し、最尤推定を行う。

Item3Image

新規性・結果・なぜ通ったか？

従来手法では学習の際に設定した答えのみしか出力できず、異なるデータセットに適用することが不可能であったが、提案手法により異なるデータセットなどデータセットに含まれていない答えにも適用可能となった。

コメント・リンク集

論文

[#392]

2018.7.9 00:41:29

Structure Inference Net: Object Detection Using Scene-Level Context and Instance-Level Relationships

Yong Liu, Ruiping Wang, Shiguang Shan and Xilin Chen

CVPR2018

876

概要

画像のシーンコンテキストと，物体の関係の2種類のコンテキストを用いて物体検出を行うアルゴリズムを提案．物体検出をグラフ構造の推論問題として扱い，物体をノード，物体間の関係をエッジとしてモデル化する．これを実現するために，Faster R-CNNのような物体検出フレームワークに組み込む構造推論ネットワーク（Structure Inference Network；SIN）を設計した．SINは，特徴マップとしてプールされたRoIをノードとしてFC層にマッピングする．同様に画像全体の特徴をシーンとして抽出し，RoIを連結してエッジとする．グラフは反復的に更新され，最終状態は物体クラス予測の精度向上に貢献する．

新規性・結果・なぜ通ったか？

物体検出の精度向上のためにコンテキスト（周辺環境，物体の位置関係など）の理解が重要となる．コンテキストをグラフ構造で表して推論する斬新な手法である．VOCとCOCOで評価を行い，一部のクラスはFaster R-CNNよりも高性能であり，全体では76.0mAP（VOC07），73.1mAP（VOC12）とFaster R-CNN（73.2，70.4）よりも高性能であることを示した．

コメント・リンク集

グラフ構造で物体検出を扱うものはいくつかあるが，エッジの情報と周辺環境のコンテキストも考慮したものは新しい．コンテキストを考慮した物体検出は，未知の物体を検出するためにも重要な要素となり得る？

論文

[#393]

2018.7.8 11:15:43

Deep Ordinal Regression Network for Monocular Depth Estimation

Huan Fu, Mingming Gong, Chaohui Wang, Kayhan Batmanghelich and Dacheng Tao

CVPR2018

231

概要

DCNNを用いてdepth画像を推定するとき，depthを離散化して順序回帰問題として解くdeep ordinal regression network（DORN）を提案．Depthの離散化にはspacing-increasing discretization（SID）を導入した．SIDを用いてログスケールで離散化することで，遠い領域のdepth画像を粗く，手前の領域のdepth画像を細かく離散化してロスの減少に貢献する．ネットワークの構成は高解像度な特徴抽出部，マルチスケール特徴学習器（ASPP），フル画像エンコーダおよび順序回帰optimizerからなる．計算コストを削減するために，skip connectionではなくシンプルな構成を採用した．

新規性・結果・なぜ通ったか？

DCNNを用いた高解像度なdepth画像推定は，通常skip connectionや複数のdeconv層が必要だったが，この問題を解決または低減した．KITTI，Make3D，NYU Depth v2などのベンチマークで他の手法を大きく上回りSOTAを達成した．

コメント・リンク集

単純なログスケールでの離散化だけでなく，depth値の出現頻度を考慮した離散化を行えばより高精度化できそう．

論文

[#394]

2018.7.8 07:43:29

Translating and Segmenting Multimodal Medical Volumes with Cycle- and Shape-Consistency Generative Adversarial Network

Zizhao Zhang, Lin Yang, Yefeng Zheng

CVPR 2018

Takahiro Itazuri

概要

医療画像処理ではCTやMRIなどの異なった種類のデータが存在する。医療の現場において、CTとMRIはどちらも必要となる場面がある一方で、どちらか一方しかデータが存在しないことも多々発生している。そこで本論文では、CTとMRIという3D画像データ間のドメイン変換を行うタスクに取り組んだ。またCTとMRIのそれぞれからセグメンテーションを行うネットワークも学習させた。

新規性・結果・なぜ通ったか？

2D画像におけるImage-to-Image Translationに対応する、医療3D画像におけるVolume-to-Volume Translationに対して以下の点に取り組んだ。

画像ペアがないデータセットにおける学習を行った点
解剖学的構造に矛盾が出ないようにした点
合成画像を利用して、セグメンテーションの精度を向上させた点

コメント・リンク集

論文

[#395]

2018.7.6 18:22:51

“Learning-Compression” Algorithms for Neural Net Pruning

Miguel et al.

CVPR 2018

概要

Pruningを最適化問題として定式化し、交互最適化によって解くLC algorithmの提案。定式化としては0をとらないパラメータ数に対して制約を設けて解くConstrain formとそれを罰則項として損失関数に組み込むPenalty formの二つを提案。メジャーなPruning手法であるパラメータのmagnitudeの小さいものをナイーブにzeroingしていくものよりも、良い結果となった。提案する2つのformに関してはConstrain formの方が良かった。

Learning_Compression_Algorithms_for_Neural_Net_Pruning.png

詳細

補助パラメータのPruningを行うCompression(C) Stepと本パラメータを補助パラメータに近づけつつ本タスク（識別・回帰など）を学習するLearning Stepからなる。C Stepでは（制約 or 罰則項として） Lp正則をかけながら本パラメータとのMSEを最小化するような補助パラメータを探索する。L Stepでは損失関数における補助パラメータとのMSE項の係数を学習の進行に応じて大きくすることで（μ→∞）、最終的な解がスパースなものに近づく。また、Constrain formでは超パラメータ一つでNN全体において最適化できる。手法の新規性・妥当性が大きく評価されたと考えられる。

コメント・リンク集

magnitudeベースのものは「 magnitude が小さいものは推定への寄与率が低い」という仮定のみでPruningしていくが、この手法ではその仮定をベースにしつつ(C step)、本タスクの性能を担保しながらPruningしていく(L step)点で理にかなっているように思え、面白い。計算効率をモチベーションにされることが多いPruning研究だが、枝刈りの割合によってはLasso回帰のように汎化性能が向上するような地点がないかもきになる。

論文

[#396]

DeLS-3D: Deep Localization and Segmentation with a 3D Semantic Map

Peng Wang, Ruigang Yang, Binbin Cao, Wei Xu, Yuanqing Lin

CVPR 2018

Yue Qiu

概要

GPS IMU，RGBビデオカメラ及び3Dセマンティックマップからカメラ姿勢・自己位置推定及びscene parsingを同時に行えるフレームワークの提案．
提案フレームワークの概要は:①GPS/IMU及びrenderredセマンティックマップから初期なカメラ姿勢を推定する．② renderredセマンティックマップとRGB画像をpose推定ネットワークに入力し，精密なカメラ姿勢を推定する．またRNNにより更に姿勢推定を精密化する．③推定した精密なカメラ姿勢で新たなセマンティックマップをrenderし， renderredマップとRGB画像を更にsegment CNNによりピクセルレベル精度のセマンティックマップを推定する．

DeLS-3D

新規性・結果・なぜ通ったか？

GPS IMU，RGBカメラ，3Ｄセマンティックマップのマルチセンサーの情報をDNNにより有効的かつロバストでに融合できる．
カメラ姿勢推定とScene parsingの2つのタスクを同時に行うことにより，各々で行える場合より良い精度を得られることを実験に通して示した．
gtカメラ姿勢，denseなセマンティックラベル付きのポイントクラウド及びピクセルレベル精度のビデオカメラ画像の室外運転用データセットを提案した(リアルデータ)．

コメント・リンク集

入力に3Dセマンティックマップがあるので，ある意味ではscene parsingに対して提案手法は入力画像を手掛かりにレンダリングされたセマンティックマップをマイナー修正だけ？
論文

[#397]

2018.7.6 16:26:27

Parallel Attention: A Unified Framework for Visual Object Discovery through Dialogs and Queries

Bohan Zhuang, Qi Wu, Chunhua Shen, Ian Reid, Anton Van den Hengel

CVPR 2018

Yue Qiu

概要

variable lengthな物体の言語descriptions (一つの単語からmulti-round会話まで)から正しく画像中に物体を参照できるネットワークPLANを提案した．
PLANネットワークは2種類のattentionを用いている:言語descriptionsのパーツと①画像のグローバルコンテンツ②画像の局所的領域ー物体candidatesを関連付けする．
recurrent attentionを用いて，異なる処理段階でのattentionを変更できる．更に， attentionを可視化することにより，システムが異なる処理段階で正しい物体領域をattentionしているかを確認できる．

parallel-attention

新規性・結果・なぜ通ったか？

言語入力が異なるRefCOCO,RefCOCO+,GuessWhat?!などのデータセットでSoTAな精度を達成．
LSTMとattentionを用いているので，referringプロセスをビジュアライズできて，ネットワークの解釈可能性も高い．
固定長ではなく長さが異なる言語入力(一つの単語からmulti-round会話まで)から正しく視覚attentionを得られる．

コメント・リンク集

LSTM+attentionもなかなか良さそう
論文

[#398]

2018.7.6 16:14:24

DS*: Tighter Lifting-Free Convex Relaxations for Quadratic Matching Problems

F. Bernard et al.,

CVPR 2018

Kensho Hara

概要

画像間で対応関係を探すなどのマッチング問題の最適化を解くための新たな手法を提案．二次計画問題として定式化された問題を効率的に解くための凸緩和手法．提案手法はScalableでデータ数が増えても計算時間があまり増えないことに加えて， Tightな解を求めることが可能．

新規性・結果・なぜ通ったか？

ScalableかつTightな解を求められるアルゴリズムを提案

コメント・リンク集

論文
中身全然理解できてないです...

[#399]

2018.7.6 12:29:32

Robust Video Content Alignment and Compensation for Rain Removal in a CNN Framework

J. Chen, C. Tan, J. Hou, L. Chau and H. Li

CVPR2018

Ryota Suzuki

概要

動画像において，土砂降り的なはっきり見えている雨を除去する．高速に動くカメラの動きにも頑健．

スーパーピクセルセグメンテーションをし，デプスを含むユニットに分解．シーンコンテンツの位置合わせをスーパーピクセルレベルで実行する．雨の線の場所や遮蔽された背景コンテンツに関する情報を抽出し，雨除去の中間出力を得る．さらに，そこで使った情報を更にCNNの入力特徴として使い，高周波成分の復元に使う．

新規性・結果・なぜ通ったか？

土砂降り雨を合成した車載カメラ画像データに適用し，PSNRが改善，見た目もよくなった．

コメント・リンク集

合成データでしか評価してないのが気になる．

論文

[#400]

2018.7.6 12:10:22

Self-calibrating Polarising Radiometric Calibration

D.T. Guangwei, B. Shi, Y. Zheng, S. Yeung

CVPR2018

Ryota Suzuki

概要

偏光放射特性のセルフキャリブレーション手法の提案．これまでには，カメラ応答だけ求めるものはあったが，本研究では，未知のカメラ応答及び未知の偏光角を同時に復元する．

応答が線形とした場合，偏光フィルタを回転すれば偏光強度の変化は正弦波になるはずではる．この事実を使って，統合的に最適化を定式化する．

新規性・結果・なぜ通ったか？

カメラ応答を偏光情報を使って，放射特性と偏光特性の両方を統合的に最適化するというやり方で，自己キャリブレーションを実現したものは初．

コメント・リンク集

論文

[#401]

2018.7.6 11:16:24

Mining on Manifolds: Metric Learning without Labels

A. Iscen, G. Tolias, Y. Avrithis and O. Chum

CVPR2018

Ryota Suzuki

概要

教師なしマイニングの話．ハードポジティブ・ハードネガティブが分別しやすいマニフォールドにおける表現方法を考案．本手法によれば，正例たちは一つのマニフォールドに距離が離れて置かれ，負例たちは複数のマニフォールドに距離が近い形で置かれる．ユークリッド的な近さとマニフォールド的な近さの不一致性によって，両者を分別可能になる．

新規性・結果・なぜ通ったか？

学習済みネットワークの教師なしファインチューニングや，特定物体検索に適用させてみて，完全・部分教師ありと比較して性能超え．

コメント・リンク集

論文

[#402]

2018.7.6 10:41:24

Polarimetric Dense Monocular SLAM

L. Yang, F. Tan, A. Li, Z. Cui, Y. Furukawa and P. Tan

CVPR2018

Ryota Suzuki

概要

通常のカメラとは違い，偏光カメラ画像からは，鏡面反射してしまっているようなところでも，物体表面の法線角度が窺い知れたりするので，組み合わせることで良いDense SLAMができるようになると思われる．ところが，偏光情報からの法線角度推定は，特に境界付近でエラーが載りやすい．従来手法では事前にセグメンテーションマスクを生成しており，オフラインアルゴリズムであった．

本研究では，・方位ベースデプス伝播・2視点デプス一貫性チェック・デプス最適化の反復処理を完全自動化し，注意深くGPU実装できるように設計， SLAMに組み込んだところでリアルタイムに動くようにした．

新規性・結果・なぜ通ったか？

通常カメラ＋偏光カメラでのSLAMは初．

コメント・リンク集

論文

[#403]

2018.7.6 10:12:41

Left-Right Comparative Recurrent Model for Stereo Matching

Z. Jie, P. Wang, Y. Ling, B. Zhao, Y. Weio, J. Feng and W. Liu

CVPR2018

Ryota Suzuki

概要

左右一貫性チェックという，ステレオにおける視差情報を改善する手法がある．従来は，左右でのチェックはそれぞれ独立かつHand-Craftedであった．本稿では，これを結合的に行えるようなリカレントモデルを提案する．

両眼の視差結果から，オンラインにミスマッチ領域を判別していく．ここで，ソフトアテンション機構を導入する．学習したエラーマップを使い，次時間の処理において，信用できない領域に選択的に焦点を当てるという方法．これにより，視差結果を反復的に改善していく．

新規性・結果・なぜ通ったか？

3つのベンチマークでSoTA性能を達成．

コメント・リンク集

論文

[#404]

2018.7.5 11:32:39

Taskonomy: Disentangling Task Transfer Learning

Alexander Sax, William Shen, Amir Zamir, Jitendra Malik, Silvio Savarese, Leonidas J. Guibas

CVPR 2018

452

Yue Qiu

概要

CVPR2018のベストペーパー．視覚タスクの関連性に基づき高効率的に遷移学習を行えるtaskonomyの提案．
問題設定：CVの究極的目標の1つとしては全世界の視覚問題を解く．現状では，視覚タスクはほぼ各々にネットワーク，データセットを定義，学習を行っていた．しかし，作者達が視覚タスクの間に関連性が高いと指摘し，究極的視覚タスクを解ける目標に向かう一歩としては①視覚タスクの間の関連性を導く．②そういった関連性に基づき目標タスクに対しより遷移学習を行うことで，少ないデータで高効率的に学習をする．
概要：taskonomyを求めるのは主に2つのパーツから構成される．①タスクの関連性を量化し，その量化の結果はaffinity matrix.②目標タスクに対し，affinity matrixに基づき最適化を行い，効率的に遷移学習を行えるルートdirected graph(このグラフはtaskonomy)を求める.
①タスク関連性を表すaffinity matrixを求めるプロセス：目標タスクグループをT，0から学習できる開始タスクグループをSと定義．ステップ１：Sタスクに対し，全部0から学習を行う．(全部encoder-decoderの構造)ステップ２：遷移学習を行う．「タスク間1次関連」s∈S, t∈T, tに対しsのencoderを使い，decoderを学習．（全部のs,tペアに対この学習を行う）「タスク間n次関連(n<=5)」1次関連の効果により，tに対し，効果上位n個のsのencoderのrepresentationを同時に用いてdecoderを学習．ステップ３：ステップ2の全部の遷移学習の最終ロスをベースにaffinity matrixを生成する. それぞれのタスクのロスは異なるロス関数を用いているため，線形的に遷移学習の効果を表せないために，Ordinal Normalizationをベースとした手法を用いてロスを関連度に表示した(この方法はAnalytic Hierachy Processを参考した)．最終的に求めたAffinity matrixの(i,j)の意味はあるタスクに対しタスクiから遷移学習の効果がどれくらいの確率でjタスクから遷移学習の効果より良い．
② affinity matrixを用いた効率的遷移学習：ある目標タスクｔに対し，最適遷移学習ルートを求めるプロセスは「affinity matrixに対し，subgraph selection問題であり，そのsubgraphのスタートはsで，終点は目標タスクｔ」．具体的には条件１あらかじめ定義した開始タスクｓの数を超えない；２タスクｓに対し，遷移学習の回数上限は1回;３遷移学習の開始及び目標タスクはsubgraphに含める．の3つの拘束条件の元Binary Interger Programmingを用いて最適化を行う．

taskonomy

新規性・結果・なぜ通ったか？

視覚タスクは各々でデータセット，方法を構築することから，視覚タスク間の関係を追究し，その関係を利用ことで，資源を有効的に利用できる．
3000＋ネットワークをトレーニング
～50,000GPU時間
120ｋ画像0から学習，16k画像遷移学習
400万枚画像，それぞれ26種類のタスクのアノテーション付き

コメント・リンク集

今のそれぞれのタスクで解決しようとする研究より一歩先に立っている
実行力とコストが想像できないくらい
論文
プロジェクト
task bank

[#405]

2018.7.6 10:37:53

Single-Image Depth Estimation Based on Fourier Domain Analysis

Jae-Han Lee, Minhyeok Heo, Kyung-Rae Kim and Chang-Su Kim

CVPR2018

概要

フーリエ周波数領域解析をベースとしたCNNを用いて，単一のRGB画像から距離画像を推定する手法を提案．CNNはResNet-152ベースで，depthbalanced Euclidean lossと呼ばれる損失関数を設計し，広範囲の距離画像を推定できるように学習する．次に，入力画像を複数のアスペクト比で切り取って複数のデプスマップ候補を生成する．アスペクト比の小さい画像は，局所的に信頼できるデプスマップを生成するが，アスペクト比の大きい画像は，大域的なデプスマップを生成する．これらをお互いに補完するために，デプスマップ候補を周波数領域で結合する．

新規性・結果・なぜ通ったか？

距離画像推定にフーリエ周波数領域解析を使った（作者の知る限りで）初めての論文である．NYUv2 depth datasetの画像280,000枚を学習し，654枚で評価を行った．fully convolutional residual networksを用いた最新の手法と同等またはそれ以上の性能を得ることができた．

コメント・リンク集

損失関数やフーリエ周波数領域解析がしっかり構築されており説得力のある論文である．

論文

[#406]

2018.7.5 14:32:07

FlipDial: A Generative Model for Two-Way Visual Dialogue

Daniela Massiceti, Siddharth Narayanaswamy, Puneet Kumar Dokania, Phil Torr

CVPR 2018

740

Yue Qiu

概要

画像及びキャプションからConditional VAEをベースとした視覚会話(継続的な質問・回答を両方とも生成)を生成できるモデルFLIPDIALを提案した．
従来の継続的な応答するタスクを1VDと継続的に応答及び質問両方行うタスクを2VDと定義し，構造的に変更を加え提案FLIPDIALが1VD，２VD 両方対応できる．
FLIPDIALの基本的な考えはCNNによりfull 会話をエンコードし，conditional VAEを用いて会話を生成する． 2VDタスクは画像・キャプション・会話履歴からlatent variableを通して答えをfull dialogueをモデリングし，予測したfull dialogueとgt dialogueのlatent空間においての類似性及び画像との関連性を元にロス関数を定義した．

FlipDial

新規性・結果・なぜ通ったか？

提案FLIPDIALが1VDタスクにおいてVisDialデータセットに対し従来のVisual Dialog手法より良い精度を達成し，新規な２VDタスクのbaselineを建てて，新たな評価指標なども提案した．
提案FLIPDIALが一つの質問に対し，多様な答えを生成できる．

コメント・リンク集

CNNによりfull 会話をエンコードする考えが大胆的
論文

[#407]

2018.7.5 11:59:41

VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection

Yin Zhou, Oncel Tuzel

CVPR 2018

575

Yue Qiu

概要

LiDARなどのセンサーにより得られるポイントクラウドから3次元検出を行うend-to-endなネットワーク構造VoxelNetの提案．
VoxelNetの全体構造はまずスパースなポイントクラウドから4Dテンサーで特徴を表し，それに対して空間コンテキスト情報を集合する層により処理を行った後，RPN構造により3Dバウンディングボクスの予測を行う．
提案したポイントクラウド情報抽出するの主なプロセスは①ポイントクラウドをスパース3Dボクセルに変換し②VFE(新規提案)層よりボクセル内のポイントワイズな特徴を集合し，更にVFE層をstackすることにより3D形状の複雑な特徴を抽出する

VoxelNet

新規性・結果・なぜ通ったか？

提案手法はスパースなポイントクラウドを直接処理できる．LiDARポイントクラウド処理の手法の中最も良い性能が得られる．
KITTIデータセットにおいてSoTA.車・人・自転車を高い精度の検出できる．

コメント・リンク集

LiDARセンサーから有効的かつ高スピードで識別や検出する研究がまたまた研究の余地があると感じている．
論文

[#408]

2018.7.5 11:52:56

Efficient Optimization for Rank-based Loss Functions

P. Mohapatra, M. Rolínek, C.V. Jawahar, V. Kolmogorov and M.P. Kumar

CVPR2018

Ryota Suzuki

概要

情報検索システムにおける精度は，平均精度（AP）や正規化減価累積利得（NDCG）のような複雑なランクベースロス関数で測られるが，このような関数の微分不可能性・分解不可能性は単純勾配最適化においては許されない．これの回避方法として，一般的には，構造化ヒンジロス上界の最適化をロス関数にする方法や，直接ロス最小化のような漸近的手法が使われる．それでも，loss-augmented inferenceの高い計算複雑性は残る．

本稿では，それを緩和する，新たなクイックソート・フレーバーな分割統治を導入したアルゴリズムを提案する．分解不可能ロス関数に適用可能である．

我々のアルゴリズムにも適用できるロス関数の特徴づけも提供する．これはAP，NDCGの両方を含む．更に，我々の手法の計算複雑性の上では，漸近的に比較ベースアルゴリズムでは改善できないことを証明する．

あらゆるCVのタスクでの学習モデルでのAP，NDCGの構造化ヒンジロス上界の最適化の文脈において，我々の手法の効果をデモンストレーションする．

新規性・結果・なぜ通ったか？

クイックソート的にランクを並べ替え・選択して，というのは面白いやり方に感じる．

コメント・リンク集

専門用語がわからないと読み下すのが難しいかもしれない．

論文

[#409]

2018.7.3 11:34:08

Deep Learning of Graph Matching

A. Zanfir, C. Sminchisescu

CVPR2018

Ryota Suzuki

概要

グラフマッチングをDeepで扱えるようにしたという，大変汎用的な論文．

グラフマッチングにおける全パラメータのEnd-to-End学習を可能にした．これは深層特徴抽出階層により表現される．

モデルの異なる行列計算レイヤの定式化が肝である模様．勾配の一貫性ある効率的な伝播を行えるようにする，マッチング問題を解くにあたっての組み合わせ最適化レイヤと，特徴抽出階層を通じた，ロス関数からの完全なパイプラインを提案している．

新規性・結果・なぜ通ったか？

グラフマッチングは，ノードとその間をつなぐエッジで構成されるグラフ（ノードの幾何学的位置は無意味）の等価性を検索するタスクで，コンピュータビジョンや機械学習のあらゆる方面で適用されるものである．これが深層学習で解けるようになれば，それは当然大きな進歩である．グラフマッチングを扱おうとする人の第一リファレンスになりえる論文と思われる．

キーポイント検出において試してみたところ，やはりSoTA性能．

コメント・リンク集

論文

[#410]

2018.7.3 10:27:30

CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes

Yuhong Li, Xiaofan Zhang, Deming Chen

CVPR 2018

概要

混雑状況認識やカウンティング、密度推定のためのネットワークCongested Scene Recognition Network (CSRNet)を提案し、データドリブンで学習する。畳み込みによる特徴抽出とDilated Convにより広範領域から特徴を評価する（ここにおいてプーリング層を置き換えると記述され、純粋に畳み込みそうのみで構成されている）。図はDilated ConvとPoolingの有無によるヒートマップの比較。

180704CSRNet

新規性・結果・なぜ通ったか？

データセットはShanghaiTech, UCF_CC_50, WorldEXPO'10, UCSDを用いて検証した。特にShanghaiTechデータセットではMean Absolute Error (MAE)が47.3%も下がった。

コメント・リンク集

[#411]

2018.7.4 08:54:53

Stacked Latent Attention for Multimodal Reasoning

Haoqi Fan, Jiatong Zhou

CVPR 2018

概要

アテンションモデルの改善を行い、VQAに適用する。現在のアテンションに関する弱点は（１）中間層では対応関係といった理由づけに関する情報を除去してしまう（２）StackedAttentionでは局所最適解に陥ってしまうことを挙げた。本論文ではこの問題を解決するため、明示的に中間的な理由づけに関する構造を加えたStacked Latent Attention Modelを提案。マルチモーダルのReasoningに有効であることがわかり、VQAにおいても効果的な手法となった。

180704StackedLatentAttentionModel

新規性・結果・なぜ通ったか？

構造をスタックしてより良好なアテンションにしていくモデルを構築した。空間的な理由づけ（Reasoning）を潜在的に行うモデルであり、マルチモーダルであるVQAや画像説明文にも効果的である。

コメント・リンク集

アテンションは論文数増加していて、各方面に広がってきた。

[#412]

2018.7.4 08:35:08

CarFusion: Combining Point Tracking and Part Detection for Dynamic 3D Reconstruction of Vehicles

N Dinesh Reddy, Minh Vo and Srinivasa G. Narasimhan

CVPR2018

221

概要

カメラキャリブレーションされていない複数の視点から車の3次元データをパーツ単位で再構成しトラッキングも行うパイプライン「CarFusion」を提案．強いオクルージョンがある場合でも移動車両の検出，localize，再構成を行うことができる．構造化された点（検出された車両のパーツ）と構造化されていない特徴点（Harrisのコーナー検出）を融合して車の正確な再構成と検出を行う．複数視点からの車の再構成にはCar centric RANSAC（cRANSAC）を提案している．通常のRANSACと比較して，左右対称を前提として車の形状を考慮したマッチングを行う．

新規性・結果・なぜ通ったか？

キャリブレーションされていない非同期のカメラからダイナミックに剛体を再構成するという，3D Vision分野で重要だが困難な研究を行った．In the wildでの高精度な検出としても新規性がある．cRANSACのみ用いた場合とCarFusion全体パイプラインを用いた場合で，トラッキングの誤差を4倍削減することができた．再構成時のキーポイント検出も従来手法より優れている．さらに，車の半分程度が隠れてしまう強いオクルージョンがある場合でも3D構成を検出することができた．

コメント・リンク集

車に特化した手法だが，いくつかの剛体に対しては似たアルゴリズムを用いることができそう．検証実験も詳細で一見の価値はある．

論文

[#413]

2018.7.3 22:58:23

Human Semantic Parsing for Person Re-Identification

Mahdi M. Kalayeh, Emrah Basaran, Muhittin Gökmen, Mustafa E. Kamasak, Mubarak Shah

CVPR 2018

概要

人物に関して、主に姿勢に関するパーツベースのセマンティック情報を導入することにより人物再同定（Person Re-identification）の精度を向上させる。提案のSPReIDはInception-v3やResNet-152をベースアーキテクチャにしていて、各種データセットに対して向上が見られた。

180703PersonSemanticReID

新規性・結果・なぜ通ったか？

各種データセットにて次の通り向上した。セマンティック情報を人物再同定に使うのは有効であることが判明した。Market-1501 (参考文献48) by ∼17% in mAP、∼6% in rank-1, CUHK03 (参考文献24) by ∼4% in rank-1、DukeMTMC-reID (参考文献50) by∼24% in mAP ∼10% in rank-1。

コメント・リンク集

セマンティック情報を使えば想像通りよくなるが、実際にデータセットに対してアノテーションしてCVPRに通す根性がすごい！見習おう。

論文

[#414]

2018.7.3 10:29:10

Monocular Relative Depth Perception With Web Stereo Data Supervision

Ke Xian, Chunhua Shen, Zhiguo Cao, Hao Lu, Yang Xiao, Ruibo Li, Zhenbo Luo

CVPR 2018

概要

Web画像により相対的なステレオ視に関するデータセットを作成した。RankingLossを改善した誤差関数によりデータセット内のステレオ視を学習、ペアリングが困難なものについての対応付けを行なった。作成したデータセットに対してState-of-the-artであるのみならず、他のピクセルベースの密な推定（距離推定、セマンティックセグメンテーション）についても有効性を示した。

180703RelativeDepthPerception

新規性・結果・なぜ通ったか？

Web画像により密なステレオ視を推定する枠組みを考案、Relative Depth from Web（ReDWeb）の概念を提唱。RankingLossの改善版によりペアリングが困難な対応付についても行った。DIW/NYUDv2データセットにて評価、State-of-the-artな性能を達成した。

コメント・リンク集

Web x StereoVisionという掛け合わせがよい。さらに、アノテーションの枠組みも参考になる。

[#415]

2018.7.3 01:52:59

Depth and Transient Imaging With Compressive SPAD Array Cameras

Qilin Sun, Xiong Dun, Yifan Peng, Wolfgang Heidrich

CVPR 2018

概要

イメージング技術において、Time-of-flight（ToF）やTransient Imagingに関する研究である。これらの技術は研究の関心に反して解像度が上がらず、低コスト化も進んでいない。本論文ではセンサの設計を変更し、Arrays of Single Photon Avalanche Diodes (SPADs)を改善することでこの問題に取り組む。DMDを用い、光学系をカスタマイズすることでSPADの解像度を800x400まで向上。時系列ヒストグラムを調整するモデルでは効果的にノイズ除去できることも示した。

180703DepthTransient

新規性・結果・なぜ通ったか？

右図は提案のイメージング技術であり、SPADsの高解像度化を実現した。

コメント・リンク集

[#416]

2018.7.3 01:19:46

GVCNN: Group-View Convolutional Neural Networks for 3D Shape Recognition

Yifan Feng, Zizhao Zhang, Xibin Zhao, Rongrong Ji, Yue Gao

CVPR 2018

概要

3次元形状認識のためにGroup-View Convolutional Neural Netowrk (GVCNN)を提案し、形状に関するビュー不変な内的かつ階層的な相関関係を記述する。識別性が高くなるようGroupingModuleによりビューポイントのグルーピングを行い、途中の層でViewPoolingやGroupFusionを行い、3次元形状認識を行う。右図はGVCNNのアーキテクチャである。

180703GVCNN

新規性・結果・なぜ通ったか？

ビューポイントに不変な認識を実施可能なEnd-to-Endな学習フレームワークであるGVCNNを提案した。MVCNNとの比較により有効性を示した。

コメント・リンク集

ビューポイントに不変は学習可能。

論文

[#417]

2018.7.3 00:56:48

Deflecting Adversarial Attacks with Pixel Deflection

Aaditya Prakash et al.

CVPR 2018

概要

対象ピクセルを近傍のピクセルと入れ替えるPixel Deflectionを利用した敵対的摂動に対しての防御手法。NNは敵対的摂動ノイズに対しては弱いのに対し、ランダムノイズには強いという経験的な傾向から、敵対的摂動が加わっていないサンプルへの性能をできるだけ保持した状態でノイズを加えるためにPixel Deflection＋ Wavelet Denoisingを行う。既存手法よりも良い防御性能を示した。

Deflecting_Adversarial_Attacks_with_Pixel_Deflection.png

詳細・なぜ通ったか？

Pixel Deflectionはある対象ピクセルをその近傍からランダムにサンプルされたピクセル値に置き換える。対象ピクセルを決める際には、正しい識別を行う際に重要となる領域以外からサンプリングする。具体的には敵対的摂動による影響が少ないsaliencyであるRobust CAMを定義し、そのsaliencyが低い領域からサンプル。この背景には敵対的摂動は画像に対して大域的に（物体に関係せず）現れる傾向があるので、できるだけ正しい識別に影響を与えない領域にPixel Deflectionを行いたいという考えがある。

コメント・リンク集

NNのパラメータに関する変更はせずに入力への変更を行うことで敵対的摂動の種類にかかわらず汎用的に防御できるという点が面白い。手法の裏付けとして敵対的摂動とランダムノイズの識別精度への影響比較も行っており、面白かった。

論文

[#418]

OATM: Occlusion Aware Template Matching by Consensus Set Maximization

S. Korman, M. Milam and S. Soatto

CVPR2018

Ryota Suzuki

概要

本稿の手法により，60%のピクセルがノイズに侵されている（occluded）テンプレートでもマッチングできる．しかも結果の証明が可能．

N高次元ベクトルの最近傍探索をsqrt(N)次元ベクトルにおける2つのセットの間の最近傍探索の変換を行う．これで探索効率が二乗でよくなる．

また，コンセンサスセット最大化（cf. RANSAC）による，ハッシング手法も提案．これにより，遮蔽を扱うことができる．

これらのスキームは，高い確率で最適解を得るのに求められるイタレーション数を考慮する，ランダム化仮説＆テストアルゴリズムとみなすことができる．

新規性・結果・なぜ通ったか？

SoTAなロバスト性・高速性・精度を達成．

コメント・リンク集

やはりエレガントさを求める勢力が台頭してきているように感じる．

論文

[#419]

2018.7.2 18:18:37

Context Contrasted Feature and Gated Multi-scale Aggregation for Scene Segmentation

H. Ding, X. Jiang, B. Shuai, A.Q. Liu, G. Wang

CVPR2018

Ryota Suzuki

概要

セマンティックセグメンテーションにおいて，FCNの中に2つの機構を取り入れた．

Context Contrasted Local feature
コンテキストを見るには広く見るべきだが，ローカルな特徴も実際必要なので，そういう構造のカーネルを採用したフィルタを定義．
Gated sum
それぞれの場所におけるスケールごとに対応したスケールの特徴を選択的に集計．

新規性・結果・なぜ通ったか？

３つのセマンティックセグメンテーションのデータベースでSoTA．

コメント・リンク集

論文

[#420]

2018.7.2 17:44:27

Now You Shake Me: Towards Automatic 4D Cinema

Yuhao Zhou, Makarand Tapaswi, Sanja Fidler

CVPR2018

Kazuho Kito

概要

4D映画を自動で作成するための研究。63本の映画に9286のエフェクトのアノテーションをしたデータセットであるMOVIE4dを提案。エフェクトは、揺れ、天候、風、水しぶきなど。また、人の形のみでなく、視聴覚情報をまとめるニューラルネットワークとしてConditional Random Field modelを提案。

新規性・結果・なぜ通ったか？

映画のスレッドだけでなく、クリップ内でのキャラクター間のエフェクトの相関関係を利用。

コメント・リンク集

[#421]

2018.6.23 02:05:00

Objects as context for detecting their semantic parts

Abel Gonzalez-Garcia, Davide Modolo and Vittorio Ferrari

CVPR2018

Kazuho Kito

概要

物体の情報に効果的な影響があるセマンティックパーツの検出アプローチを提案。どのパーツを予想するべきかという指標として、オブジェクトの見た目とクラスを用い、その見た目を基に物体の中でのそのパーツに期待される相対的な位置をモデル化。OffsetNetという新しいネットワークモジュールで所定の物体の中の一部の場所を効果的に予測することを達成。

Objects_as_context_for_detecting_their_semantic_parts_1.PNG

新規性・結果・なぜ通ったか？

the PASCAL-Part datasetにおいて+5mAPの改善。PASCAL-PartとCUB200-2011において他のパーツ検出手法より優れた成果を達成。

コメント・リンク集

論文

[#422]

2018.6.23 01:42:55

Solving the Perspective-2-Point Problem for Flying-Camera Photo Composition

Ziquan Lan, David Hsu and Gim Hee Lee

CVPR2018

概要

ドローンのような飛行体にユーザーが指定した２つの被写体を含んだ画像を撮影させる手法の提案。ユーザーは希望の２つの被写体を指定し、それぞれどのように配置したいかを指定する。ここでは、n=2の場合のPnP問題を考えることでドローンの撮影位置を決定する。カメラの姿勢を求める６自由度の問題として考えるが、P2P問題は解が一意に定まらないので移動距離が最小となる撮影位置を解とする。ワールド座標系とカメラ座標系間の直接の変換を考えるのではなく、２つの被写体がx軸上に配置される座標系を考えることで、計算を簡略化する。

Item3Image

新規性・結果・なぜ通ったか？

仮想環境によって実験を実施し、被写体の位置情報にノイズが含まれている場合でも頑健なことを確認した。実環境における実験は、SLAMにより得られた自己位置を使用して行ったが、推定誤差があるような場合においても高い精度で撮影位置を求めることに成功した。撮影位置の最適化は、１つの物体を先に最適化した後にもう一方の物体の位置を調整するという実験結果が得られた。

コメント・リンク集

幾何学的な計算が中心である論文であり、数少ない機械学習が全く登場しない論文である。

論文

[#423]

2018.7.2 01:32:33

3D Pose Estimation and 3D Model Retrieval for Objects in the Wild

Alexander Grabner et al.

CVPR 2018

Pavel A. Savkin

概要

RGB画像から６DOF姿勢推定＋３Dモデル検索を同時に行えるようにする手法。厳密な中身は画像から６DOF姿勢するパートと、その姿勢とRGB画像情報から最適な３Dモデルを検索して見つけてくるパートに分けられる。三次元姿勢推定については既存手法からInspireされ、認識された物体を内包するProjected 3D Bounding Box(16 Parameters)及び3D Scale(3 Parameters)をResNetやVGGをベースとしたCNNで推定し、PnP問題を解いた。これによりモデル既知でないにもかかわらず、Pascal３D＋データセットでState of the artな６DOF姿勢推定精度を実現。３Dモデル検索パートでは、RGB特徴量とDepthImage特徴量の取得を異なるのCNNで定義し、RGB特徴量、対応するDepth特徴量、間違ったDepth特徴量をそれぞれAnchor, Positive, Negativeと扱いTripletLossを計算することで学習。これによりRGB画像とDepth画像という全く異なるドメイン間での特徴量マッチングを実現し、テクスチャレスな３DモデルであったりRGB画像の照明環境不明であっても最適な３Dモデルの検索を行えるようになった。同カテゴリでは似たような形状のモデルが多数存在するにもかかわらず、画像に対する人間のAnnotationに対して約50％の精度での検索結果を実現した。

fukuhara-3D_Pose_Estimation_and_3D_Model_Retrieval_for_Objects_in_the_Wild.png

新規性・結果・なぜ通ったか？

Projected 3D Bounding Box を用いた６DOF 姿勢推定ではモデル既知でしか解けなかったところをモデル既知でState of the art、モデルなしでもCompatibleな結果を出した点。検索パートではハイコストな３D畳み込みや既知DepthImageを要することなくRGBとDepthImage間の共通記述特徴量の学習・その有効性を示した点。結果については姿勢推定においてはState of the art、検索においては人間のAnnotationに対して50%の精度を実現。６DOF姿勢の高精度推定と、RGB・Depth間の共通記述子を学習することにより画像から３Dモデル検索までを行うシステムを実現したことが通った理由と思われる。

コメント・リンク集

[論文] 3D Pose Estimation and 3D Model Retrieval for Objects in the Wild
共通記述子にはもう少し議論がほしかった印象。TripletLossを使うというアイデアはすごく良かった。３D Bounding Boxという考え方自体も美しい。

[#424]

2018.6.30 23:18:55

Neural Sign Language Translation

Necati Cihan Camgoz, Simon Hadfield, Oscar Koller, Hermann Ney and Richard Bowden

CVPR2018

概要

手話動画を言語に翻訳する手法を提案。手話の各フレーム及び文章中の各単語を表現する特徴ベクトルを取得し、RNNによりそれぞれのsequenceを取得する。手話動画から得られるsequenceを文章のsequenceに変換することで翻訳を実現する。その際、手話動画のフレーム数は文章中の単語数と比べて圧倒的に多いため対応付けが難しい。そこで、Attentionを導入することで手話動画中の重要なフレームに対して重み付けを行う。

Item3Image

新規性・結果・なぜ通ったか？

従来のデータセットは機械学習に用いるには数が少ないため、手話動画、手話の単語、対応するドイツ語の文章を含んだRWTH-PHOENIX=Weather 2014Tというデータセットを提案した。従来の手話に関する研究は、Recognitionの問題として考えていたのに対して、Sequence間の変換と考えることにより文章を出力することを可能とした。

コメント・リンク集

論文

[#425]

2018.6.30 21:07:35

4DFAB: A Large Scale 4D Database for Facial Expression Analysis and Biometric Applications

Shiyang Cheng, Irene Kotsia, Maja Pantic and Stefanos Zafeiriou1

CVPR2018

Kazuho Kito

概要

180万枚以上の3Dのメッシュを含んだダイナミックで高解像度な3Dの顔のデータベースである4DFABを提案。このデータベースには、5年以上かけて異なる4つの期間で撮られた180のサブジェクトの記録を含んでいる。サブジェクトには、自然な表情とそうでない表情の両方の4Dビデオが含まれており、行動に関するバイオミメティクスだけでなく、顔と表情の認識に使うことができる。また、表情をパラメータ化させるためのパワフルなblendshapeを学習することに使うこともできる。

新規性・結果・なぜ通ったか？

自然な表情と笑顔，泣き笑い，混乱している表情などの自然でない表情が含まれている．

コメント・リンク集

論文

[#426]

2018.6.20 19:36:05

Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning

D. Mascharka et al.,

CVPR 2018

Kensho Hara

概要

モデルの挙動を解釈しやすい，かつ高精度なVQAモデルの提案． Neural Module Networkは結果の解釈がしやすいが，複雑なタスクだと精度が落ちる．それを改善した手法はあるが，解釈性を犠牲にしている．ということで，性能と解釈性のGapを埋めよう，というモチベーション． Moduleに分解するのは従来と同じアイディアなものの，モジュール設計のデザインを工夫することで改善を図っている．なお，Transparencyは途中経過を可視化できるという意味で使っている．

新規性・結果・なぜ通ったか？

VQAのタスクにおいて解釈しやすいモデルでありながらSOTAを達成

コメント・リンク集

論文
ざっと読んだだけだとなぜこの論文のモジュール構成が優れているのかわかりにくい

[#427]

2018.6.29 18:30:49

PoTion: Pose MoTion Representation for Action Recognition

V. Choutas et al.,

CVPR 2018

Kensho Hara

概要

行動認識のためのPoseベース特徴表現の提案．まず姿勢推定手法を適用して各Jointのヒートマップを計算．各時刻のヒートマップを時間情報を色で表現してTemporal Aggregationすることで，各動画でJointごとに1枚のヒートマップ表現を得る．これをチャンネルにスタッキングしたのがPoTionという提案特徴表現． PoTionをCNNに入力して識別するのが提案手法．従来手法と組み合わせることで相補的に働き精度の向上が可能．

新規性・結果・なぜ通ったか？

Pose情報を利用した新しい特徴表現を提案
時間情報を含めて画像1枚に落とせるので入力時間長に依存せずCNNで扱いやすい
元々のSOTAのI3Dと組み合わせて更に高い精度を達成

コメント・リンク集

論文
姿勢推定がかなり良くできるようになってきた時代の手法という感じ
色を使って時間情報をAggregationしてるのが面白い

[#428]

2018.6.29 18:10:57

Deep Learning under Privileged Information Using Heteroscedastic Dropout

John Lambert et al.

CVPR 2018

概要

テスト時に入力できる情報に対して、学習時にはより強い情報が使用できる場合にその+αの情報（特権情報）を学習時にうまく活用する研究。テスト時には特権情報が得られないので、特権情報に対して周辺化したものを出力とする方針をとるが、一般にその値を求めるのは難しい。そこで特権情報をGaussian Dropoutの分散の中に埋め込み学習することでテスト時に特別な計算をせずに周辺化することができる。画像認識・機械翻訳で実験し、学習サンプルが少ない状況下で特に効果を発揮する。

Deep_Learning_under_Privileged_Information_Using_Heteroscedastic_Dropout.png

詳細・なぜ通ったか？

Gaussian Dropout部分での逆伝搬ではVAEなどで用いられるreparameterization trickを利用している。画像認識においては特権情報として物体のbounding boxを与えている。SGDでのNNの最適化が理想的に完了する条件下でデータ効率が上がるという理論的な保証と、実験結果による精度向上が評価されたと考えられる。

コメント・リンク集

マルチタスクでの学習よりもしっかり良い結果となっていて興味ふかい。理論的保証はあるものの、Gaussian noiseが具体的にどのようなサンプルに対してどのように作用しているのかを確認する実験なども欲しかった。

論文

[#429]

Motion-Guided Cascaded Refinement Network for Video Object Segmentation

Ping Hu, Gang Wang, Xiangfei Kong, Jason Kuen, Yap-Peng Tan

CVPR 2018

概要

通常、物体のモーションは背景（カメラ）モーションとは異なることを事前知識として動画に対する物体セグメンテーションを実行した。提案モデルであるCascaded Refinement Network（CRN）は最初にオプティカルフローにより荒くセグメントしてから高解像なセグメンテーションをCNNにより実施する（ここらへんがMotion-Guidedと呼ばれる理由）。CRN構造に対してSingle-channel Residual Attention Moduleも提案して学習/推論時間を効率化。

弱教師付き学習に対してボトムアップ（物体レベルで似ている特徴量をマイニング）とトップダウン（リファインされた領域をセグメンテーションの教師として学習）のアプローチを組み合わせる手法を考案。右図の（１）RegionNetによる出力/リファイン結果とPixelNetによる出力との比較によりセグメンテーションの誤差を比較、（２）PixelNetによ出力とマイニングした物体マスクと（Class Activation Mappingにより領域抽出された）RegionNetの出力を比較して領域に対する識別の誤差を計算する。

180623WSSegmentMining

新規性・結果・なぜ通ったか？

識別ベースによる物体領域抽出とセグメンテーションの誤差を繰り返し最適化することにより弱教師付きセマンティックセグメンテーションを実行する。SuperPixelの導入、類似物体マイニング、領域のリファインなどが徐々にセグメンテーション結果をよくしていく。

コメント・リンク集

弱教師付き学習はうまくいくときとうまくいかない時がありそう？なんどもやればランダムで良い結果が得られる？

論文￥

[#433]

2018.6.23 22:07:14

MAttNet: Modular Attention Network for Referring Expression Comprehension

Licheng Yu, Zhe Lin, Xiaohui Shen, Jimei Yang, Xin Lu, Mohit Bansal, Tamara L. Berg

CVPR 2018

概要

言語の入力から画像中の領域を指定するネットワークModular Attention Network (MAttNet)を提案する。本論文では２種類のアテンション（言語ベースのアテンションと視覚ベースのアテンション）を導入した。言語ベースのアテンションではどこに着目して良いかを学習、視覚ベースのアテンションではサブジェクトとその関係性を記述することができる。それぞれのスコアは統合され、最終的には文章を入力すると対応する領域がbboxの形式で出力される。右図はMAttNetの枠組みを示す。文章の入力から言語ベースのアテンションによりワードが厳選され、画像中から探索される。画像ではSubject-/Location-/Relationship-Moduleが働き、最後は統合して総合的に判断、画像中の物体相互関係を考慮した検出が可能になった。

180623MAttNet

新規性・結果・なぜ通ったか？

従来の枠組みと比較して、提案手法は（bboxレベルでもpixelレベルでも）高い精度を達成。

コメント・リンク集

Language and Visionの一例。最近はやっている。

[#434]

2018.6.23 21:37:17

HashGAN: Deep Learning to Hash with Pair Conditional Wasserstein GAN

Yue Cao, Bin Liu, Mingsheng Long, Jianmin Wang

CVPR 2018

概要

Wasserstein GAN (WGAN)の枠組みでハッシング技術を行うHashGANを実装する。主となるアイディアはハッシングのためのデータ拡張を行うためにGANの枠組みを導入。通常は画像生成のみに用いられる仕組み自体を、データバリエーションの拡張のために用いて識別器を強くする。さらに、画像ペアの類似度を計測しながら画像生成を行う枠組みであるPair Conditional WGAN（PC-WGAN）を提案した。図はPC-WGANのアーキテクチャを示し、主に２つの構造から構成される。ひとつは画像生成部Gと識別部Dであり、ランダムノイズuと類似特徴vの連結から画像を生成してリアルな画像を生成。もうひとつはベイジアン学習によりコンパクトなバイナリハッシュを生成するハッシュエンコーダFである。

180623HashGAN

新規性・結果・なぜ通ったか？

GANの枠組みにより高品質なバイナリコードを生成。生成器Gと識別器DのみならずハッシュエンコーダFを同時に学習する枠組みを考案。NUS-WIDE/CIFAR-10/MS-COCOにおいてSoTA。

コメント・リンク集

戦いの中で強くなるGAN、ですね。

論文

[#435]

2018.6.23 21:20:15

Clinical Skin Lesion Diagnosis using Representations Inspired by Dermatologist Criteria

Jufeng Yang, Xiaoxiao Sun, Jie Liang, Paul L. Rosin

CVPR 2018

概要

肌疾患（Sin Disease）の診断を医師が行いながら、同時にデータ/モデルをIterativeに蓄積・構築する枠組みを考案。従来はComputer Aided Diagnosis（CAD）が肌疾患を判断するために役立ってきたが、2次元画像による判断は（ほぼ）行われていなかった。本論文ではデータの蓄積を行うと同時に、医師の判断材料をベースにした表現方法を学習することで、診断するモデルを構築する。診断の特徴としては、テクスチャの分布（複数箇所に渡り対称性が見られる領域が存在するかどうか）や色の表現（ここでは参考文献39,40のColorNameを適用）、形状を用いる。

180623ClinicalSkinLesionDiagnosis

新規性・結果・なぜ通ったか？

医師による診察の目を実装したこと、データを繰り返し実装する枠組みを構築できたことが分野（特に医用画像処理）に貢献した。

コメント・リンク集

この枠組みはうまいと思う。さらにお医者さんと連携してデータ収集/アルゴリズム強化の枠組みが整えば、より病気を判断するための手助けをする技術が発達する。

論文

[#436]

2018.6.23 21:00:26

Deep Cauchy Hashing for Hamming Space Retrieval

Yue Cao, Mingsheng Long, Bin Liu, Jianmin Wang

CVPR 2018

概要

効率的かつ効果的なDeep Hash ModelであるDeep Cauchy Hashing（DCH）を提案する。主たるアイディアはCauchy分布によるPairwise Cross-Entropy Lossを提案することであり、類似する画像に対してHamming距離により誤差の重み付けを行う。図はDCHの構造を示しており、畳み込みにより表現を学習、全結合を通り抜けFully-Connected Hash Layer（FCH）によりK-bitのハッシュコードを生成、Cauchy Cross-Entropyにより類似度により誤差を計算して誤差を伝播させる。

180623DeepCauchyHashing

新規性・結果・なぜ通ったか？

画像検索において３種のデータ（NUS-WIDE/CIFAR-10/MS-COCO）に対してSoTA。

コメント・リンク集

Deep Hashingの研究、データセットをより大きくしてハード面での実装も含めて評価する枠組みが必要？Hashingなので、FCC100Mのように1億枚くらいの画像検索をやってほしい（し、日本でも取り組んでいる人はいる）。

論文

[#437]

2018.6.23 17:49:41

Blazingly Fast Video Object Segmentation with Pixel-Wise Metric Learning

Yuhua Chen, Jordi Pont-Tuset, Alberto Montes, Luc Van Gool

CVPR 2018

概要

ユーザインタラクティブに動画セマンティックセグメンテーションのための距離学習（Metric Learning）を行い、特徴空間を最適化する。入力画像から任意のモデルに対してセグメンテーションを実施、ユーザが良いと判断したセグメント領域を正解値として特徴空間を設定、一方でテスト（バリデーション?）画像を参照して動画セマンティックセグメンテーションを実行して学習する。

180623PixelWiseMetricLearning

新規性・結果・なぜ通ったか？

ユーザインタラクティブというところが良い。セグメンテーションに対するアノテーションはコストがかかる（かかりすぎる）が、これをコンピュータによる推論と、ユーザのクリックのみにして特徴空間を学習していく方がコストが最小化される。精度も出るのでCVPRにアクセプトされている。

コメント・リンク集

セマンティックセグメンテーションに対するアノテーションは一枚あたり$10~12であると言われる。アノテーションコストを下げる方向に研究は進んでいて、特に動画セマンティックセグメンテーションは低コスト/弱教師学習/ドメイン変換等により進められると考えられる。

論文

[#438]

2018.6.23 17:26:13

Mask-guided Contrastive Attention Model for Person Re-Identification

Chunfeng Song, Yan Huang, Wanli Ouyang, Liang Wang

CVPR 2018

概要

人物再同定のための特徴表現学習のためにTriplet学習を行う。オリジナルの全体画像（Anchor Image）、マスクされた人物領域（Positive Image）と背景領域（Negative Image）を用いて学習する。ここで、Triplet学習ではAnchor/Positiveをできる限り近く、Anchor/Negativeをできる限り遠くの特徴空間に置くことでよりよく対象となる物体を見ることができ、良好な特徴量を生成することができる。

180623MaskguidedContrastiveAttention

新規性・結果・なぜ通ったか？

前景/背景を別々に学習し、背景ではなくできる限り前景に対してアテンションを置いて識別することで、人物再同定において良好な精度での識別を確認した。前景抽出のマスク画像に関するアノテーション（Mars/Market-1501/CUHK03）も公開することで、人物再同定の分野に貢献する。

コメント・リンク集

マスクを全部作成した、ということで膨大な労力がかかっている研究。

論文

[#439]

2018.6.23 17:04:57

Video Person Re-identification with Competitive Snippet-similarity Aggregation and Co-attentive Snippet Embedding

Dapeng Chen, Hongsheng Li, Tong Xiao, Shuai Yi, Xiaogang Wang

CVPR 2018

概要

適切な長さの動画分割（Video Snippet; ビデオスニペット）とCo-Attention機構による人物再同定の研究である。動画からの人物再同定では長いフレーム長をそのまま入力するよりもスニペットに分割して、さらには分割動画間のCo-Attentionに着目することで特徴表現を学習する方が認識に有利であることを実証した。スニペット間で類似度が計算され、ランク付が行われる。

180623SnippetSimilarityCoAttention

新規性・結果・なぜ通ったか？

動画スニペットごとに類似度を計算し、それぞれに対してCo-Attentionを求めて特徴量を学習する方法で複数のデータセットにてSoTA。iLIDS-VIDにてTOP1が85.4、TOP5が96.7（上位に正解が含まれているかどうかであり、TOP5は5人中1人が正解であればよい）であり強い手法が構築できた。PRID2011においてもそれぞれ93.0/99.3、Marsにおいても86.3/94.7である。

コメント・リンク集

人物再同定は数年前までTOP5（〜TOP20）が高い精度であれば許される時代だったがTOP5で95+%（驚くべきは99%も出ているデータセットがあるということ）という数値である。中国の事情もあり、その解決のためにSenseTimeがその役を買っているというわけである。今後はさらなるデータ作成と社会実装の推進が進むと思われる。SenseTime/CUHKの連携ラボの枠組みも整った（CUHK-SenseTime Joint Lab.と著者リストにある）ことで、さらに研究が大規模に進められる。

論文

[#440]

2018.6.23 16:51:25

Recognizing Human Actions as the Evolution of Pose Estimation Maps

Mengyuan Liu, Junsong Yuan

CVPR 2018

概要

動画に対する姿勢+ヒートマップからの行動認識を解く問題である。通常、動画中の姿勢推定は不安定なものであるが、動画内での平均化や連続する姿勢、ヒートマップから補完的に改善して行動を認識する枠組みを提案。ヒートマップのスパース性を考慮、Spatial Rank Poolingを実装してEvolutionImageを作成しヒートマップや姿勢の変動に対応できるようにした。この枠組みはNTU RGBD/UTD-MHAD/PennActionに対して有効であることを示した。

180623EvolutionPoseMap

新規性・結果・なぜ通ったか？

不安定な姿勢変動に対応するためにSpatial Rank Poolingを実装した。位置づけ的にはDynamicImage/VideoDarwinがTwo-Stream ConvNetsに対する改善なのに対して本論文は姿勢に対してこれらの枠組みを試行。この枠組みを用いてNTU RGBD/UTD-MHAD/PennActionに対してSoTA。

コメント・リンク集

直感的に言うと、テスト動画に対する中間特徴（中間値）みたいのを作成して、外れ値を防ぐことで精度向上？

論文

[#441]

2018.6.23 16:25:14

Video Representation Learning Using Discriminative Pooling

Jue Wang, Anoop Cherian, Fatih Porikli, Stephen Gould

CVPR 2018

概要

行動認識における特徴は独立ではなく、動画を通して共通する部分が多い。これら共通特徴を捉えるためのプーリング（Pooling）手法を確立すると共に特徴表現を学習する。戦略としてはMultiple Instance Learning（MIL）により未知だが識別性に優れた非線形の識別境界（Hyperplane）を求めるようにPooling自体をDNNの中で学習する。右図は従来法のDynamicImages（参考文献2; 図中(iii)）と提案手法であるSVM Pooling（図中(iv)）の比較である。SVM Poolingは動画像全体の動きを捉える特徴量が抽出しやすくなり、精度向上に寄与した。識別決定境界を学習、動画レベルの識別を最適化することから、SVM Poolingと呼ぶ。

180623DiscriminativePooling

新規性・結果・なぜ通ったか？

３種類の公開データセット（HMDB51/Charades/NTU-RGBD）にてSoTA。

コメント・リンク集

Pooling/Conv自体のパラメータを固定ではなく、学習可能にしてしまう、というアイディアは多くなってきた。構造自体を学習するNAS（Neural Architecture Search）なんかにも使うことでさらなる精度向上ができないか？

論文

[#442]

2018.6.23 16:05:37

SGPN: Similarity Group Proposal Network for 3D Point Cloud Instance Segmentation

Weiyue Wang, Ronald Yu, Qiangui Huang, Ulrich Neumann

CVPR 2018

335

Yue Qiu

概要

ポイントクラウドを対象としたインスタンスセグメンテーションネットワークSGPNを提案した．
SGPNが入力されたポイントクラウドに対してまずpointnet++などを用いて特徴抽出を行い，抽出特徴に対し類似性を評価することによってグルーピングを行う．グルーピングと同時にセマンティックを予測する．グループの結果をインスタンスセグメンテーションに用いる

SGPN

新規性・結果・なぜ通ったか？

初めてのポイントクラウドに対しインスタンスセグメンテーションを行うネットワークの提案と指摘した．
SGPNがflexibleに2D CNN特徴を導入でき，これによって更なる良い性能を得られる．
3次元Shape及び実三次元シーンのセグメンテーション用データセットShapeNetとStanford Indoor Semantic Dataset及びNYUV2においてSoTAなインスタンスセグメンテーション結果を得られた．

コメント・リンク集

ネットワークの説明が簡潔で，結果も良いのでつかってみたい
論文

[#443]

2018.6.26 13:56:20

Recurrent Slice Networks for 3D Segmentation of Point Clouds

Qiangui Huang, Weiyue Wang, Ulrich Neumann

CVPR 2018

341

Yue Qiu

概要

有効的にポイントクラウドの局所的構造をモデリングできるポイントクラウドを直接処理する3D セグメンテーションフレームワークRSNetを提案した．
RSNetは主に3つの部分から構成され:①slice pooling layerが入力ポイントクラウドをslicesスにグループし， sliceごとにポイントの特徴をaggregateすることによりグローバル特徴を抽出する②RNNsにより特徴を抽出する③slide unpooling layerにより抽出特徴をポイントに戻す．

RecurrentSliceNetworks

新規性・結果・なぜ通ったか？

S3DIS, ScanNet, ShapeNetの3つのデータセットにおいて最も高いセグメンテーション精度を達成した．
RSNetは従来の3DCNNと比べ精度が高いほか，時間とメモリー消耗がより少ない．

コメント・リンク集

RNN構造をポイントクラウドの情報抽出に用いるのが良い精度を達成した原因だと思う
論文
コード

[#444]

2018.6.26 13:51:24

3D Object Detection with Latent Support Surfaces

Zhile Ren, Erik Sudderth

CVPR 2018

121

Yue Qiu

概要

点群密度，3次元法線方向ヒストグラム，COG特徴などの3つの特徴に基づいた3次元検出手法の提案．
RGB-D画像にoriented cuboidsをアラインして，更にcanonical座標フレームに変換する．ボクセルごとに点群密度特徴，3次元法線方向ヒストグラム及びCOG特徴(Latent Support Surfaces特徴)を抽出し，SVMにより識別及びバウンディングボクスの検出を行う．提案するCOG特徴は555ボクセルでボクセルごとに主要法線方向の表示をベースとしたdescriptor．

3D-detection-latentsupportsurfaces

新規性・結果・なぜ通ったか？

従来の3次元検出手法は局所的形状及び表現から物体カテゴリを決定し，異なる視覚スタイル・スケールの物体を検出するロバスト性が低い．提案手法は異なるスケールの物体検出を行える．特に小さい物体の検出が従来より強い．
SUN RGB-D DatasetにおいてSOTAな精度を達成．

コメント・リンク集

論文

[#445]

2018.6.26 13:46:17

Learning 3D Shape Completion From Laser Scan Data With Weak Supervision

David Stutz, Andreas Geiger

CVPR 2018

226

Yue Qiu

概要

弱監督なラーニングベースな3次元形状補完手法を提案した．3次元CGモデルデータにより形状priorを学習し，形状予測学習に対しmaximum likelihoodロスを用いて弱監督学習を行う．
具体的に，2段階で学習を行う．段階①で三次元CGモデルによりfull監督でリコンストラクションロスを用いてauto-encoder（VAE）をトレーニングし，段階②では欠損した実三次元モデルからencoderを行い，段階①で学習済みのdecoderにより形状補完を行い，復元した形状と入力形状間のmaximum likelihood lossにより学習を行う．

3DshapeCompletion-laser-weak

新規性・結果・なぜ通ったか？

Data-driven型な3次元形状補完手法と比べ，実行時間が短く，full supervised的な手法と比べリアルデータに対し監督信号がなくても行える．
ShapeNet, ModelNetにおいてData-driven型な手法と同レベルな精度．

コメント・リンク集

弱監督・無監督がホットスポット．
論文

[#446]

2018.6.26 13:40:50

SurfConv: Bridging 3D and 2D Convolution for RGBD Images

Hang Chu, Wei-Chiu Ma, Kaustav Kundu, Raquel Urtasun, Sanja Fidler

CVPR 2018

378

Yue Qiu

概要

3次元サーフェスに沿って，2次元畳み込みフィルタリング処理を行う新たな畳み込み処理方法SurfConvを提案した．
従来の2次元畳み込み操作は空間スケールの変化に弱い，3次元畳み込み操作はデータのスパース性により効率が良くないなどの問題点から，3次元空間中のサーフェスに沿って畳み処理を行う手法を提案した．提案するdepth-guided畳み込み操作は，デプス値によりreceptive fieldのサイズをコントロールし， receptive fieldごとの幾何情報をHHAにより表示する．

SurfConv

新規性・結果・なぜ通ったか？

SurfConvを用いて連続なデプス情報を離散的に取り扱い，一つのreceptive field内でx,yはfull解像度で同時にzの解像度は従来の3次元畳み込みより低いので効率が良い．
従来の3DCNＮ手法と比べ良い精度を得られるほか，モデルのサイズが小さい．
KITTI,NYUv2データセットにおいてSOTAな精度を達成した

コメント・リンク集

考え方が新しい
調整する必要があるhyper parameterが多いので，訓練しにくいかもしれない
論文
コード

[#447]

2018.6.26 13:34:49

Unsupervised Learning of Monocular Depth Estimation and Visual Odometry with Deep Feature Reconstruction

Huangying Zhan, Ravi Garg, Chamara Weerasekera, Kejie Li, Harsh Agarwal, Ian Reid

CVPR 2018

Yue Qiu

概要

デプス推定及びビジュアルodometryを同時に行える無監督学習フレームワークの提案．
デプス推定及びodometry推定の結果をそれぞれ互いにwarpingし比較することをベースとしたimageリコンストラクション及びfeatureリコンストラクションロスを提案し，従来の従来のphotometricベースなロス関数と比べ良い精度を得られた．またデプス推定及びodometry推定をwarping，比較することにより，自己監督を得て，監督データなしで学習を行える

unsupervised-depthvo

新規性・結果・なぜ通ったか？

デプス推定及びvisual odometryを同時に行う方が良い精度を得られると宣言した．
KITTIデータセットにおいて，デプス推定及びvisual odometryがトップ１の精度を達成した．

コメント・リンク集

2017年及び2018年のCVPRでの左右視，自己監督などを用いたデプス推定の手法が多い
論文
コード

[#448]

2018.6.26 13:23:06

Divide and Grow: Capturing Huge Diversity in Crowd Images with Incrementally Growing CNN

Deepak Babu Sam, Neeraj N Sajjan, R. Venkatesh Babu, Mukundhan Srinivasan

CVPR 2018

Shusuke Shigenaka

概要

訓練データの複雑さに基づいてモデル容量を反復的に拡張するIG-CNNの提案。CNNは個人の検出だけでなく群衆の特徴を学び群衆密度マップを生成することができる。しかし、多くのデータセットは群衆が一様ではないため疎の画像を高密度と予測してしまう。提案したIG-CNNは、データセット全体で訓練されたベースのCNN密度回帰分析から始まり、訓練データに応じて階層的なCNNツリーを作成していくことで細かく分類していくことである。提案手法は群衆データセットで高いカウント精度を達成している。

Divide_and_Grow_Capturing_Huge_Diversity_in_Crowd_Images_with_Incrementally_Growing_CNN_1

新規性・結果・なぜ通ったか？

CNNを階層的に成長させるモデルであるが、手動で指定された基準なしに作成することができる
階層を作った後はIG-CNNを廃棄させ、CNNツリーのリーフノードのネットワークだけで選択が可能になる
UCF-CC_50とWorldExpo'10のデータセットにおいて高い精度を誇る

コメント・リンク集

群衆のデータセットは通常高密度のデータばかりに目を向けがちだが、疎なデータに目を向けているのが良いと思った。

論文

[#449]

2018.6.26 11:39:43

Trapping Light for Time of Flight

R. Xu, M. Gupta, S.K. Nayar

CVPR2018

Ryota Suzuki

概要

一回のスキャンだけで，かなり複雑な形状の物体を全周囲計測し，復元する3D復元システムの提案．

Light trapと名付けた，Time-of-Flight(ToF)式3Dスキャナの光を反射しまくる鏡部屋を使うのがキーアイデア．Trapの形状を入射光が複数回trapの中で跳ね返るように選択することで，対象物体に対し，あらゆる位置・あらゆる方向から複数回数光が注ぐことになる． ToFセンサはそれぞれの光の移動距離を入手でき，Trapの形状は既知（予め計測しておく）なので，全ての完全なパスが再現可能である．そのためのアルゴリズムを提案する．

通常すごく遮蔽する，球格子をかなり複雑な形状物体の例としたときに，シミュレーションによって99.9%の表面に光を当てられることを示す．また，ハードウェアプロトタイプを実装し，様々な物体の大きさ，反射特性の物体に対し試してみた．

新規性・結果・なぜ通ったか？

この手のシステムは反射屈折式(Catadioptric)で通っているようだが，問題となるのは一貫性，ラベリング問題（どの受容光が発射光だったのか）を解決しなければならないという困難さがある．

このシステムでは，ToF（パスの長さが分かる）を使っているので，ラベリング問題を解く必要がない．

コメント・リンク集

カオス感（パイ捏ね変換）．カオスは複雑さと単純さを仲立ちできる点が面白いので，問題を簡単にするのに使えるという好例の一つに感じる．DNNも複雑ネットワークという点では同様である．
物体形状の周期性などの条件がたまたま合ってしまうと，全然見えなくなる可能性はないだろうか．
システムとして工夫している点が複数あり，制約もあるので，各々論文を確認いただきたい．

論文

[#450]

2018.6.26 11:26:50

Separating Style and Content for Generalized Style Transfer

Yexun Zhang, Ya Zhang, Wenbin Cai

CVPR2018

概要

StyleとContent、それぞれを抽出するEncoderにより得られた特徴を結合することによりStyle Transferを実現するEMDモデルを提案。学習の際、Style Encoderの学習にはStyleが一緒だがContentが違う画像を、Content Encoderの学習にはContentが一緒だがStyleが異なる画像のセットを用いて学習する。

Item3Image

新規性・結果・なぜ通ったか？

Styleとして漢字のフォント、Contentとして漢字の種類を考え検証を行った。Style及びContentのセットは、枚数が多いほど精度がよくなるが増えていくと飽和して変わらなくなる。ベースラインと比べるときれいな文字が生成されている。

コメント・リンク集

Style Transferの一般化と書いてある割に、漢字という一部の地域でしか用いられていない文字でしか実験がされておらず他の対象に適用可能であるかが不明。（ロスの設計も漢字を前提とした重み付けがされている）そもそも学習画像のセットにStyleとContentが一緒であるという仮定が必要であり、これらが明らかであるという理由で漢字で実験したとあるように、漢字以外でやる場合StyleとContentとは何かを考えなければならない。

論文

[#451]

2018.6.25 14:11:55

Learning Globally Optimized Object Detector via Policy Gradient

Yongming Rao et al.

CVPR 2018

Yoshihiro Fukuhara

概要

強化学習（Policy Gradient）を応用して大域最適化された物体検出器の学習を行う end-to-end なフレームワークの提案. 既存の物体検出器の学習に RoI 間の相互関係が用いられていないことに着目し, 検出された物体の mAP の総和を最大にする様な学習を行うために強化学習を用いている. 提案手法はネットワークの構造には依存しないので既存の多くの手法に適用が可能. 評価実験では, COCO-style mPA で Faster R-CNN を 2.0%, Faster R-CNN with Feature Pyramid Networks を 1.8% 向上させた.

fukuhara-Learning-Globally-Optimized-Object-Detector-via-Policy-Gradient.png

新規性・結果・なぜ通ったか？

強化学習を応用して大域最適化された物体検出器の学習を行う end-to-end なフレームワークの提案（厳密には強化学習では無い）
検出された物体の mAP の総和を最大にする様に学習するため, 大域最適化が可能 (既存手法は multi-task loss で個々を独立して学習）
提案手法はネットワークの構造には依存しないので既存の手法に適用が可能（汎用性）. 計算のオーバーヘッドも無い(高速). 通常の Cross-Entropy Gradient に簡単な修正を加えるだけで適用可能（単純）
強化学習の reward は mAP の総和を使用, action は Bounding Box の選択
action が膨大になってしまうのを防ぐため, 物体のカテゴリーは既存の手法で適当に選択されていると仮定（学習済みのモデルに追加で学習）, それでも action が膨大なので, 強化学習の各イテレーションでサンプリングをして行動を決定
評価実験では, COCO minival set において COCO-style mPA で評価して, Faster R-CNN を 2.0%, Faster R-CNN with Feature Pyramid Networks を 1.8% 向上

コメント・リンク集

[論文] Learning Globally Optimized Object Detector via Policy Gradient
強化学習の手法をCVのタスクに応用した例. 既存手法に提案手法を上乗せすることで精度を向上させているところが上手い.（強化学習の際の action の数が多くなり過ぎてしまう問題も, 事前学習済みの検出器に追加で学習を行うことで回避している.）
Policy Gradient の式を上手く Cross-Entropy Loss の特殊な場合となる様に変形することで"単純"で効果的な手法となっている.

[#452]

2018.6.23 20:33:55

Through-Wall Human Pose Estimation Using Radio Signals

Mingmin Zha,et al

CVPR2018

Masaki Miyamoto

概要

この研究では，壁や閉塞空間を通した正確な人間の姿勢推定を説明している．これはWiFiの電波が，壁を通り抜け人体に反射する現象を利用している．このとき，人間は無線信号に対してアノテーションを行うことができないため，最先端のビジョンモデルを用いる．具体的には，訓練中に同期された無線信号と視覚情報を用いてビジュアルストリームから姿勢情報を抽出し、それを使用して訓練プロセスを誘導する．いったん訓練されると，このシステムは姿勢推定のために無線信号のみを使用する．人が視認できる状態でテストすると、信号ベースのシステムは、それを訓練するために使用された視覚情報ベースのシステムとほぼ同じ精度であることがわかる．

新規性・結果・なぜ通ったか？

コンピュータビジョンにおいてはキーポイントから姿勢を推定する際にこれまでのカメラなどのセンサから情報を得るのではなく，高周波信号を用いている．モデリング面においては教師 - 学生ネットワークを用いている．そのため，このネットワークは具体的な信頼できるキーポイントのマップに関するより豊かな知識を伝達する．ワイヤレス面においては，時間の異なる時点で検出された複数の身体部分を費えることによって、壁の後ろの姿勢の不鮮明な説明を作成するRF-Captureと呼ばれるシステムとなっている．

コメント・リンク集

論文

デモ動画

[#453]

2018.6.23 16:41:59

DiverseNet: When One Right Answer is not Enough

Michael Firman et al.

CVPR 2018

Yoshihiro Fukuhara

概要

教師あり学習において, test 時に同じ入力から異なる結果を出力可能にする Loss と学習方法 (DiverseNet) を提案. 提案手法はあらゆる教師あり学習の手法に対して適用が可能であり, 提案された Loss は GAN などで報告されている mode-collapse を起こしにくい. 複数のタスクに対して評価実験を行い有効性を確認した.

fukuhara-DiverseNet-When-One-Right-Answer-is-not-Enough.png

新規性・結果・なぜ通ったか？

学習の画像と一緒に制御変数（整数）を入力する, 制御変数を変更することで test 時に同じ画像から異なる結果を得られる
複数の正解ラベルについて Loss の和をとると mode-collapse を起こしやすいため, 提案された Loss では各ラベルについてそれぞれ Loss を計算し, 最小の値を取ったものを Loss として使用　
提案手法はあらゆる教師あり学習の手法に対して適用が可能. また, 正解ラベルが１つしか無いタスクにおいても, 最もらしい結果を複数生成可能
評価実験では提案手法を 2D image completion, 3D volume estimation, flow prediction などの複数のタスクにおける手法に適用し, 特に小さなネットワークのモデルに対して良い結果となった

コメント・リンク集

[#454]

2018.5.17 12:19:55

Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification

Kiang Long et al.

CVPR2018

1711.09550

Takumu Ikeya

概要

動画のクラス分類タスクにおいて時系列の情報，特に長期間のパターンは必要な情報ではないことを示し，純粋にattentionに基づいた局所特徴の統合フレームワークを提案をした研究である．
提案したフレームワークを用いて動画分類タスクを実行することで評価した．

新規性・結果・なぜ通ったか？

提案したフレームワークはKineticsデータセットにおいてtop-1で79.4%,top-5で94.0%の精度を達成した．
提案したフレームワークではシフト操作を伴うMultimodal Attention Clustersを導入することでフレームの類似性が高い動画に対しても良好な結果が得られる

コメント・リンク集

論文

[#455]

2018.6.22 22:56:48

CVM-Net: Cross-View Matching Network for Image-Based Ground-to-Aerial Geo-Localization

Sixing Hu et al.

CVPR 2018

Yoshihiro Fukuhara

概要

Ground-to-Aerial Geolocalization の研究. CNNを用いて局所特徴量を抽出した後, NetVLAD によって局所特徴量から大域特徴量を生成してマッチングを行う. また, 新しい Loss を提案し学習時間を短縮した. CVUSA dataset 等を用いて行った評価実験では既存手法に大差で優位な結果を達成した.

fukuhara-CVM-Net-Cross-View-Matching-Network-for-Image-Based-Ground-to-Aerial-Geo-Localization.png

新規性・結果・なぜ通ったか？

地上で撮影された写真から, 衛星写真上のどの位置で撮影されたかを推定する（Ground-to-Aerial Geolocalization）
両方の写真からCNNを用いて局所特徴量を抽出した後, NetVLAD によって局所特徴量から大域特徴量を生成, 後述の weighted soft margin ranking loss を用いて学習を行う
新しく提案した weighted soft margin ranking loss は従来の soft-margin triplet loss よりも学習の収束の速度を早めると共に, ネットワークの精度を向上させた
CVUSA dataset と Vo and Hays dataset を用いて行った評価実験では既存手法に大差で優位な結果を示した（評価基準は上位 1% の recall）. 特にパノラマ写真を入力とした場合は90%以上の精度を達成

コメント・リンク集

[#456]

2018.6.22 6:22:55

Cross-Domain Self-supervised Multi-task Feature Learning using Synthetic Imagery

Zhongzheng Ren and Yong Jae Lee

CVPR 2018 Poster

Kazuki Inoue

概要

人手によるアノテーションを使用しない本当の意味での自己教師学習を行うために、合成画像の法線マップ、デプス、物体輪郭と実画像とのadversarial trainingを行う手法を提案。実画像に対して汎用的な特徴量が取得できたことを主張している。輪郭線はキャニーフィルタによるエッジだが、これによって人がつける曖昧なアノテーションを緩和することができる。デプスを推定することで高次元のセマンティックな情報やオブジェクトの相対的な位置を得ることが可能。既存研究により法線マップとデプスのそれぞれの推定が良い影響を与えることがわかっているため、法線マップの推定も行う。 GANの学習において、ディスクリミネータの更新は実画像、合成画像に対するGANのロス、ジェネレータの更新は合成画像に対するGANロス、 3つのタスクの推定におけるロスを使用している。ドメインに不変な特徴料を得るために実画像を用いたジェネレータの学習も行ったが、精度が良くなかった。

新規性・結果・なぜ通ったか？

人手によるアノテーションを使用せずに自己教師学習を行うために合成画像の法線マップ、デプス、オブジェクトの輪郭を推定するネットワークを構築し、さらに実画像に対して汎用的な特徴量を得るために実画像とのadversarial trainingを行う。
PASCAL VOCを用いた最近傍によるリトリーバルを行った。トレーニングデータにはバスや車などの区別しづらい画像が含まれているにも関わらず、車を入力した際には車のりトリーバルに成功。
conv1ですでにガボールフィルタのような特徴量を取得できていることを確認。これはImageNetをただ学習させるだけでは得ることができないことを確認している。
Pascal VOCを用いたクラシフィケーション、ディテクションにおいてSoTAと同等の精度を達成。
クラシフィケーションとディテクションに対して3つのタスクのうちどれが効果的なのか、どの層の特徴量が効果的なのか、domain adaptaionを行う際にどの層の特徴量が効果的なのかを検証。
NYUDデータセットを用いた法線推定において、既存の自己教師学習と比べてSoTAを達成。

コメント・リンク集

[#457]

Dynamic Feature Learning for Partial Face Recognition

Lingxiao He, Haiqing Li, Qi Zhang, Zhenan Sun

CVPR 2018 Poster

Kazuki Inoue

概要

マスクなどから見えている顔領域のみを検出するPartial face recognition(PFR)をFCNで高速かつ高精度に行う手法を提案。トレーニング時には顔全体と顔が見えているパッチのそれぞれに対してパラメタを共有したFCNをで特徴量マップを適用し、パッチ領域から得られる特徴量マップと同サイズのマップを顔全体からえられた特徴量マップからスライディングウィンドウによって複数個切り出し、パッチから得られた特徴量マップとの比較を行う。この比較のことをDynamic Feature Matching(DFM)と読んでいる。 DFMを行う際の工夫として、パッチから得られた特徴量マップを顔全体から得られた特徴量ウィンドウの線形和で表す際の重み、パッチから得られた特徴量マップと特に類似している特徴量ウィンドウに対する重みの学習を行っている。

新規性・結果・なぜ通ったか？

PFMを行う際に顔全体から得られた特徴量マップを切り出した複数の特徴量ウィンドウと顔パッチ部分から得られた、特徴量ウィンドウと同サイズの特徴量マップを比較するDFMを行う手法を提案。
既存手法であるMR-CNNの20倍の速度で実行可能。
CASIA-WebFace 1万枚を用いて学習。LFWなどのデータセットでテストを行う。face recognition, verificationにおいてSoTA。
切り取るサイズや、パラメタに対する考察も行っている。

コメント・リンク集

FCNを用いることで任意のサイズの入力を扱えることに着目したことが根幹となるアイディア。
論文

[#458]

Mean-Variance Loss for Deep Age Estimation from a Face

Hongyu Pan, Hu Han, Shiguang Shan, Xilin Chen

CVPR 2018 Poster

Kazuki Inoue

概要

顔画像から年齢を推定する際に正確に年齢を推定するのではなく、ガウス分布を用いてある程度幅のある推定を行う手法を提案。大きなコントリビューションはロス関数としてガウス分布の平均値と分散に関するロスをとったことであり、平均値はGTの年齢との差分をとり、分散は分布がよりシャープになるようにロス関数を設計する。学習の際には上記2つのロス関数の他に1歳刻みの年齢をそれぞれクラスと見立てソフトマックスロスを取る。分布を学習する既存手法と異なる点は、提案手法ではGTの平均値、分散を使用しない点である。

新規性・結果・なぜ通ったか？

人間の年齢は正確に推定することは難しいが、ある程度の範囲内であれば推定は容易、という観察に基づいてロス関数を設計。
FG-NET, MORPH Album Ⅱ, CLAP2016, AADBデータセットにおいてMAE、CSを評価指標として使用し多くのテストプロトコルにおいてSoTA。
照明環境に依存し、顔が赤い光で照らされているなどの特殊な照明環境では推定誤差が大きい。

コメント・リンク集

年齢推定だけでなく、同様の性質を持つタスクならば適用可能。
論文

[#459]

Anatomical Priors in Convolutional Networks for Unsupervised Biomedical Segmentation

Adrian V. Dalca, John Guttag, Mert R. Sabuncu

CVPR 2018 Poster

Kazuki Inoue

概要

MRIのスキャンデータに対するセグメンテーションを、MRIのソース画像とセグメント画像のペアを使用せずに行う手法を提案。はじめにセグメント画像のみを用いてVAEを学習。次に教師無しでセグメンテーションを行うためにdecoderの重みを固定してソース画像に対するセグメンテーションの推定を行う。

新規性・結果・なぜ通ったか？

医療用画像に対する教師無しのセグメンテーション手法を初めて提案。
T1w scanデータセットのうち、5000枚のセグメンテーション画像を使用してauto-encoderをプリトレーニング。残りの9000枚のスキャンデータを用いて教師無し学習。
T1wデータセットよりも解像度が低く、スライス間隔も広いT2-FLAIR scanデータセットでもテストを実行。ただしアノテーションが存在しないのでセグメンテーションの見た目で良し悪しを判断。
評価尺度はGTとの領域の重なりを評価するDice。Dice、セグメンテーションの結果の見た目として良好な結果が得られていると主張。

コメント・リンク集

Diceを使って定量的に評価しているため、境界線の引き方などの細かい部分のセグメンテーション結果を詳細に評価していないが、実用上は問題無いのだろうか？
論文
Supplementary material
GitHub

[#460]

GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose

Author

CVPR 2018 Poster

Kazuki Inoue

概要

単視点動画に映っている物体を静的物体と動的物体に分離することで教師なしでデプス、オプティカルフロー、カメラ向きを推定する手法を提案。フレームワークは二段階で構成されており、まずはじめにデプスとカメラ向きをそれぞれ独立に推定することで道路や街路樹などの静的物体のモーション情報を得る。続いて静的物体との差分情報を使用することで歩行者などの動的物体のモーション情報を得る。教師無しの推定を行うため、参照フレームから推定されたモーション情報の逆変換をターゲットフレームに適用し参照フレームを推定することで consistency lossをとることで精度が向上。

新規性・結果・なぜ通ったか？

consistency lossによってオクルージョンに対する精度の向上も確認。
同じネットワークを持つ既存研究に対して、ロス関数の優位性を確認

コメント・リンク集

[#461]

CSGNet: Neural Shape Parser for Constructive Solid Geometry

Gopal Sharma et al.

CVPR 2018

Yoshihiro Fukuhara

概要

Shape Parsing の研究. ２次元画像, ３次元ボクセルから同じ形状を生成するプログラムを推定する. 学習のための2次元や３次元のLogoやCADモデルなどを含む synthetic dataset を作成・公開した. また, 教師データが無い場合でも強化学習を用いた学習が可能.

fukuhara-CSGNet_Neural_Shape_Parser_for_Constructive_Solid_Geometry.png

新規性・結果・なぜ通ったか？

入力された形状からCNNで特徴量を抽出し, RNN（GRUs）によって形状を生成する一連のプログラムを生成
Ground Truth が無い場合は強化学習(Policy Gradient)で学習可能（評価実験では教師ありと強化学習を組み合わせたものが一番高精度）
2次元や３次元の形状とそれを生成するプログラムのデータセット(2D and 3D synthetic dataset)を作成・公開
評価実験では, 2次元と３次元のいずれの場合も Nearest Neighbor を用いた手法よりも高精度を達成
また, Primitive detection のタスクにおいては Faster R-CNN よりも高い Mean Average Precision を達成

コメント・リンク集

[#462]

2018.6.22 19:37:55

Context Embedding Networks

Kun Ho Kim, Oisin Mac Aodha and Pietro Perona

CVPR2018

概要

ラベル付けする人の評価尺度やcontextを考慮して画像の類似度を求めるContext Embedding Networksを提案した。クラウドワーカーによるアノテーションは、個人独自の評価尺度やコンテキストに影響される。例えば、人物顔画像をクラスタリングする際にはある人は性別によってクラスタリングするが、別の人は表情によってクラスタリングしてしまうと考えられる。そこで、workerと見せた画像(context)それぞれから、画像のどのような点に注目するかを表すattributeをAttribute Encoderにより求める。画像の類似度は、2枚の画像それぞれに対してImage Encoderから得られる画像特徴を、attributeによる重みつきの類似度によって求める。

Item3Image

新規性・結果・なぜ通ったか？

クラウドワーカーに応じた類似度の算出が可能になった。各クラウドワーカーがどのattributeに基づいて画像クラスタリングをしているかを予測することに成功した。

コメント・リンク集

クラウドソーシングによるアノテーションにおいて、クラウドワーカーの個人差は避けては通れないので重要な問題になりそう。

論文

[#463]

2018.6.22 18:15:24

Visual Feature Attribution using Wasserstein Gans

Christian F. Baumgartner, Lisa M. Koch, Kerem Can Tezcan and Jia Xi Ang

CVPR2018

概要

画像中のどの箇所がクラス分類に寄与するかを可視化する手法を提案。多くの手法は、クラス分類のタスクを学習することで重要な特徴を調べている。しかし、識別への寄与が強い特徴が存在する場合ネットワークは強い特徴のみに注目してしまい、他の特徴は無視されてしまう。医療画像からの病気の診断では、病気のステージを見極める、複数の要因が絡む病気を発見するなど無視されてしまう特徴を探すことは極めて重要である。本研究では、Wasserstein GANを用いてある病気を発見する上で重要な領域を示したマップMを生成する。病気のラベルがついた入力画像xに対して、x+Mが病気でないと判定されるMを生成するGeneratorを学習する。その際、患者の個人性による画像の違いを考慮するためにL1正則化項をロスに加える。

Item3Image

新規性・結果・なぜ通ったか？

合成画像と実際の医療画像の2種類により評価した。従来の特徴を可視化する手法は、病気の際に見られる特徴のうち一部しか取れない、エッジなどの高周波情報が取れないという結果に対して、提案手法はこれら2つを改善した。 Normalized Cross Correlation(NCC)による数値評価では、ベースラインと比べ提案手法が最も良い数値を記録した。

コメント・リンク集

[#464]

2018.6.22 17:18:25

Learning to Estimate 3D Human Pose and Shape from a Single Color Image

Georgios Pavlakos, Luyang Zhu, Xiaowei Zhou and Kostas Daniilidis

CVPR2018

概要

1枚のRGB画像から人間の全身の3次元モデルを推定するEnd-to-Endのネットワークを提案した。DNNを用いた3次元モデルの推定は、膨大なアノテーションが必要となり現実的ではない。そこで、画像からの2次元特徴の抽出と2次元特徴から3次元モデルの推定の2段階に分けることによりDNNベースの手法を実現する。始めに、Human2DというRGB画像から2次元の特徴点及び人物のシルエットを推定する。 2次元特徴点及びシルエットから3次元モデルの推定には、SMPLという統計モデルを用いて作成した学習データにより学習を行う。加えて、得られた三次元モデルから2次元特徴点とシルエットを取得し、画像から得られた情報と一致するかをロスに加える。

Item3Image

新規性・結果・なぜ通ったか？

推定した3次元モデルの誤差を評価したところ、提案手法が最もground truthに近づいたことを確認した。1枚の画像に対して50msという従来研究と比べ大幅に高速化することができた。

コメント・リンク集

データ作成の問題をCGを駆使して解決しており、同様のアイデアを活用できないだろうか？

論文

[#465]

2018.6.22 16:05:18

Zero shot Kernel Learning

Hongguang Zhang and Piotr Koniusz

CVPR2018

TengaWakamiya

概要

ゼロショット学習のオープンな問題に取り組む上で，カーネルを利用したゼロショット学習の手法を提案する．

新規性・結果・なぜ通ったか？

提案する手法は，回転とスケーリングが組み込まれているため，制約のないモデルでは，より自由度が高いために過学習を防止することができる．1枚目の画像はゼロショットカーネルの配置． 2枚目の画像は一般化ゼロショット学習プロトコルと新たに提案されたデータ集合についての評価．（tr）はtrain + testクラス，（ts）はテストクラスの平均トップ1精度，(H)はハーモナイズされたスコア，(Better than SOA）は提案手法が他の最先端の方法（表の上部）よりも優れているデータセットの数を示す．

コメント・リンク集

link1

リンク集

論文

[#469]

Learning Attentions: Residual Attentional Siamese Network for High Performance Online Visual Tracking

Qiang Wang, Zhu Teng, Junliang Xing, Jin Gao, Weiming Hu, Steve Maybank

CVPR 2018

Takahiro Itazuri

概要

物体追跡のためのオフライン学習ベースの手法は精度とスピードにおいて高いポテンシャルがあるが、追跡対象に適応させることは困難である。一方で、オンライン学習ベースの手法は計算コストとオーバーフィッティングが問題になっている。本論文では、Siamese NetworkにおけるCross CorrelationをAttentionで重み付けしたRASNet（Residual Attentional Siamese Network）を提案し、リアルタイムを超える速度（83fps）とSOTAを実現した。

RASNet

新規性・結果

Siamese NetworkにAttention Mechanismを導入した。Attention MechanismにはResidual AttentionとGeneral Attentionを含むDual Attentionと、Channel Attentionを導入した。Resiual Attentionは追跡対象に特化させるようにオンライン学習をし、Channel Attentionはチャンネルごとの特徴量の質を示している。

論文

[#479]

GroupCap: Group-based Image Captioning with Structured Relevance and Diversity Constraints

Fuhai Chen, et al.

CVPR 2018

Munetaka Minoguchi

概要

画像グループ内での関連性や相関関係などを考慮し、キャプションを出力するGroupCapの提案。まず、個々の画像でvisual tree parser(VP-Tree)を構成し、文字ベースで意味の相関を構築。次にツリーの関係から、画像間での関連性と多様性をモデル化。この制約関係をもとにLSTMでキャプション生成。これらをトリプレットロスとしてend-to-endで学習する。

新規性

従来のイメージキャプショニングでは、単一画像に対して説明文を生成している場合がほとんど。これらはオフラインで学習し、画像間での視覚的構造関係を無視して推定している。本手法のグループベースの手法によって、グループ画像内での構造的関連性や多様性を協調して学習することでキャプションの正確性を向上させる。

結果・リンク集

MSCOCOをもとに作成した2グループキャプションデータセットを使用して評価し、優れていることを示唆。

論文

[#480]

MoNet: Deep Motion Exploitation for Video Object Segmentation

Huaxin Xiao, et al.

CVPR 2018

Munetaka Minoguchi

概要

動画中の物体にセグメンテーションを行うタスクにおいて、フレーム間処理をモーションキューによって改善するMoNetの提案。オプティカルフローを利用し、その近傍の表現を統合することにより、ターゲットフレームでの表現を強化する。これにより、時間変化におけるコンテキスト情報を活用することができ、外観変動やモーションブラー、物体の変形に頑健となる。また、動作の一致性を考慮することで、ノイズの大きいモーションキューを前景または背景に変換し、精度を向上させている。

新規性

セグメンテーションの改良と、フレームごとの学習を行うという観点からモーションキュー(オプティカルフロー)を利用している。これによって、前景と背景の分離する制度を向上。また、distance transform layerを提案し、動作が一致しないインスタンスと領域をフィルタリングすることができる。

結果・リンク集

実験において、モーションキュー利用の有効性と、 distance transform layerの有効性を示している。

論文

[#481]

DeepMVS: Learning Multi-view Stereopsis

Po-Han Huang et al.

CVPR 2018

Yoshihiro Fukuhara

概要

Learning-based Multi-View Stereo の研究. 任意の枚数の画像から, 視差 Map の推定を行う（推定結果は入力の順番に依存しない）. また, ネットワークの学習のため, 新しい synthetic datasets (MVS-SYNTH dataset) を作成・公開した. ETH3D を用いた評価実験では DeMoN を上回り, COLMAP と同等の結果を達成した.

新規性・結果・なぜ通ったか？

複数枚の画像（1枚の参照画像と複数枚の近傍画像）を入力とする, Learning-based Multi-View Stereo（MVS）の手法を提案
入力画像に対して通常の SfM(COLMAP) を用いてポーズの推定を行った後, D段階の離散的な視差の大きさ毎に近傍画像を参照画像に Warp した画像群 (plane-sweep volume) を生成
参照画像と各 plane-sweep volume に対して Patch matching を行って抽出された特徴量を encoder-decoder 型のネットワークで統合した特徴量を用いて視差 Map を推定
ネットワークを上手く学習させるためには real と synthetic の両方のデータセットが重要であるとし, 新しい synthetic datasets (MVS-SYNTH dataset) を作成・公開した
ETH3D を用いた評価実験で COLMAP[Schonberger+16] と DeMoN[Ummenhofer+17] と比較した結果, ETH3D で最も精度の高い COLMAPと同等の Photometric error と Geometric error を達成
特に複雑で復元が難しいような環境に対しては, COLMAP がノイズの多い復元結果となる一方で, 提案手法は妥当な推定をする傾向が確認された
Limitation は植物の多い領域で視差 Map の推定に失敗やすいという点や, plane-sweep volumes の計算に時間がかかる点

コメント・リンク集

[#482]

2018.6.22 5:55:55

Learning Compact Recurrent Neural Networks with Block-Term Tensor Decomposition

Jinmian Ye et al.

CVPR 2018

Kazuma Matsui

概要

RNNは強力なシーケンスモデリングツールであるが，高次元の入力を扱う場合，RNNのトレーニングはモデルパラメータが大きくなるため計算に時間がかかるという問題がある．これは，RNNがビデオや画像キャプションのアクションレコグニションなど，多くの重要なコンピュータビジョンのタスクを行うことを妨げる．この問題を解決するためにRNNのパラメータを大幅削減し，トレーニング効率を向上させるコンパクトで柔軟な構造「Block-Termテンソル分解(BTD)」を提案し，これをBlock-Term RNN (BT-RNN)と名付ける．テンポトレインRNN (TT-RNN)のような他の低ランク近似とBT-RNNを比較すると，同じランクを使用する場合，より簡潔でより良い近似が可能であり，より少ないパラメータで元のRNNに戻すことが可能である．ビデオ，画像キャプション，画像生成のアクションレコグニションを含む3つの困難なタスクに対し，BT-RNNは予測精度と収束速度の両方でTT-RNNや標準のRNNより優れていると言える．この研究において，BT-LSTMはUCF11データセットのアクションレコグニションのタスクで15.6%以上の精度向上を達成するために，標準LSTMより17,388回少ないパラメータを使用した．

Learning_Compact_Recurrent_Neural_Networks_with_Block-Term_Tensor_Decomposition.jpg

新規性・結果・なぜ通ったか？

BTDは最適なTT-rankの設定を見つけることを困難にする代わりに次のような利点がある．・Tucker分解は異なる次元間の相関関係を表し，より良い重み分担を達成するためにコアテンソルを導入している。・コアテンソルのランクを等しくすることができ，異なる次元での不均衡な重みの共有を避けることができ，かつ入力データの異なる順列に対して頑強なモデルを導くことができる．・BTDは，複数のTuckerモデルの合計を使用して高次テンソルを近似し，大きなTucker分解をいくつかのより小さいモデルに分割し，ネットワークを広げ，表現能力を高めることができる．一方で複数のTuckerモデルは、，ノイズの多い入力データに対してより堅牢なRNNモデルを導く．結果として，BTDを使用してRNNの入力非表示重み行列の接続をプルーニングすることにより，パラメータの数が少なく，フィーチャディメンション間の相関モデリングが強化された新しいRNNモデルが提供され，モデルトレーニングが容易になり，パフォーマンスが向上した．ビデオ行動認識データセットの実験結果は，BT-RNNアーキテクチャが数オーダのパラメータを消費するだけでなく，標準的な従来のLSTMおよびTT-LSTMよりもモデル性能を向上させることを示していると言える．

コメント・リンク集

論文

[#483]

2018.6.21 18:48:30

End-to-End Dense Video Captioning with Masked Transformer

Luowei Zhou, Yingbo Zhou, Jason J. Corso, Richard Socher, Caiming Xiong

CVPR 2018

Okayasu

概要

動画内のいつ行動が行われたかのTemporal Action Proposals(TAP)とどのような行動が行われたかのキャプションを行うタスクにおいて，self-attentionを用いて既存手法を改善する．

End-to-End_Dense_Video_Captioning_with_Masked_Transformer_1

新規性・結果・なぜ通ったか？

ActivityNet CaptionsとYouCookIIでキャプションの評価を行い，METEORスコアが10.12と6.58であった．

SoTAではないが，時間的なイベントの検出とイベントのキャプショニングをEnd-to-Endに行う手法であること．また，このようなタスクで初めてのRNN-basedでは無い手法を提案したこというところが新規性．

コメント・リンク集

[#484]

Modulated Convolutional Networks

Xiaodi wang , Baochang Zhang

Kazuki Tsubura

概要

・CNNは画像処理の様々なタスクをこなすうえでとても有効だが，ネットワークのストレージにかなりのコストを要求するため，展開が制限される．2値化フィルタを用いたCNNの移植性向上のための新しい変調畳み込みネットワーク(MCNs)を提案する．MCNでは，end-to-endフレームワークにおけるフィルタ損失，中心損失，ソフトマックス損失を考慮した新しい損失関数であるM-フィルタを提案する．

新規性・差分

・非二項フィルタを復元するために，M-フィルタを導入しネットワークモデルを計算するための新しいアーキテクチャを導出する．MCNは完全精度モデルとは対照的に，畳み込みフィルタの必要な記憶スペースのサイズを32倍に縮小することができ，最先端の2値化モデルよりもはるかに優れた性能を達成した．また，MCNは完全精度のResentsおよびWideResentsと同等のパフォーマンスを達成した．

論文

[#485]

2018.6.20 19:49:11

Ordinal Depth Supervision for 3D Human Pose Estimation

Georgios Pavlakos, Xiaowei Zhou, Kostas Daniilidis

CVPR 2018

Shusuke Shigenaka

概要

3D ground truthの存在しないデータに対し人間の関節の奥行きデータの監視信号を使用することを提案。人体関節の奥行きを用いて3Dの姿勢推定をConvNetsで学習すると正確な関節座標で学習結果を得ることができる。通常の深さ注釈をもつ2Dポーズデータセット(LSPとMPII)はConvNetsの学習に容易に組み込むことができるため、ポーズデータセットを拡張させることにより3Dの姿勢に対する序数の深さ正確なものにし、標準のベンチマークでstate-of-the-artを達成した。

Ordinal_Depth_Supervision_for_3D_Human_Pose_Estimation

新規性・結果・なぜ通ったか？

3D ground truthを必要としない
2Dポーズデータセットを使うことで、スタジオ以外の条件での3Dポーズ推定でも高い精度を得ることができる
Human3.6Mのデータセットではこれまで誤差が47.7だったのに対し41.8を達成しており、HumanEva-Iデータセットにおいてはこれまで誤差が24.6だったのに対し18.3と大幅に更新をしている

リンク集

論文

[#486]

2018.6.21 18:00:49

A Weighted Sparse Sampling and Smoothing Frame Transition Approach for Semantic Fast-Forward First-Person Videos

M. Silva, W. Ramos, J. Ferreira, F. Chamone, M. Campos

CVPR2018

Ryota Suzuki

なめらかに早送りするという，ビデオ要約の新たな形を提案．

新しい適応的なフレーム選択手法を提案．重み付き最小値再構築問題として定式化．そこに，スムーズなフレーム遷移の手法を組み合わせる．通しで見るとなめらかに見えるようにフレームを落とす．

新規性・結果・なぜ通ったか？

問題設定が面白い．流行りのビデオ要約の流れを汲みつつ，意識的に新しい枠組みを提案している．しかも十分実行可能と思われる問題である．想定される成果の見栄えもよい．解き方もちゃんとしている．

コメント・リンク集

[#487]

2018.6.21 17:42:48

Weakly Supervised Coupled Networks for Visual Sentiment Analysis

J. Yang, D. She, Y. Lai, P.L. Rosin, M. Yang

CVPR2018

Ryota Suzuki

画像で感情分析を行う研究．従来法は全体的な画像特徴からセンチメント表現を学習していたが，本研究では局所特徴もとらえるようにした．

弱教師付き二つ組CNNによる．(1)感情に特定的にソフトマップを検出するFCNN．画像レベルのラベルだけ必要にしたので，画素レベルアノテーションのようなアノテーション負荷が低くて済む． (2)ロバストなクラス分類のために，深層特徴を使い，感情マップを2つ組することによって，全体・局所情報の両方を活用．そして，これら2つを統合してEnd-to-Endで最適化できるようにする．

新規性・結果・なぜ通ったか？

より詳細に画像を見るように設計した．その結果，6つのベンチマークで評価を行い，SOTA性能を達成．

コメント・リンク集

論文

[#488]

2018.6.21 16:46:09

A Low Power, High Throughput, Fully Event-Based Stereo System

A. Andreopoulos, H.J. Kashyap, T.K. Nayak, A. Amir and M.D. Flickner

CVPR2018

Ryota Suzuki

著者らIBMが開発した100万個のノードが伝達しあうニューラルネットワークを模倣したプロセッサ「TrueNorth」を使った，新しいカメラ「Dynamic Vision Sensor」を使ってステレオしてみた論文．

Dynamic Vision Sensorは，通常カメラのフレーム撮影方式ではなく，イベントベースに，各画素が非同期で撮影するという新たな撮影方式のセンサである．これにTrueNorthを組み合わせれば，完全にグラフベースで，配列などのあらゆるデータ構造無しにフォン・ノイマン型計算モデルの計算が可能である．

これにより，2000fpsの視差マップ生成を達成．通常のカメラではとらえられない急激な変化をとらえることが可能．しかも200倍省エネ．

新規性・結果・なぜ通ったか？

上記参照．

コメント・リンク集

新製品の宣伝的論文っぽい．確かに面白いカメラシステムなので，今後これを軸に新たな枠組みが発生するかもしれない？

論文

[#489]

2018.6.21 16:19:51

M3: Multimodal Memory Modelling for Video Captioning

J. Wang, W. Wang, Y. Huang, L. Wang, T. Tan

CVPR2018

Ryota Suzuki

ビデオキャプショニングの話題．Long-Termのマルチモーダルな依存性のモデリングと文脈的ミスアラインメントがあるのに対し， (1)メモリモデリングするのは Long-Term系列的問題に対して潜在的な利点がある（なにそれ）， (2)視覚的アテンションにおいてワーキングメモリは主要素，という二点の事実を考慮した， Multimodal Memory Modelling（M3）を提案． LSTMの外部に視覚-テキスト間共有メモリを持ち，Long-Termな視覚-テキスト間依存性をモデル化する．

新規性・結果・なぜ通ったか？

MSVD，MSR-VTTで評価し，BLEU，METEORにおいてSOTA性能．

コメント・リンク集

HMMのように見える．

論文

[#490]

2018.6.21 15:30:05

Going from Image to Video Saliency: Augmenting Image Salience with Dynamic Attentional Push

S. Gorji and J.J. Clark

CVPR2018

Ryota Suzuki

画像における静的なSaliency Modelを，動的なビデオのSaliencyの予測に使う手法．この著者らは，前回に写真内に写っている人の注視（Attention）をCNNのAttentionと組み合わせるというShared Attentionに関する論文を出していたが，今度は写真を撮る人・シーンに映っている人のShared Attentionについて取り組んだ．

マルチストリームCNN-LSTM構造を提案．これはSoTAなSaliencyをDynamic Attentional Pushに拡張する．

4つのステージからなる．Saliencyステージと，3つのAttentional Pushステージ．この複数ステージ構造は，Augmenting ConvNetに従っている． ConvLSTMの補足（complementary）と時間変化出力組み合わせで学習．拡張したSaliencyと，ビデオにおける「見ている人」修正パターンの間のRelative Entropyの最小化を行う．

新規性・結果・なぜ通ったか？

動画データセットHOLLYWOOD2，UCF-Sport，DIEMにおいて，SoTAな時空間Saliency推定性能を達成．

コメント・リンク集

発展ネタを自分で出して，しかもCVPR連続当選．

論文

[#491]

2018.6.21 12:24:09

Jointly Localizing and Describing Events for Dense Video Captioning

Y. Li, T. Yao, Y. Pan, H. Chao and T. Mei

CVPR2018

Ryota Suzuki

Dense Video Captioningの話．イベントの発生時間のプロポーザルと，それぞれのイベントにおける文章生成の両者を結合的にEnd-to-Endで学習する， Descriptiveness Regressionを提案．シングルショット検出に組み込む．これは文章生成を経由したプロポーザル時間ごとの説明的複雑性を推論する．これが時間定位の調節につながるらしい．キャプショニングと検出の結合・汎用最適化をするところが他手法と異なるらしい．

新規性・結果・なぜ通ったか？

動画データセットActivityNetにおいてSoTAを達成．著者らはMETEORで12.96%出たのがすごいと言っている．

コメント・リンク集

Dense Video Captioning: イベントの時間的定位と説明文を付けるタスク．

論文

[#492]

2018.6.21 11:51:21

Audio to Body Dynamics

E. Shlizerman, L. Dery, H. Schoen and I. Kemelmacher-Shlizerman

CVPR2018

Ryota Suzuki

「音から手の動きは生成可能か？」バイオリンやピアノ演奏の音声を入力すると，アバターが演奏しているかのようにアニメーションするようなスケルトンの推定を行う手法を提案．結論：できる．

実際ちゃんとやるにはいくつかアドホックな工夫が必要なようで，詳細はおのおの論文を確認してもらいたい．学習時に使うスケルトンデータはYouTubeのリサイタル動画からOpenPoseやMaskRCNNを駆使して生成する．入力音声からこの手法で 13次元ベクトルに変換し，さらにその時間差分や音量エネルギーを足した28次元ベクトルにする．これから上半身のスケルトンの時系列を生成するLSTMを作り，スケルトンにアバターを着せてアニメーションを作成する．

新規性・結果・なぜ通ったか？

アプリケーション枠らしく，見た目の良さがあり，また実装上の困難と解決についてちゃんと書いているのが評価されたものと思われる．アプリケーションとして利用するに当たって，どれだけうまくいけるのかが窺い知れる資料として貴重に思われる．

コメント・リンク集

1ページ目が既に他の論文と一線を画そうとしている．Fun to readという点で参考になるので，一度読んでみることを勧める．

[#493]

2018.6.21 11:28:41

Separating Self-Expression and Visual Content in Hashtag Supervision

A. Veit, M. Nickel, S. Belongie, L. Maaten

CVPR2018

Ryota Suzuki

Facebookでの研究．ユーザのこれまでのハッシュタグから，一意に同定できない意味の単語のハッシュタグでもユーザが意図した画像検索ができるようにした．画像のDeCAFを取り，ユーザの履歴特徴，ハッシュタグ特徴を埋め込んだ３次テンソルを構成，多クラスロジスティック関数などで評価する．

新規性・結果・なぜ通ったか？

MLPによる手法よりこちらの方が良い性能を示した．Top1で43.7%，Top10で72.12%のAccuracy．

コメント・リンク集

論文

[#494]

2018.6.21 10:37:18

Human-centric Indoor Scene Synthesis Using Stochastic Grammar

S. Qi, Y. Zhu, S. Huang, C. Jiang, S. Zhu

CVPR2018

Ryota Suzuki

3D部屋レイアウトとその2D画像との合成の話題．

Spatial And-Or Graph (S-AOG) ※ で屋内シーンを表現する．終端ノードは物体エンティティ（部屋とか家具とかその他）．

終端ノードに対し，マルコフランダム場（MRF）を用い，人間の文脈で関係性をエンコードする．屋内シーンデータセットから分布を学習し，モンテカルロマルコフ連鎖（MCMC）を使って新しいレイアウトをサンプルする．

Item3Image

新規性・結果・なぜ通ったか？

3つの視点で有効性を確認．

SOTAな部屋アレンジ手法と比較しての，視覚的リアルさ
GTに対する，アフォーダンスマップの精度
合成部屋の機能性，自然っぽさを人間の被験者で評価

コメント・リンク集

※S-AOGは確率的文法モデルの一つ．

論文

[#495]

2018.6.20 11:41:06

Fast Monte-Carlo Localization on Aerial Vehicles using Approximate Continuous Belief Representations

A. Dhawale, K.S, Shankar, N. Michael

CVPR2018

Ryota Suzuki

ドローンのようなサイズ，重さ，力が制約されたプラットフォームでも，3D自己位置同定を高速に行えるフレームワークを提案．点群データの混合ガウス分布（GMM）表現による圧縮をキーアイデアとしている．

デプスセンサのデータと，オンボード姿勢参照システムからピッチとロールを得る．データをGMMで表現した尤度を使って，複数仮説パーティクルフィルタにより定位．

Item3Image

新規性・結果・なぜ通ったか？

CVPRでは，高速性・省メモリに関するトピックに興味があるかもしれない．SLAM系はICRAでは大変多く議論されている話題だが，逆にCVPRだとアプリケーション枠で通る可能性があるかもしれない．

コメント・リンク集

論文

[#496]

2018.6.20 11:13:48

Variational Autoencoders for Deforming 3D Mesh Models

Q. Tan, L. Gao, Y. Lai and S. Xia

CVPR2018

Ryota Suzuki

3Dメッシュの変形に関して，Variational AutoeEcoder(VAE)を使ってみたという研究．可能な変形の確率的潜在空間の探索を行う．学習は簡単で，学習データも少なくて済む（どれくらい？）事前分布を代替することで，異なる潜在変数の顕著性（Significance）を柔軟に調節可能な拡張モデルも提案．

Item3Image

新規性・結果・なぜ通ったか？

形状生成，形状補完，形状空間埋め込み，形状探索においてSoTA越え．

コメント・リンク集

論文

[#497]

2018.6.20 10:42:57

Density-aware Single Image De-raining using a Multi-stream Dense Network

He Zhang and Vishal M. Patel

CVPR 2018

Kodai Nakashima

概要

DID-MDN (density-aware multi-stream densely connected convolutional neural network-based algorithm) と呼ばれる、画像内の雨量密度推定と雨除去を行うアルゴリズムを提案。雨のストロークをより良く特徴づけるため、multi-stream densely connected de-raining networkでは異なるスケールの特徴量を効率的に活用する。また、雨密度ラベル付き画像を含むデータセットを新たに作成した。このデータセットを学習に使うことにより、state-of-the-artな手法を超えることができた。

1802.07412_fig1.png 1802.07412_fig2.png 1802.07412_fig3.png

新規性・結果・なぜ通ったか？

PSNRとSSIMにより雨除去の性能を評価した。比較に使用した手法、および、結果は右図の通り。右図におけるTest1とTest2は、使用したテストセットが異なることを表している。

コメント・リンク集

[#498]

2018.6.21 17:32:13

SeGAN: Segmenting and Generating the Invisible

Kiana Ehsani, Roozbeh Mottaghi and Ali Farhadi

CVPR 2018

Kodai Nakashima

概要

オクルードされている物体の全体像を推定するため、SeGANを提案。SeGANは物体の見えていない領域のセグメントを生成することができる。また、occluderとoccludeeの関係も推定することができる。さらにSeNetはcategory-agnosticでありカテゴリー情報を必要としない。データセットにはDYCEを使用。

1703.10239_img2.png 1703.10239_img3.png

新規性・結果・なぜ通ったか？

右図に示すように、他のセグメントベースラインと比べ、SeGANが見える領域、見えない領域、それらの組み合わせの全てにおいて最も良い結果を出した。ここで、SUは見える領域のセグメント、SIは見えない領域のセグメント、SFは全体像のセグメントを表している。

コメント・リンク集

[#499]

2018.6.21 15:42:10

Leveraging Unlabeled Data for Crowd Counting by Learning to Rank

Xialei Liu, Joost van de Weijer, Andrew D. Bagdanov

CVPR 2018

Shusuke Shigenaka

概要

群衆の画像データにおいて、ネットワークの訓練を改善するためのself-supervisedタスクを提案。タスクは集計情報とランキング情報の両方を組み合わせたマルチタスクフレームワークであり、群衆カウントのためにend-to-endで訓練できる。群衆画像をだんだん小さくするように切り取って人数をランク付けおり、提案されたself-supervisedタスクはラベル付けのされていない群衆画像のCNNに大きく貢献した。提案手法は群衆計測の困難なデータセットShanghaiTechとUCF CC 50においてstate-of-the-artを得ている。

Leveraging_Unlabeled_Data_for_Crowd_Counting_by_Learning_to_Rank

新規性・結果・なぜ通ったか？

困難とされている2つのデータセットでstate-of-the-artを得たこと
大人数のデータはその人数のデータより少ない数で観察というルールに基づいて計測を行っているため、大規模なトレーニングデータセットの欠如に対処することができている

リンク集

[#500]

2018.6.21 15:36:28

Conditional Image-to-Image Translation

Jianxin Lin, Yingce Xia, Tao Qin, Zhibo Chen and Tie-Yan Liu

CVPR 2018

Kodai Nakashima

概要

image-to-image translationタスクで用いられるモデルは、ターゲットドメインの翻訳結果をコントールする機構がなく、出力結果が多様性に乏しい。この研究では、1. conditional image-to-image translationをいう問題を新たに設定し、2. この問題を解くためにconditional dual-GAN (cd-GAN) を提案する。 1では、複数の画像を組み合わせたtarget domainが入力されたsorce domainを変換する問題を扱う。複数の画像をどのようにして組み合わせるかで多様性に富んだ変換結果が得られる。

1805.00251_img1.png 1805.00251_img2.png

新規性・結果・なぜ通ったか？

入力は64x64とする。eA, eBは3つの畳み込み層で構成されており、各畳込み層の活性化関数にLReLUを用いる。デコレーターネットワークであるgAとgBは4つのデコンボリューション層から構成されており、はじめの3層はReLUで活性化し、4層目にはtanhで活性化する。ディスクリミネーターであるdAとdBは4つの畳み込み層と2層の全結合層から構成されており各層の活性化関数にLReLUを用いる、最後の層（2つ目の全結合層）のみsigmoidで活性化する。オプティマイザーはAdamを用い、学習率は0.0002とする。以上の設定で実験した結果を右図に示す。

コメント・リンク集

[#501]

2018.6.21 14:34:27

Empirical study of the topology and geometry of deep networks

Alhussein Fawzi et al.

CVPR 2018

Yoshihiro Fukuhara

概要

DNN 画像クラス分類器の入力空間における位相的・幾何学的性質を実験的に分析した研究. DNN が学習している各クラスの領域は接続されたものであり, その境界は少数の大きな曲率をもつ方向と, 平坦な大多数の方向があることが確認された. また, 大きな曲率をもつ方向はデータ間で共有されており, これらの方向とネットワークの摂動に対する感度に関係性があることを確認した.

fukuhara-Empirical-study-of-the-topology-and-geometry-of-deep-networks.png

新規性・結果・なぜ通ったか？

理論のみを用いた解析は困難なため, 実験を行って性質の分析を行った
DNN が学習している同じクラスの領域は接続されたものであり, その領域はほぼ凸集合になっている（凸集合に近いが実際には違う）
クラスの境界の主曲率は多数の方向で０であったが, 大きな値をもつ方向が少数存在
主曲率の値は非対称で大きな負の値を持つ方向が多い (この結果はネットワークの構造やデータセットなどを変えても共通して確認された)
主曲率の大きな値をもつ方向はデータ間で共有されていることを確認
主曲率の大きな値をもつ方向は, ネットワークが誤認識をしやすい摂動の方向となっていることを確認（adversarial perturbation との関連が確認された）
クラスの境界の主曲率の値の非対称を用いて, 元画像と adversarial perturbation を加えられた画像を識別する方法を提案 (GoogLeNet や CaffeNet を用いて行った実験では90％以上の精度を達成)

コメント・リンク集

[論文] Empirical study of the topology and geometry of deep networks
本研究で確認された入力空間における位相的性質と同様の性質が, weight の空間でも報告 [Freeman+ 16] されており, ２つの空間の関連性を調べることは今後の課題とされている.

[#502]

2018.6.21 6:30:55

Learning to Find Good Correspondences

Kwang Moo Yi, Eduard Trulls, Yuki Ono, Vincent Lepetit, Mathieu Salzmann and Pascal Fua

CVPR 2018

概要

2枚の画像間の対応点探索を学習ベースで行う方法を提案。従来のhandcrafted特徴(SIFTなど)による手法は、特徴量により候補を決めた上でRANSACなどのアルゴリズムで対応点かそうでないかを決定する。本研究では同様に、候補となる対応点の中から実際に対応しているペアをMulti Layer Perceptrons(MLPs)により決定する。対応点の数は画像によって異なるので、ネットワークには対応点のペア(4変数)毎に実際に対応しているかの判定を行う。一方で、中間層出力を全ペアの平均と分散により正規化することでglobal contextを考慮する。(Context Normalization) 学習は、ペアの判定が正しいか、判定結果を用いてessential matrixが正しく求められるかによって行う。その際、学習データに対して対応点のアノテーションを手動で与えるのは非常に時間がかかってしまう。そこでepipolar distanceを用いた閾値処理により対応点を取得する。

Item3Image

新規性・結果・なぜ通ったか？

ベースラインと比較して、学習したシーン、学習していないシーンどちらにおいても高い精度ないし同等の精度を出すことに成功。59枚の学習データのみで学習した場合であっても、ベースラインと比べ高い精度を出すことに成功。 RANSACのみで対応点を決定する場合より、提案手法により候補を絞った上でRANSACにより更に候補を削るほうが17倍計算時間が早い。

コメント・リンク集

論文

[#506]

2018.6.19 21:07:56

Anticipating Traffic Accidents with Adaptive Loss and Large-scale Incident DB

Hirokatsu Kataoka, Tomoyuki Suzuki, Yoshimitsu Aoki and Yutaka Satoh

CVPR 2018

Kodai Nakashima

概要

交通事故予測のため, 1. loss関数としてAdaptive Loss for Earlay Anticipation (AdaLEA)と2. 予測のためのNear-miss Incident DataBase (NIDB) の提案を行った. AdaLEAにより, モデルが学習過程において, 徐々に早く危険を予測できるように学習される. モデルが交通事故を予測する速さでペナルティを与えることにより, これを実現する. NIDBは, 多くの交通ニアミス動画を含んでおり, 危険と危険要素予測の評価用アノテーションが付けられている.

1804.02675_img1.png 1804.02675_img2.png

新規性・結果・なぜ通ったか？

ベールモデルとしてDSA, LSTM, QRNN, loss関数としてEL, LEA, AdaLEAを用いて実験した.その結果, 危険予測では, mAPが6.6%上昇, ATTCが2.36sec速くなった. また, 危険要素予測では, mAPが4.3%上昇, ATTCが0.70sec速くなった.

コメント・リンク集

論文URL

[#507]

2018.6.20 20:03:48

“Zero-Shot” Super-Resolution using Deep Internal Learning

Assaf Shocher, Nadav Cohen, Michal Irani

CVPR 2018

Shusuke Shigenaka

概要

実際の古い写真,ノイズの多い画像,生物学的データ,取得プロセスが不明または非理想的な画像のSuper-Resolution(SR)を実行を行うことができるZero-Shot SR(ZSSR)を提案．過去の画像例や事前訓練に依存することなく,Low-Resolution(LR)とその縮小版から複雑な画像特有のHR-LR関係を推論するCNNを訓練を行うことにより, 実際のLRの画像において,State-of-the-artなCNNベースのSRおよび教師なしSRよりも優れている．

Zero-Shot171206087

新規性・結果・なぜ通ったか？

SR-CNNは大規模な外部データベースの画像を事前に訓練しているのに対し,ZSSRは小さな画像から粗い解像度のテストデータを訓練．

ZSSRは同じ教師なしのSelfExSRにと比べ全てのDataSetにおいて優れている．教師あり学習でも通常のLRはあまり変わらない精度を出しており,未知LR画像で確認をするとかなり優れた精度を出している．

リンク集

[#508]

2018.6.20 11:43:55

Crafting a Toolchain for Image Restoration by Deep Reinforcement Learning

Ke Yu et al.

CVPR 2018

Yoshihiro Fukuhara

概要

強化学習（Deep Q-learning）を用いた画像復元の研究. 単一の大きなネットワークを用いる手法とは対照的に, 特定の distortion に対する復元に特化した小さなネットワークを複数集めて toolbox とし, agent が各ステップにおいて最適な tool を選択することで段階的な復元を行う. 評価実験では従来の大きな単一のCNNを用いた手法と同程度の精度を20%程度の計算量で実現した.

fukuhara-Crafting-a-Toolchain-for-Image-Restoration-by-Deep-Reinforcement-Learning.png

新規性・結果・なぜ通ったか？

強化学習を用いて段階的に画像復元を行うフレームワークを提案
agent は action として, 各ステップにおいて特定の distortion に対する復元に特化した小さなネットワークを複数集めた toolbox の中から最適なものを選択
段階的な復元を行うと中間のステップにおいて生じる複雑な atifact を扱うため agent と tool の joint training アルゴリズムを提案
DIV2K dataset を用いて行った評価実験では, PSNR 尺度において単一の大きなCNNを用いた場合と同程度の精度を約20％計算量で実現

コメント・リンク集

[論文] Crafting a Toolchain for Image Restoration by Deep Reinforcement Learning
[Code] GitHub
どのネットワークを使うべきかという高次の意思決定を強化学習で学習するという方針が面白い. (Hierarchical Reinforcement Learning と類似の考え方)

[#509]

2018.6.20 8:58:55

Reward Learning from Narrated Demonstrations

Hsiao-Yu Tung et al.

CVPR 2018

Yoshihiro Fukuhara

概要

動画による教示と言語による説明を組み合わせて Reward の学習を行う研究. 言語情報によって与えられた目標の達成の可否を, 画像情報から判断する Instractable Perceptual Rewards を提案し, 学習用のデータセットを作成した. また, 評価実験では教師ありで静止画像のみから学習した場合と比較して, 優位な結果を達成した.

fukuhara-Reward-Learning-from-Narrated-Demonstrations.png

新規性・結果・なぜ通ったか？

言語情報によって与えられた目標の達成の可否を, 画像情報から判断する Instractable Perceptual Rewards を提案
上記の教師データとして, 動画による教示に言語による説明を付随した, Narrated Visual Demonstration (NVD) のデータセットを作成した
提案手法は hard negative mining によって少ない教師データからの効率的な学習が可能
評価実験では Visual Genome のみを用いて学習した手法 [Hu+16] と比較して優位な結果を達成

コメント・リンク集

[論文] Reward Learning from Narrated Demonstrations

[#510]

2018.6.18 23:54:55

Trust Your Model: Light Field Depth Estimation With Inline Occlusion Handling

Hendrik Schilling, Maximilian Diebold, Carsten Rother, Bernd Jähne

CVPR 2018

概要

LightFieldカメラからの距離画像推定の問題を提案。オクルージョンに伴う物体境界の精度や質向上に対して操作を行なったことが貢献である。従来法とは異なり、PatchMatchをベースラインとして距離画像とオクルージョン領域を同時推定を直接的に行う。同時推定を行うことで、データを全て同時に学習に用いることができ、さらに前処理のステップが不要になる。結果的には、オクルージョン領域の推定を行い物体境界をケアしただけでなく滑らかな表面再構成に成功した。公開されているLightFieldデータセットにて評価した結果、12のうち9の指標においてState-of-the-artな数値を出した。

180618TrustYourModel

新規性・結果・なぜ通ったか？

ライトフィールドカメラを用いた距離画像推定においてオクルージョン対策を講じた。距離画像とオクルージョン領域を同時推定する手法では既存のライトフィールドカメラにおける評価指標においてState-of-the-art。さらに、平面推定においても高度な推定を実現した。

コメント・リンク集

同時推定のうまい手法を考案、副次的に平面が滑らかになるというのも面白い！

論文

[#511]

2018.6.18 23:54:56

MobileNetV2: Inverted Residuals and Linear Bottlenecks

Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, Liang-Chieh Chen

CVPR 2018

概要

モバイルで動作する新規アーキテクチャMobileNetV2の提案論文、データセットを用いた複数タスクにてState-of-the-artな精度を達成した。物体検出のモデルであるSSDLiteやセマンティックセグメンテーションのモデルであるMobile DeepLabv3を考案した。これらはInverted Residual Structureと呼ばれる、ショートカットコネクションが小さなボトルネックレイヤに挟まれた構造を最小ユニットとして構成される。中間の拡張レイヤは非線形関数として軽量化されたdepthwiseの畳み込みとして実装される。右図に本論文の重要技術であるInverted Residual Blockについて示す。従来のResidual Block（左）は前後のdepthが広いが、提案のInverted Residual Blockは中ふたつがdepthが広く、前後は狭い。

180618MobileNetV2

新規性・結果・なぜ通ったか？

Inverted Residual Blockの提案等によりモバイルサイズのモデルにおいても良好な認識精度のモデルを提案することに成功。認識精度とパラメータ数のトレードオフについても良好で、さらにはCPUにおいても高速に動作することを示しCVPRに採択された。

コメント・リンク集

モバイルネットv2、応用範囲が広そう。

[#512]

2018.6.18 23:07:41

PoseFlow: A Deep Motion Representation for Understanding Human Behaviors in Videos

Dingwen Zhang, et al.

CVPR 2018

Munetaka Minoguchi

概要

動画から人間の行動を理解するためのPoseFlowの提案。PoseFlowはオプティカルフローに代わる新しい動き表現であり、背景の動きによるノイズやオクルージョンに頑健。人間の骨格位置とマッチングの2つの問題を同時に解決するようなネットワークであるPoseFlow Net(PFN)を提案し、学習する。これにより、人体の部分のみに動きベクトルが付与された出力を得ることができる。

新規性

従来手法では、オプティカルフローを使ってモーションキューを探索している場合が多いが、背景の動きなども取ってしまうので“ノイズが多い動きの表現”であり、姿勢推定や行動認識のタスクにおいて支障をきたす。実験では、従来手法と比較して、姿勢推定や行動認識タスクにおいて高精度となっている。

結果・リンク集

図のように、オプティカルフローでは背景の動きも取ってしまい、ぼんやりとした出力になっているが、PoseFlowでは人間の骨格の動きのような情報を取得することができる。

論文

[#513]

Stereoscopic Neural Style Transfer

Dongdong Chen, et al.

CVPR 2018

1802.10591

Munetaka Minoguchi

概要

3D映画やAR / VRの需要に先駆けた、Stereoscopic Neural Style Transferの提案。スタイルトランスファーによって、左右視点での整合性を保持するために、style loss functionにdisparity lossを追加し、左右視点での視差制約を設けている。また、リアルタイム性を考慮したソリューションの開発に取り組み、stylization sub-networkとdisparity sub-networkの2つを共同してトレーニングできるモデルを提案。

新規性

ステレオカメラを使ったスタイルトランスファー手法。通常、図(a)のような左右視点の画像とスタイル画像を入力すると1行目のように，左視点(b)と右視点(c)のように左右の視点で差が生じる(d)。このような不一致性は、(e)のアナグリフ画像のようになり、視聴者へ左右視点での三次元的視覚疲労が生じさせる。提案手法ではこのような不一致性を抑制し、2行目のように整合性のとれたスタイルトランスファーを可能にする。

結果・リンク集

提案手法によって、時間的および視差の整合性を考慮しており、3D映像を拡張できる。定量的および定性的評価によって、従来手法よりも高精度であることを示唆。

論文

[#514]

A Common Framework for Interactive Texture Transfer

Yifang Men, et al.

CVPR 2018

Munetaka Minoguchi

概要

局所構造と視覚的豊かさの両方を保持できる、より汎用的なtexture transfer問題を解決するための提案。元画像と元画像のセマンティックマップ(aのようなセグメンテーション画像)と、変換後となるセマンティックマップの3つを入力とする。変換顔のセマンティックマップを元にスタイルトランスファーを実行する(ゴッホを痩せさせるなど)。contour key points match(CPD)やTPSアルゴリズムをベースとしたstructure propogation手法を提案している。

新規性

タスクの多様性と、ユーザガイダンスの簡潔さをテーマに取り組んでいる。図のように、(a)簡単な絵をアートワークに変更、(b)装飾パターンの編集、(c)テキストに特殊効果を付与、(d)テキスト画像における効果を制御、(e)テクスチャの交換、などユーザのガイダンスによってさまざまなテクスチャの変換を実現できる。

結果・リンク集

他の手法と比較して、人間の視覚的にもより自然な変換ができている。

論文

[#515]

Min-Entropy Latent Model for Weakly Supervised Object Detection

Fang Wan, Pengxu Wei, Jianbin Jiao, Zhenjun Han and Qixiang Ye

Munetaka Minoguchi

概要

弱教師付き学習で物体検出を行うmin-entropy latent model (MELM)の提案。MELMは、object discoveryとobject localizationの2つのサブモデルで構成され、end-to-endで学習可能。 object discoveryで、 global min-entropyと画像分類lossを最適化。local min-entropyとソフトマックスを最適化。グローバルとローカルそれぞれで物体を検出し、エントロピーを最小化し、グローバルからローカルへ物体確率を伝播。

新規性

弱教師付き学習による物体検出は、物体位置と検出を同時に学習するのが困難。弱教師と学習目標間に不一致が生じると物体位置にランダム性が生じ、検出器をうまく学習できない。min-entropyによって、学習中の物体位置のランダム性を計測し、物体位置を学習することができ、検出器のあいまいさを回避できる。

結果・リンク集

回帰的に学習することによって、弱教師であっても精度向上。

論文

[#516]

Avatar-Net: Multi-scale Zero-shot Style Transfer by Feature Decoration

Lu Sheng, Ziyi Lin, Jing Shao and Xiaogang Wang1

CVPR2018

Yuta Matsuzaki

概要

既存手法のZero-shot style transferでは画像生成と効率のトレードオフによって，高品質な画像の生成とリアルタイムでの画像生成(style transfer)が困難．本稿ではこの問題を解決し，効率的かつ効果的な画像生成が可能なAvatar-Netを提案．提案手法では，高品質なstyle transferを可能にし，有効性および効率についても実証．さらに複数のスタイルの統合や動画のデザインを用いたアプリケーションも実装．

新規性・結果・なぜ通ったか？

任意のスタイル画像から意味的に抽出されたスタイル特徴によってコンテンツ特徴を構成するスタイルデコレータを提案
スタイルデコレータにより，全体の特徴分布を一致させるだけでなく，装飾された特徴のスタイルパターンも保持
スタイルデコレータをマルチスケールで抽象化したスタイルを融合させるimage reconstruction networkに組み込むことで，Avatar-Netは1つのフィードフォワードパスでスタイル画像のマルチスケールのスタイルのレンダリングが可能

コメント・リンク集

論文

[#517]

2018.6.19 16:39:58

Real-World Repetition Estimation by Div, Grad and Curl

Tom F. H. Runia, Cees G. M. Snoek andArnold W. M. Smeulders

CVPR2018

Yuta Matsuzaki

概要

動画中に存在する繰り返しの動作を推定する問題について考慮．既存の研究(フーリエベース)では静的および定常周期性という仮定のもとでは良好な精度であるが，現実的なシーンにおいては測定が困難．そこでウェーブレット変換を適用し，非静的かつ非定常な動画においても適切に処理できる手法を提案．また，非静的かつ非定常な動画で構成されるQUVA Repetition datasetを提案．動画内の繰り返し動作のカウント実験では深層学習による手法に比べ，良好な精度を実現．

新規性・結果・なぜ通ったか？

流動場とその微分から，3つの基本的な運動タイプと3次元内の固有周期性の3つの運動周期性を導出
3次元の周期性の2次元的な知覚は2つの極端な視点を考慮しており，18の基本的なケースを考慮
様々な繰り返し動作の出現に対応するために，セグメント化された前景の動きに対する時間変化量Ftおよびその差異∇Ft，∇・Ftおよび∇×Ftを測定

コメント・リンク集

論文

[#518]

2018.6.19 15:04:59

CartoonGAN: Generative Adversarial Networks for Photo Cartoonization

Yang Chen, Yu-Kun Lai and Yong-Jin Liu

CVPR2018

Yuta Matsuzaki

概要

実世界の風景画(写真)を漫画スタイルの画像へ変換する手法の提案．漫画スタイル変換のためのGAN，CartoonGANを提案．ペアの画像を使用しない学習方法を採用し，そのための新規の損失関数を提案．実験では，写真のエッジや滑らかな陰影を保持したまま，アーティストのスタイルを表現することが可能であることを確認．

新規性・結果・なぜ通ったか？

画風変換には以下のような問題が存在，これにより既存の損失関数においては表現が困難

漫画のスタイルは高レベルの単純化と抽象化で独特な特徴を表現
漫画は鮮明なエッジ，滑らかな色合い，比較的シンプルなテクスチャを保有この問題に対処するために以下のような損失関数を提案
semantic content loss：写真と漫画間のスタイル変換に対応するために，VGGNetの特徴マップを疎な正則化によって定式化
edge-promoting adversarial loss：鮮明なエッジを維持

コメント・リンク集

論文

[#519]

2018.6.19 13:57:31

Neural Style Transfer via Meta Networks

Falong Shen, Shuicheng Yan and Gang Zeng

CVPR2018

Yuta Matsuzaki

概要

本稿ではメタネットワークを用いた1つのフィードフォワードパスによる，(style transferのための)ニューラルネットワークパラメータを自動生成する手法を提案．最新のGPU 1つで19 ms以内に任意の新しいスタイルを表現することが可能．また，生成された画像変換ネットワークの容量はわずか449 KBでありモバイルデバイス上でリアルタイムでの実行が可能．

新規性・結果・なぜ通ったか？

既存のstyle transferに関する研究の問題点

スタイル毎にネットワークを学習する必要
推論の段階で確率的勾配降下による膨大な反復作業によって新規スタイルによる生成能力を欠く可能性

以上の問題に対応するための策として

スタイル画像を取り込み，対応する画像変換ネットワークを直接生成するメタネットワークを構築

さらに

最新のGPU 1枚で19 ms以内に任意の新しいスタイルを表現
生成された画像変換ネットワークの容量はわずか449 KB
メタネットワークのhidden featuresを操作することによってスタイル転送ネットワークの多様性について検証

コメント・リンク集

論文

[#520]

2018.6.19 17:17:35

Learning deep structured active contours end-to-end

Diego Marcos, Benjamin Kellenberger, Lisa Zhang, Min Bai, Renjie Liao, Raquel Urtasun

CVPR 2018

Shusuke Shigenaka

概要

この論文は,隣接する建物の境界線を幾何学的特性を利用して正確に描画するDeep Structured Active Contours (DSAC)の提案である．DSACは制約条件であるActive Contour Models(ACM)と従来のポリゴンモデルを使用している．今回はCNNを用いてインスタンスごとのACMのパラメータを学習し, 構造化された出力モデルに全てのコンポーネントを組み込む方法を示し,DSACをend-to-endで学習可能にした．この論文は3つの困難なデータセット"building","instance","segmentation"をDSACで評価し, state-of-the-artと比較して優れた結果を残している．

Learning_deep_structured_active_contours_end-to-end

新規性・結果・なぜ通ったか？

CNNベースの方法に高度な幾何情報を利用可能にすることを目指している．
- 明示的に多角形の出力を生成するCNNの作品はあまり行われていない
CNNによる構造化学習はインスタンスレベルのセグメンテーションを扱う作業で認識されない．
- 本手法は相互依存性をACMで調整することを学ぶため,損失をCNNで学習できる．
IoUとエリア推定において従来のDSACより高い精度

リンク集

[#521]

2018.6.19 17:47:24

TieNet: Text-Image Embedding Network for Common Thorax Disease Classiﬁcation and Reporting in Chest X-rays

Xiaosong Wang et al.

CVPR2018

1801.04334

Takumu Ikeya

概要

胸部のレントゲン写真から胸部疾病の分類及び報告を行うためのテキスト画像埋め込みネットワークの提案．
意味のあるテキストワードや画像領域を可視化するためのmultilevel attention modelsをend-to-endで学習可能なCNN-RNNアーキテクチャに統合．

新規性・結果・なぜ通ったか？

分類精度を向上させるため，学習からattentionベースの画像と文字列内部表現の両方を組み合わせる手法が特徴．
提案したフレームワークは作成した評価用データセットの疾病ラベル割り当てタスクでAUCs平均0.9を達成．

コメント・リンク集

論文

[#522]

2018.6.19 16:12:55

Free supervision from video games

Philipp Krahenbuhl

CVPR2018

Masaki Miyamoto

概要

深層ネットワークでは大量のデータが必要で，ラベル付けされたデータはネットワークのデザイン同様深層ネットワークにとって重要である．しかし手作業の収集はお金と時間がかかる．そこでMicrosoftのDirectXレンダリングAPIを用いてゲームをやりながらリアルタイムでセグメンテーションやオプティカルフローなどのための正解ラベルを作成する手法を提案する．集めたデータセットは他の合成データセットより視覚的に現実世界と近いものになっている．

新規性・結果・なぜ通ったか？

このシステムはリアルタイムにすべてのラベルを計算するため直接ゲームのレンダリングパイプラインにコードを組み込んでいる．また人によるアノテーションが必要ない．さらに，様々なデザインの複数のゲームにおいてこの手法を用いることができる．

コメント・リンク集

論文

[#523]

2018.6.19 16:11:51

Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?

Kensho Hara, Hirokatsu Kataoka, Yutaka Satoh

CVPR 2018

arXiv:1711.09577

Tenga Wakamiya

概要

動画データセット上の比較的浅いものから非常に深いものまでの様々な3DCNNの構造を調べた．

Can_Spatiotemporal_3D_CNNs_Retrace_the_History_of_2D_CNNs_and_ImageNet.png

新規性・結果・なぜ通ったか？

ResNet-18の学習は，UCF-101，HMDB-51，およびActivityNetの過学習していて，Kineticsは過学習しなかった．
Kineticsのデータセットは，深い層の3DCNNで学習するために十分なデータがあり，ImageNetの2D ResNetsと同様に，最大152のResNets層の学習を可能にし，ResNeXt-101は，Kineticsのテストセットで平均78.4％の精度がある．
UCF-101およびHMDB-51上の複雑な2DアーキテクチャよりもKineticsの事前学習されたシンプルな3Dアーキテクチャが優れていて，UCF-101およびHMDB-51でそれぞれ94.5％および70.2％を達成した．

コメント・リンク集

論文

[#524]

2018.5.29 15:59:46

Gibson Env: Real-World Perception for Embodied Agents

Fei Xia, Amir R. Zamir, Zhiyang He, Alexander Sax, Jitendra Malik and Silvio Savarese

CVPR 2018

概要

ロボットなどのエージェントに知覚を身につけさせるためのGibsonという仮想環境を提案した。Gibsonは572の建物、1447のフロアから構築されている。 RGB-Dデータから、任意のカメラ位置でレンダリングする場合欠損が生じてしまう。そこで、複数のカメラ位置でレンダリングした画像を組み合わせた上で、Neural Netにより欠損箇所を保管する。得られた画像はリアルではないため、レンダリング画像とリアル画像間のドメイン変換手法Gogglesを提案した。また、物理エンジンを組み込むことにより、実世界で起こる衝突などの判定を可能にした。

Item3Image

新規性・結果・なぜ通ったか？

目的地へ向かう、階段を上るといったエージェントのタスクに加え、depth推定、シーン認識によって有効性を検証した。実世界で撮影した画像によるテストでは、他のデータセットと比べ1番精度が良かった。

コメント・リンク集

プロジェクトページ

[#525]

2018.6.19 14:37:08

Multimodal Visual Concept Learning with Weakly Supervised Techniques

Giorgos Bouritsas, Petros Koutras, Athanasia Zlatintsi and Petros Maragos

CVPR2018

概要

従来の動画認識に関する研究は、映像情報のみを用いているものが多く字幕のようなテキストや音などの情報は利用されていない。動画認識のタスクに、映像情報に加えテキスト情報を利用するための手法を提案した。考慮すべきこととして、映像とテキストの情報が時系列的にどのように対応しているか、同じラベルに対してテキストでは複数の表現方法が存在している、という2つの点が挙げられる。そこで、時系列的な対応付けを行うFuzzy Sets MIL(FSMIL)とテキストがどのラベルに対応しているかを推定するProbabilistic Labels MIL(PLMIL)の2つの学習方法を提案した。

Item3Image

新規性・結果・なぜ通ったか？

動画認識タスクとして、顔認識及びアクション認識の2つによりテストを行いベースラインと比べ精度が向上したことを確認した。

コメント・リンク集

論文

[#526]

2018.6.19 13:04:08

Photometric Stereo in Participating Media Considering Shape-Dependent Forward Scatter

Y. Fujimura, M. Iiyama, A. Hashimoto, M. Minoh

CVPR2018

Ryota Suzuki

概要

濁った水や霧の中で撮影したような，散乱光により劣化したような画像に対して適用可能な3D復元手法の提案．

形状依存の前方散乱（forward scatter）を扱うモデルを考え，ルックアップテーブル使用で解析的に求める，それを空間的変化カーネルとして表現する．また，前方散乱の除去を可能にする，大規模密行列を疎行列に近似する手法を提案．

新規性・結果・なぜ通ったか？

厳密に形状依存の表面-カメラ間前方散乱をモデル化し，その解析的解法を提案したものは初めて．

実，合成データに対して改善的性能を示した．

コメント・リンク集

論文

[#527]

2018.6.21 13:38:56

Sparse, Smart Contours to Represent and Edit Images

T. Dekel, D. Krishnan, C. Gan, C. Liu, W. Freeman

CVPR2018

Ryota Suzuki

概要

かなりスパースな輪郭線（元画像の4%程度のデータ量）から大変きれいな画像の復元ができ，更に輪郭線を調節すると大変きれいにパーツ位置を変えられる．参照画像も変更できるので，髪を生やせるし，（効果は薄いが）人の鼻を犬っぽくできる．

まず，入力の輪郭線を工夫する．この手法でスパースな輪郭線を取り，輪郭線の左右の画素の色(RGB)を色値（RGB×左右＝計6値）とする．また，画像の各色における勾配を取り，輪郭線の位置におけるRGB×XY成分＝計6値を勾配値とする．ここからN次元特徴マップを（GANを回している最中に）学習する．構造はDeeplabを参考にしたDilated Conv.による簡素なネットワーク構造による．

この輪郭線特徴を入力として，2段階の復元用U-Netを生成器に，Dilated-Patch Discriminatorを判別器にしたGANを回す．

新規性・結果・なぜ通ったか？

アプリケーションとしてかなり使い出かあるように見える．

コメント・リンク集

実験的に見て，N=3がいいらしい．

[#528]

2018.6.19 10:30:38

Document Enhancement using Visibility Detection

N. Kligler, S. Katz and A. Tal

CVPR2018

Ryota Suzuki

概要

文書から二値化，陰影除去をするのに使えるDocument Enhancementの話．文書平面を三次元化し，文書面から凸凹を除去するという形で可視領域（Visibility）の検出をし，それをベースに鮮鋭化するというやり方．本手法を前処理として，二値化手法や陰影除去を適用するとSOTA性能を上回る．

新規性・結果・なぜ通ったか？

基本方針としては，識別性を高める高次元空間への変換のやり方を考えました，という非ディープなパタレコにおけるノリ．

論文の質としては他論文と比較して若干劣るように感じられるが，「平面だけど三次元点群にするとうまくいくとは，驚きだ！」と言っていて，それがウケたのだろうか．おそらく当初の発想も文書の凸凹を消すという発想だったと思われる．

コメント・リンク集

肝心の3次元空間への射影の具体的な実装（(x, y)→(θ，φ)の部分）が読み取れませんでした．どなたか再現できたらご教授頂けますと幸いです．

論文

[#529]

2018.6.19 09:52:48

An Efficient and Provable Approach for Mixture Proportion Estimation Using Linear Independence Assumption

Xiyu Yu, Tongliang Liu, Mingming Gong, Kayhan Batmanghelich, Dacheng Tao

CVPR 2018

概要

混合分布内のラベルなしデータと少量のラベルありデータから正しく分布の重み（Weights of components）を推定し、画像分類を行う問題を提供。この問題自体をMixture Proportion Estimation（MPE）という。

180618LinearIndependenceAssumption

新規性・結果・なぜ通ったか？

データに多数のノイズを含んでいても、少量のラベル付きデータから混合分布の割合を把握して正しく画像分類を行うことができるアルゴリズムを提案。Web画像に見られるラベルノイズが発生している学習/Semi-supervised学習、合成データ/実世界データの両者においてState-of-the-artな精度を達成した。

コメント・リンク集

ラベルノイズに関する新規の問題MPEを提供した。一見すると既存の問題と思われるようなものでもまだまだ重要で提案されていない問題は残っている？

論文

[#530]

2018.6.18 22:55:08

Geometry Aware Constrained Optimization Techniques for Deep Learning

Soumava Kumar Roy, Zakaria Mhammedi, Mehrtash Harandi

CVPR 2018

概要

勾配の最適化手法であるStochastic Gradient Descent（SGD）やRMSPropアルゴリズムをRiemannian Optimizationの設定にて一般化する手法を提案する。SGDはDNNでは一般的に用いられるが、勾配の最適化に大きな分散があり、一方でRMSPropやADAMがこの問題を解決するために提案されてきたが決定だとは言えなかった。本論文ではRiemannian Centroidsの計算や深層距離学習（Deep Metric Learning）を考慮して勾配最適化の不安定性に取り組む。詳細画像識別問題に取り組むことで提案手法の有効性を示した。右図は最適化のイメージ図であり、Riemannian多様体空間で勾配計算と誤差最適化を測ることで安定感のある最適化を実現。

180618GeometryAwareConstrainedOptimization

新規性・結果・なぜ通ったか？

多様体空間で最適化を実現するcSGD-M/cRMSPropを提案、問題設定に対して拘束を強めてダイレクトに最適化ができる手法とした。機械学習の文脈において、PCA/DMLの拡張と位置付けられる手法を提案。同枠組みを詳細画像識別問題に適用したところ、Competitiveな結果を達成した。

コメント・リンク集

発想が数学の人、〜を＊＊の枠組みで最適化するというのは得意技？

論文

[#531]

2018.6.18 22:31:00

View Extrapolation of Human Body from a Single Image

Hao Zhu, Hao Su, Peng Wang, Xun Cao, Ruigang Yang

CVPR 2018

概要

ある視点の人物画像からターゲットとなる視点（Novel View）の人物画像を復元するタスクを提案。従来法であるVSAP（参考文献40）では正確な視点変化に関するフローを推定することができなかったが、提案法ではまず距離画像を推定してからフロー推定することで精度を劇的に改善した。

180618ViewExtrapolationHumanBody

新規性・結果・なぜ通ったか？

距離画像の復元（予め形状を復元することに相当）することにより、ビューポイント変化に関するフローの推定精度を劇的に向上させ、さらにバックフローも組み合わせることでターゲット視点の人物画像復元を改善。距離画像の復元からオプティカルフローの推定を行うこのような枠組みをShape-from-Appearanceという？3次元的な情報があることで姿勢に関するバリエーションがあったとしてもロバストなビューポイント変化の人物画像推定が可能。合成データによる人物画像データセットも作成、2,000の姿勢に対して22のアピアランス変化を含む。

コメント・リンク集

以前は経由する情報をいかに少なくしてダイレクトに復元を行うか、が重要であったが、DNN時代になってから効果的な情報復元（この場合は距離画像による形状復元）を経由することにより推定精度が向上。

論文

[#532]

2018.6.18 22:01:34

Geometric robustness of deep networks: analysis and improvement

Can Kanbak, Seyed-Mohsen Moosavi-Dezfooli, Pascal Frossard

CVPR 2018

概要

幾何学的な変換に頑健なDNNを考案。従来のDNNでは例えば右図のようなアフィン変換（ここでは主に回転）に対して脆弱であり、上図では馬の種類を答えていたものが、多少の回転を与えるだけで犬の種類を答えてしまう。本論文ではManiFoolというシンプルだがスケーラブル、多様体（Manifold）ベースのアルゴリズムManiFoolを提案、幾何学的な変化に対する不変性や複雑ネットワークに対する評価を行う。さらに、Adversarial Trainingにより幾何学的な変動に頑健なモデルとなるような学習法を実装した。

180618GeometricRobustnessDNN

新規性・結果・なぜ通ったか？

最小の幾何学的変換により認識を誤ってしまう問題に対して不変性を計測するManiFoolを提案したことがもっとも大きな貢献である。ImageNet等の大規模データに対して幾何学的変換とそのロバスト性を評価した最初の論文である。ManiFoolアルゴリズムをAdversarial Trainingに応用して幾何学的変換に対してロバストな学習法を提案。

コメント・リンク集

実環境（撮影時のカメラのビューポイント）を多少回転させるのではなく画像をダイレクトなアフィン変換にて回転させるからエラーが生じる？もう少し解析して欲しいような気もする。

論文

[#533]

2018.6.18 21:28:50

Learning Strict Identity Mappings in Deep Residual Networks

Xin Yu, Zhiding Yu, Srikumar Ramalingam

CVPR 2018

概要

自動的に冗長なレイヤを除外してくれるε-ResNetを提案し、よりコンパクトなサイズで最大限の認識パフォーマンスを実現する。ε-ResNetでは閾値εを設けて、これよりも小さい値を出力するレイヤに対して誤差を計算しないという方策を取る。提案法であるε-ResNetを実現するために、少量のReLUを加えることで実現した。CIFAR-10,-100,SVHN,ImageNetに対して単一のトレーニングプロセスで学習が成功し、なおかつ約80%ものパラメータ削減を実行した。右図は752層のε-ResNetを実装して最適化した例である。図中の赤ラインは除去されたレイヤ、青ラインは認識に対して必要と判断されたレイヤである。図の例では、CIFAR-100に対するオリジナル（ResNet-752）のエラー率が24.8%、提案法（ε-ResNet-752）のエラー率が23.8%であった。

180618EpsilonResNet

新規性・結果・なぜ通ったか？

ResNetを対象として、レイヤを増加させることによる冗長性を自動的に除去してくれるε-ResNetを提案した。ε-ResNetは従来の枠組みに対して4つのReLUを組み合わせ、閾値カット処理だけで実装可能である。より深い層のモデルに対して有効であり、大体80%くらいの冗長生をカットする。パラメータ数を減らしつつも超ディープなモデルにおいて多少の精度向上が見込める。

コメント・リンク集

実装が非常に簡単そうであり、すでにDNNフレームワークにおいて実装されていれば、広く使ってもらえそう。また、各タスク（e.g. 物体検出、セグメンテーション、動画認識）において気軽に使用することができれば、広がりがありそう。

論文

[#534]

2018.6.18 20:51:56

Generative Adversarial Perturbations

Omid Poursaeed, Isay Katsman, Bicheng Gao, Serge Belongie

CVPR 2018

概要

敵対的サンプル（Adversarial Examples）を生成的に作りだすモデルを考案し、自然画像に対して摂動ノイズを与えて学習済みモデルを効果的にだます手法（GAP; Generative Adversarial Perturbations）を提案する。提案のGAPは画像に依存する/しない摂動ノイズ、いずれも生成することが可能であり、画像識別やセマンティックセグメンテーションに対して有効。また、ImageNet/Cityscapesを用いたより高解像な画像においても効果的に識別器をだますことに成功した。さらに、従来の同様の枠組みよりもより速く推論を行うことができる。

180618GenerativeAdversarialPertubations

新規性・結果・なぜ通ったか？

より汎用的かつ画像依存性のあり/なしに関わらない摂動ノイズを、画像識別/セマンティックセグメンテーションに対して行うことができる。それでいてUniversal Perturbationsの枠組みを生成モデルにより実装、より効果的にだますことに成功。

コメント・リンク集

この論文は引用されそう？だが、ホントの意味で騙せているのかは不明である。（Adversarial Examplesの論文は、会議の前に攻略法がarXivに載せられるなどまだまだ研究が必要である）

論文

[#535]

2018.6.18 20:24:14

The Lovász-Softmax loss: A tractable surrogate for the optimization of the intersection-over-union measure in neural networks

Maxim Berman, Amal Rannen Triki, Matthew B. Blaschko

CVPR 2018

概要

セマンティックセグメンテーションにおいて、ピクセルごとの最適化ではなく領域（Intersection-over-Union）ごとの最適化を行うことで小領域を含む領域ベースのセグメンテーションを改良する。この問題に対して、サブモデュラ凸最適化手法Lovasz（参考文献26をベースとした）を用いることで誤差計算を行う。このLovász-Softmax Lossは従来のCross-Entropy Lossよりも領域評価jに対して頑健であることを示した（右図）。位置付け的にはLovász Hinge Lossのマルチカテゴリに対する一般化である。

180618Lovasz-SoftmaxLoss

新規性・結果・なぜ通ったか？

セマンティックセグメンテーションにおいて特に小領域であったとしても適切に評価して誤差を計算できるLovasz-Softmax Lossを提案した。PascalVOCやCityscapesにおいてCross-Entropy Lossを用いた誤差計算よりも良好な性能を示すことが明らかとなった。

コメント・リンク集

IoUで最適化するとは？また、Jaccard indexとは何のことだろう？

論文

[#536]

2018.6.18 20:06:18

Deep Diffeomorphic Transformer Networks

Nicki Skafte Detlefsen, Oren Freifeld, Søren Hauberg

CVPR 2018

概要

顔認識において、本人認識率が向上するようにアフィン変換や形状変化（Diffeomorphic）を行うように変換を実装するネットワークDeep Diffeomorphic Transformer Networksを提案。直感的にはズームインだが、さらに形状変化を行うことが効果的であると判断してネットワークを構築した。

180618DiffeemorphicTransferNetworks

新規性・結果・なぜ通ったか？

顔認識においてアフィン変換によるズームインのみならず、認証率が向上するような形状変化方法であるDiffeomorphic Transferを提案した。同処理はCNN内に実装され、Deep Diffeomorphic Transformer Networksと呼ばれ、LFW/CelebA等でState-of-the-artであった。

コメント・リンク集

ネットワークに対して内的ではなく外的に変形させて精度向上するのは意外である。

論文

[#537]

2018.6.18 19:47:55

Geometry-Aware Scene Text Detection with Instance Transformation Network

Fangfang Wang, Liming Zhao, Xi Li, Xinchao Wang and Dacheng Tao

CVPR2018

167

概要

幾何学的な表現を用いたEnd-to-endのシーンテキスト認識アプローチ．シーンテキストインスタンスの幾何学的構成をエンコーディングするため，幾何学的な表現を学習するInstance Transformation Network (ITN)を提案する．右図上部の（a）のように，いくつか並んだサンプルグリッド（橙色）をテキストにフィッティング（青色）する．また，（b）のように入力画像（の特徴マップ）からフィッティングのためのモデルを学習する．ネットワーク構成は，特徴抽出部，インスタンスレベルのアフィン変換を予測する部分，幾何学的表現部からなる．変換の回帰，座標の回帰，分類はマルチタスク学習となる．

新規性・結果・なぜ通ったか？

幾何学的表現で強いアフィン変換がかかっていても頑健なテキスト検出が可能である．データセットにはICDAR2015およびMSRA-TD500を用いて評価を行う．ベースネットワークにResNet50を用いた場合，MSRA-TD500のPrecisionは90.3，F値は80.3と非常に高精度な結果となった．ICDAR2015ではVGG16ベースの方が良い結果となり，Precisionは85.7，F値は79.5である．

コメント・リンク集

幾何学的なドット列をフィッティングする手法は他にも応用が効きそう．

論文

[#538]

2018.6.19 03:01:57

Textbook Question Answering under Instructor Guidance with Memory Networks

Juzheng Li, Hang Su, Jun Zhu, Siyu Wang and Bo Zhang

CVPR 2018

概要

教科書(テキストデータ＋画像)に含まれている情報に関する質問に答える、Textbook Question Answering(TQA)に関する研究。質問の答えはテキストの局所的な部分に含まれていることが多く、テキストの要約によって答えを得ることが難しい場合が多い。本研究では、テキストや画像から得られる因果関係や構造を表したContradiction Entity-Relationship Graph(CERG)を構築し、矛盾を探すための手がかり(Guidance)とすることで局所的な情報を使用して質問に答えることを可能とする。 CERGの構築には画像特徴とテキスト特徴を使用し、質問の答えには画像特徴とテキスト特徴に加えCERGから得られたGuidanceを用いることで出力を得る。

Item3Image

新規性・結果・なぜ通ったか？

Contextが多く要約することが難しい場合、得られる情報をグラフにして記憶することが効率的であるということを示した。ベースラインやランダムに選択する場合と比べて、あらゆる質問のタイプ(truth or falseやmultiple choise)において正解率が向上していることを確認した。

コメント・リンク集

一応画像情報を使用しているが、全体的にはNLP色が強いと感じた。手法としての完成度は非常に高く、評価は問題自体が新しいこともあり数値評価（従来法との比較、モデル設計の評価）及びqualitativeな比較であった。

論文

[#539]

2018.6.19 00:14:07

Multi-Evidence Filtering and Fusion for Multi-Label Classification, Object Detection and Semantic Segmentation Based on Weakly Supervised Learning

Weifeng Ge, Sibei Yang and Yizhou Yu

CVPR2018

Kazuho Kito

概要

マルチレベルの物体認識，検出，セマンティックセグメンテーションのための弱教師カリキュラム付き学習のパイプラインを提案。このパイプラインは物体位置の中間点と訓練画像のピクセルのラベルの結果をを入手し、結果を用いて教師付きのやり方で特定のタスクの深層学習で訓練する。その全体のプロセスは4つのステージを含む、訓練画像の物体位置を含み、物体のインスタンスのフィルタリングと結合し、訓練画像のピクセルラベリングをし、特定のタスクのネットワークでトレーニングをする。訓練画像からキレイな物体のインスタンスを入手することで、物体のインスタンスのフィルタリング、結合、クラスファイリングのための新しいアルゴリズムを複数の解決策から集める。このアルゴリズムは、検出された物体のインスタンスをフィルタリングするため、metric learningと密度ベースのクラスタリングの両方を組み込んでいる。

Multi-Evidence_Filtering_and_Fusion_for_Multi-Label_Classification.PNG

新規性・結果・なぜ通ったか？

マルチレベルの画像の分類においてstate-of-the-artを達成．

コメント・リンク集

論文

[#540]

2018.6.18 23:24:56

ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices

Xiangyu Zhang et al.

CVPR2018

1707.01083

Takumu Ikeya

概要

モバイルデバイス向けに特別に設計した非常に計算効率の良いCNNアーキテクチャである“ShufflNet”を開発した．このアーキテクチャではpointwise group convolutionとchannel shuffleという2つの新しい演算を使用し，精度を落とすことなく，計算コストを大幅に削減した．

Shuffle_Net_An_Extremely_Efficient_Convolutional_Neural_Network_for_Mobile_Device.png

新規性・結果・なぜ通ったか？

ImageNetによる分類とMS COCOによる物体検出のタスクではほかのアーキテクチャよりも高い性能を示した．
40MFLOPの計算資源の制約のもと,ImageNet分類タスクで他のモバイルデバイス向けアーキテクチャよりもtop-1 エラーが7.8%低い結果が得られた．
既存のアーキテクチャよりも高精度で計算効率が非常に良い“ShufflNet”というアーキテクチャを提案した．

コメント・リンク集

論文

[#541]

2018.6.18 21:27:54

What have we learned from deep representations for action recognition?

Christoph Feichtenhofer et al.

CVPR2018

1801.01415

Takumu Ikeya

概要!

動画中の行動を認識するためにtwo stream modelが学習したものを視覚化することで時空間表現がどのように働いているか調査した研究．
単純に形状特徴と動作特徴を分割するよりも，cross-stream fusionは正しい時空間特徴を学習することが可能．
ネットワークはクラス特有の局所表現だけでなく，様々なクラスに対応できる汎用表現を学習することが可能．
ネットワークの階層全体を通して，特徴はより抽象的になり，ある動作の区別にとって重要でないデータに対する不変性が増加．
視覚化は、学習された表現を確認するだけでなく，学習データの独自性を明らかにし，systemの失敗例の説目に利用可能.

What_have_we_learned_from_deep_representations_for_action_recognition.PNG

新規性・結果・なぜ通ったか？

ランダムに初期化されたノイズ画像とノイズ動画の入力から開始するモデルの時空間の入力を直接最適化する.

コメント・リンク集

論文

[#542]

2018.6.18 21:04:41

A Perceptual Measure for Deep Single Image Camera Calibration

Y. Hold-Geoffroy, K. Sunkavalli, J. Eisenmann, M. Fisher, E. Gambaretto, S. Hadap and J.F. Lalonde

CVPR2018

Ryota Suzuki

概要

単画像におけるカメラパラメータのキャリブレーションの話．事前知識なしに非コントロール環境でもちゃんと動くように， DCNNによるキャリブレーションパラメータの直接推測手法を提案する．

ImageNet学習済みDenseNetの最終層を３つの分離したヘッドに置き換え，それぞれ水平角度推定，水平線の中心からの距離，縦方向の場を表すように改造する．これを，大規模パノラマ画像データセットから自動生成したサンプルにより学習する．

評価については，実際人がおかしさを感じるかどうかによるので，AMTで聞いてみた結果から導いた人の誤差モデルをもとに語ってみる．

新規性・結果・なぜ通ったか？

結果はそれなりにできている．が，それなりっぽく見えてしまうので，人間の感じ方もちゃんと調べて載せた！というのが評価されているように思う．

ネットワーク構造の簡単な調整で達成できたところが，DNNの手に掛かれば様々な問題が如何様にも解ける感じを醸し出していておもしろい．

アプリケーション枠狙いにするためか，アプリケーション例をいくつか掲載している．論文自体，他のアプリケーション系論文と比べて，読んでいて飽きない感じがする．合わせ技一本，という感じがする．

コメント・リンク集

速読したからかもしれないが，不思議な構成の論文だった．論点が2つあるからだろうか．違和感は感じるが，なんとかうまく収めている感じもする．

NVidiaにGPUを寄付してもらったらしい．

論文

[#543]

2018.6.18 19:26:49

SplineCNN: Fast Geometric Deep Learning with Continuous B-Spline Kernels

Matthias Fey, Jan Eric Lenssen, Frank Weichert, Heinrich M¨uller

CVPR2018

KazukiTsubura

概要

グラフなどの不規則な構造をした幾何学的入力のためのディープニューラルネットワークの変形であるスプラインベースの畳み込みニューラルネットワーク(SplineCNN)．スペクトル領域内でフィルタリングするのではなく，純粋に空間領域で特徴集計をする．SplineCNNを使用することで，手作業による特徴記述子の代わりに入力として幾何学的構造を使用することで，深いアーキテクチャの完全なend-to-endの学習が可能になる．

Fast_Geometric_Deep_Learning_with_Continuous_B-Spline_Kernels1

新規性・差分

グラフやmeshesのような不規則な構造をした様々な点で利用でき，空間上における入力の幾何学的関係を発見する．手作業による特徴記述子を使用せずにend-to-endの学習が可能になり，また，最先端の幾何学的な学習と同等である．

Fast_Geometric_Deep_Learning_with_Continuous_B-Spline_Kernels2

[#544]

2018.6.18 18:45:52

Learning and Using the Arrow of Time

Donglai Wei et al.

CVPR 2018

Yoshihiro Fukuhara

概要

DNN を用いて動画中の時間の流れている方向（Arrow of Time）を学習する研究. 人工的な信号を含むキューは Arrow of Time の学習に悪影響を及ぼすことを示し, それらの影響を取り除いた大規模 dataset を作成した. 評価実験では映画中の逆再生部分を検出するというタスクにおいて人間とほぼ同程度の精度を達成した.

新規性・結果・なぜ通ったか？

Arrow of Time を学習する DNN アーキテクチャとして Temporal Class-Activation Map Network (T-CAM) を提案
T-CAM は数フレーム分の optical flow を入力から Arrow of Time を推測
人工的な信号である camera Motion や black framing を含むキューは Arrow of Time の推定を容易にし, ネットワークの学習に悪影響を与えてしまうことを実験により示した
上記の人工的な信号を取り除いた Arrow of Time を学習するための大規模データセット, Flickr-AoT と Kinetics-AoT を作成
提案手法を用いて行った映画の逆再生部分を検出する実験では, 人間（80%）とほぼ同等（76%）の結果を達成
また, Arrow of Time が flow-based の行動認識において self-supervised pre-training に有用であることを示した

コメント・リンク集

[#545]

2018.5.17 12:19:55

Missing Slice Recovery for Tensors Using a Low-rank Model in Embedded Space

T. Yokota, B. Erem, S. Guler, S.K. Warfield and H. Hontani

CVPR2018

Ryota Suzuki

概要

テンソルがスライス方向に欠けてしまった場合の復元についての論文．このケースでは，よく行われる核ノルム利用やその他正則化手法ではムリ．遅れ／シフトに不変な構造を捉えることが重要になることから，「高次元空間への低ランクモデルの埋め込み」を行うことで解決する．時系列の遅延埋め込みを，テンソルにおける「複数方向遅延埋め込み変換」を行い，不完全なテンソルを高次不完全ハンケルテンソルへと変換する．その後，この高次テンソルをタッカー展開の枠組みで低ランク化することで復元が行われる．

新規性・結果・なぜ通ったか？

伝統的に行われてきた行列・テンソル解析系の論文．情報学部出身の読者になるべく分かりやすいように丁寧に書いているように見受けられる．画像で言えば，伝送エラーなどで行の一部分や下半分が吹き飛んでしまった時などに使える復元手法．

コメント・リンク集

きちんと読み手への導入は行われているものの，読み下すには，テンソル分解程度の数学の知識が必要．ついでに，カオスのような時系列システムも知っているとわかりやすい（図中の説明での事例がそれ）．まとめ人にとっては数学の復習になったので，ぜひ論文を読んでみていただきたい．

論文

[#546]

2018.6.18 11:01:34

Sim2Real Viewpoint Invariant Visual Servoing by Recurrent Control

Fereshteh Sadeghi et al.

CVPR 2018

Yoshihiro Fukuhara

概要

ロボットアームを用いたビジュアルサーボについての研究. DNN を用いた視点に依存しないビジュアルサーボの能力を学習する Recurrent Convolutional Neural Network Controller を提案. 様々な視点, 光源環境, 物体の種類や位置に置けるタスクをシミュレーション上で学習することで, 未知の視点において自動でキャリブレーションを行うことが可能.

fukuhara-Sim2Real-Viewpoint-Invariant-Visual-Servoing-by-Recurrent-Control.png

新規性・結果・なぜ通ったか？

コントローラーは目的物体のクエリ画像, 現在の観測画像, 1つ前の行動, 現在の内部状態から次の行動と内部状態を決定する
LSTM を用いてネットワークが過去の行動の結果を参照できるようにすることで Jacobian (action と motion との関係) についての事前知識無しでの学習を可能とした
ロス関数にはとった行動によって目的物体との距離がどのように変化したかと, 長期的な行動の価値を学習するための Q-関数 (行動状態価値関数) を用いる
少数のアノテーション付きシークエンスがあれば, シミュレーション上で学習結果を実際のロボットへ転移することが可能（追加で学習が必要なのは画像特徴の部分のみのため）
実際のロボットに学習結果を転移して行った評価実験では, 物体へロボットアームを到達させるタスクにおいて, 単一物体の場合は 94.4%, 二つの場合は 70.8% を達成した

コメント・リンク集

[#547]

2018.6.18 4:18:55

Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation

Pengyuan Lyu, Cong Yao, Wenhao Wu, Shuicheng Yan and Xiang Bai

CVPR2018

982

概要

コーナー検出とセグメンテーションを用いた高速かつ高精度なテキスト検出手法．テキスト検出時，ボックスのコーナー点を局所化し，テキスト領域を相対位置でセグメンテーションする．画像を入力すると，DSSDベースのNWで特徴抽出をし，コーナー点検出とコーナー位置に基づくセグメンテーションを出力する．コーナー点はサンプリングおよびグループ化され複数の候補ボックスとなる．セグメンテーション結果とあわせてスコア付けしてNMSする．長いテキストを自然に検出でき，複雑な後処理をする必要もない．

新規性・結果・なぜ通ったか？

Deepベースのテキスト検出は，テキストを物体の一種として扱いb-boxの回帰を行うか，テキスト部分を直接抽出する手法である．前者はアスペクト比によっては検出できず，後者は複雑な後処理を必要とする．本手法はその2つを組み合わせて，両者の欠点を補う．SynthText，ICDAR2015，2013，MSRA-TD500，MLTおよびCOCO-Textのデータセットで評価して，ほとんどがSOTAを達成した．とくに，ICDAR2015では84.3%（F-measure），MSRA-TD500では81.5%を達成した．10.4FPSで動作する．

コメント・リンク集

非常にシンプルながらも高精度なテキスト検出． DSSDのデコーダ部分の特徴マップからセグメンテーションを行う最近よくある手法をテキスト検出に応用している．

[#548]

2018.6.17 23:16:27

Low-Latency Video Semantic Segmentation

Yule Li, et al.

1804.00389

Munetaka Minoguchi

概要

動画によるセマンティックセグメンテーションにおいて、精度を向上させつつ、処理速度を上げる手法の提案。2つのコンポーネントを組み込んだフレームワークで構成している。1つ目は、時間変化に伴って空間的な畳み込み処理を変化させ、特徴を適応させる特徴伝播モジュール。2つ目は、精度予測に基づいて、計算を動的に割り当てるスケジューラ。

新規性

動画のセマンティックセグメンテーションには、高スループットやコスト、低遅延などの問題があり、自律運転などにおいて重要となる。時間的変化に適応させた処理によって精度向上、処理速度向上を図る。

結果・リンク集

CityscapesとCamVidにおいて、最新の手法と競合する精度で、遅延を360msから119msに抑えられる結果に。

論文

[#549]

VirtualHome: Simulating Household Activities via Programs

Xavier Puig et al.

CVPR 2018

Yoshihiro Fukuhara

概要

家の中の環境をシミミュレーションするための仮想環境 VirtualHome を作成した. また, 家の中で典型的に起こる様々な行動を自然言語とプログラムの形式で表現し, それらを仮想環境上でシミミュレーションした動画を組みにした VirtualHome Activity Dataset を公開した. 加えて, LSTM を用いて動画やテキストからプログラム形式の表現を生成する手法を提案した.

fukuhara-VirtualHome-Simulating-Household-Activities-via-Programs.png

新規性・結果・なぜ通ったか？

VirtualHome には様々な種類の間取りや物体（平均357個）があり, Agent も複数の種類が用意されている
dataset では家の中で行われる様々な行動に対して, 名前と自然言語形式での行動の説明と行動をプログラムの形式が与えられている
VirtualHome 上でプログラムをシミュレーションすることで作成された動画には, Agent の姿勢やフロー, 物体のクラスなど様々な情報が与えられている
LSTM を用いた encoder-decoder 型のネットワークに強化学習を適用し, 動画やテキストからプログラム形式の表現を生成する手法を提案

論文

[#555]

2018.6.15 16:40:44

Multi-Level Fusion Based 3D Object Detection From Monocular Images

Bin Xu et al.

CVPR 2018

Yoshihiro Fukuhara

概要

一枚のRGB画像から３次元物体認識を行う研究. region-based な２次元の物体検出器を３次元に拡張する一般的なフレームワークを提案し, end-to-end のネットワークで２次元と３次元の物体位置と物体のクラスを同時に推定することが可能. KITTI dataset を用いた評価実験では state-of-the-art の結果を達成した.

fukuhara-Multi-Level-Fusion-Based-3D-Object-Detection-From-Monocular-Images.png

新規性・結果・なぜ通ったか？

end-to-end のネットワークで単一のRGB画像から物体のクラスと２次元, ３次元の物体位置, ３次元の物体の方向などを同時に推定
RGB画像に MonoDepth を用いて推定した Depth 画像を連結したものを CNN に入力し, Faster-RCNN と同様の方法で Region Proposal を生成
また, Depth 画像から Point Cloud (XYZ Map)を推定
上記の２つを連結したものを全結合層に通して, 物体位置と物体のクラスの推定を行う
KITTI dataset を用いた評価実験では　Mono3D, 3DOP, Deep3DBox などと比較して優位な結果を達成した

コメント・リンク集

[論文] Multi-Level Fusion Based 3D Object Detection From Monocular Images

[#556]

2018.6.15 1:01:55

Grounding Referring Expressions in Images by Variational Context

Hanwang Zhang, Yulei Niu and Shih-Fu Chang

CVPR2018

Kota Yoshida

概要

ローカリゼーションやリンク付けなどの画像中の参照表現に焦点を当てた研究．既存手法が複数のインスタンス学習によるペアワイズの領域をモデル化し単純化しているのに対して，今回の提案手法では対象とコンテキストの相関関係を用いる変分的コンテキストである変分ベイズ法を提案している，教師あり，教師なし双方のモデルに対して実験したところSoTAであった．

新規性・結果・なぜ通ったか？

対象とコンテキストの相関関係を用いことでどちら片方の事後分布によって他方が求められ，検索空間を縮小できる．
アノテーションがない部分は教師なしのモデルによって拡張することができる．
候補領域を介したコンテキスト推定，推定されたコンテキストによる参照表現の定義，推定コンテキストの正規化の3つのキューによって構成

コメント・リンク集

今後はフレームワークに言語生成を含め，言語のより構造的な特徴を組み込む．
Paper

[#557]

2018.7.9 01:56:22

Conditional Probability Models for Deep Image Compression

Fabian Mentzer, Eirikur Agustsson, Michael Tschannen, Radu Timofte, Luc Van Gool

CVPR 2018

概要

画像復元の問題は復元エラー（distortion）とエントロピー（rate）とのトレードオフであるが、本論文ではこのトレードオフをできる限り解消し、画像圧縮を行うAutoEncoderを提案する。著者らはコンテキストモデルから直接的に潜在表現のエントロピーを復元するモデルを考案して同問題に取り組んだ。AutoEncoderには条件付き確率モデルを学習した3D-CNNを適用。実験ではSSIMを用いて従来の畳み込みによるAutoEncoderモデルよりも良好な精度を実現した。

180614DeepImageCompression

新規性・結果・なぜ通ったか？

3D-CNNにより条件付き学率モデルを学習したAutoEncoderモデルを考案したことが新規性であり、JPEG(2000)などよりも良い圧縮法であることを示し、Rippel&Bourdevらのモデルと同等レベルの精度を達成した。

コメント・リンク集

画像圧縮、超解像の違いがいまいちよくわからなくなってきた。評価方法の違い？

[#558]

2018.6.14 08:55:34

Improved Lossy Image Compression With Priming and Spatially Adaptive Bit Rates for Recurrent Networks

Nick Johnston, Damien Vincent, David Minnen, Michele Covell, Saurabh Singh, Troy Chinen, Sung Jin Hwang, Joel Shor, George Toderici

CVPR 2018

概要

Recurrent/Convolutional Neural Networks（RNN/CNN）を用いた非可逆画像圧縮の手法を提案し、BPG(4:2:0), WebP, JPEG2000, JPEGよりも性能のよいものを提案した。3つの改善、(1)ニューラルネットにより空間的分散を効果的に捉えて情報量の劣化を防ぐ、(2)エントロピーコーディングの上に空間適応的ビット配置アルゴリズムを適用して効率的な画像圧縮とする、(3)SSIMによりピクセルごとの損失を計算して最適化することで圧縮数値を改善する、を加えて圧縮方法を提案。KodakやTecnickのカメラを用いてコーデックの評価を行った。

180614SpatiallyAdaptiveBitRates

新規性・結果・なぜ通ったか？

従来の圧縮方法であるBPG(4:2:0), WebP, JPEG2000, JPEGなどよりも効率の良い圧縮方法を提案した。また、手法的にもCNN/RNNを応用し、さらに後処理として画質を改善するSpatially Adaptive Bit Rate (SABR)を提案したことが評価された。

コメント・リンク集

（数十年前からある問題という意味で）過去の問題と現在の手法が合わさって新規性を出している論文。

論文

[#559]

2018.6.14 08:27:59

Deep Density Clustering of Unconstrained Faces

Wei-An Lin, Jun-Cheng Chen, Carlos D. Castillo, Rama Chellappa

CVPR 2018 Poster

Kazuki Inoue

概要

unconstrainedな顔に対してクラスタリングを行うDeep Density Clustering(DDC)を提案。顔画像をDNNによって単位超級面空間に射影する。続いて、各サンプル2点の類似度を測定する際に、その2点の近傍に位置するサンプルを考慮することでクラスタの密度を推定することが可能となるため、これに基づいてクラスタリングを行う。

新規性・結果・なぜ通ったか？

YTF, LFW, IJB-Bデータセットを使用して評価。それぞれのデータセットには同一人物の画像が複数枚もつ。
評価指標はBCubed precision、Bcubed F-measure、NMIで評価。
提案手法と同等の精度を持つ既存手法のJULE、DEPICTはクラスタ数を指定する必要があるが、提案手法ではクラスタ数を指定する必要がない。
クラスタリングの際の閾値の変更に対して、既存手法に比べてクラスタ数の変動が小さい。

コメント・リンク集

[#560]

Pose-Guided Photorealistic Face Rotation

Yibo Hu, Xiang Wu, Bing Yu, Ran He, Zhenan Sun

CVPR 2018 Spotlight

Kazuki Inoue

概要

入力顔画像に対して任意の画像を生成するネットワークを提案。顔向きのコンディションとしてランドマークのヒートマップを与え、U-Netによって画像を生成し、2つのdiscriminatorを用いることで画像を生成。 1つ目のdiscriminatorは入力画像をコンディションとして生成画像or正解画像を識別し、 2つ目のdiscriminatorはランドマークのヒートマップをコンディションとして生成画像or正解画像を識別する。また人物IDを保存するためにLight CNNによる特徴量によるロスをとる。

新規性・結果・なぜ通ったか？

ランドマークのヒートマップ、2つのdiscriminator、IDを保存するロスを用いて入力顔画像を任意の向きに回転させた画像を生成。
337IDそれぞれに対して20の照明環境と15種類の顔向きをもつMulti-PIEで検証。
トレーニングには使用していないLFWで画像を生成したところ、既存手法による画像よりも見た目の良い画像が得られた。
face verification、face recognitionにおいてSoTAを達成。
ablation studyの結果、IDのロスがface recognitionに最も影響が高いことを確認。

コメント・リンク集

既存手法のように顔向きの角度を使うのではなくヒートマップを与えることでU-netの学習がしやすい、という上手い方法。
IDのロスに使用する特徴量が最後のFC層に加えてプーリング層からも取得されておりIDについてはMS-Celeb-1Mでプリトレインした後Multi-PIEへとファインチューニングしているなど、かなり微調整を感じる論文。
論文
Supplementary material

[#561]

Unsupervised Training for 3D Morphable Model Regression

Kyle Genova, Forrester Cole, Aaron Maschinot, Aaron Sarna, Daniel Vlasic, William T. Freeman

CVPR 2018 Spotlight

Kazuki Inoue

概要

それぞれ単独の実画像データセットと3D Morphable Model(3DMM)データセットを使用し、画像から3DMMを生成する手法を提案。トレーニングには実画像データセットVGG-Face、3DMMデータセットBasel Face 3DMMを使用。 IDが保たれることを念頭にネットワークを構築。Batch Distribution Lossでは、 Basel Face 3DMMのパラメタ分布が平均０、標準偏差1のガウス分布であるため、実画像によって生成される3DMMのシェイプ、テクスチャパラメタがどちらも平均0、標準偏差1となるようにロスをとる。 Loopback Lossは画像/生成された3DMMのdecoderによる特徴量の差分を取り、よりリアルな3DMMかつ、より現実的な3DMMパラメタを得ることを目的としている。

新規性・結果・なぜ通ったか？

画像、3DMMの対応がないデータセットを用いて、教師なしで画像から3DMMを生成する手法を提案。
Batch Distribution Loss、Loopback Loss、Multi-view Identity Lossを学習することで教師なしであることを緩和している。
MICC Florence 3D Faceデータセットで検証し、Mean error、Faceクラスタリング、Earth mover’s distanceによる実画像と生成3DMMの顔類似度のそれぞれにおいてSoTA。

コメント・リンク集

Basel Face 3DMMのパラメタ分布が平均０、標準偏差1のガウス分布という仮定はどこから来ている？
論文

[#562]

Aligning Infinite-Dimensional Covariance Matrices in Reproducing Kernel Hilbert Spaces for Domain Adaptation

Zhen Zhang, Mianzhi Wang, Yan Huang, Arye Nehorai

CVPR 2018 Poster

Kazuki Inoue

概要

ソースドメイン(SD)とターゲットドメイン(TD)のそれぞれのreproducing kernel Hilbert space(RKHS)における共分散を最適化することでdomain adaptation(DA)を行う手法。既存のカーネルベースのDAはSDとTDのRKHS上の統計的分布の類似度に大きく依存することに着目。共分散を最適化する方法としてkernel whitening-coloring map(KWC)とkernel optimal transport map(KOT)があり、これをRKHS上で計算で可能なように式変形を行うことでDAを行う。

新規性・結果・なぜ通ったか？

SDとTDのRKHS上の共分散を最適化することでDAを行う。
複数のDAのベンチマークデータセットにおいてKWC、KOTのいずれかがSoTAを達成。
SoTAと比較して実行時間が短く、KWCは4分の１、KOTは10分の1程度。
Out-of-Sampleによる推定においてもSoTAを達成。

コメント・リンク集

248パターンのDAを検証しており、本論文に載っていたのは34パターン
論文
Supplementary material

[#563]

Cross-Dataset Adaptation for Visual Question Answering

Wei-Lun Chao, Hexiang Hu, Fei Sha

CVPR 2018 Poster

Kazuki Inoue

概要

VQAのデータセットにおけるバイアスを調査した上で、VQAにおけるdomain adaptation(DA)を提案。提案手法では選択肢の中から解答を選択するVQAを扱う。VQAデータセットは画像、質問、解答選択肢＝正解＋誤答の要素からなる。それぞれの要素を組み合わせた入力を用いて、その入力がどのデータセットに所属しているのかを調査した結果、画像はほぼ無相関であることがわかり、質問と解答によってデータセット間にバイアスが生じていることを確認。この結果に基づき、以下のようにDAを提案。ターゲットドメイン(TD)に質問/解答選択肢のみがある場合、ソースドメイン(SD)の質問/正解(誤答は任意性があるため使用しない)の特徴量が持つ分布とTDの質問のDNNによる特徴量が持つ分布のJensen-shannon Divergence(JSD)が小さくなるように学習。TDが質問と正解(＋誤答)を持つ場合、 SDが持つ質問・正解の特徴量分布とTDの質問・正解のDNNによる特徴料が持つJSDが小さくなるように学習。さらにSDで事前学習を行った質問-正解識別をTDでfine-tuningを行う。

新規性・結果・なぜ通ったか？

事前実験より与える情報によって、入力データがどちらのデータセットに所属しているかの識別率の変化を確認。画像、質問、正解解答、解答群(正解+不正解)を与え、与える要素を増やすほど識別率が高くなった。この結果から、データセットによってバイアスがあることを確認。
質問に対する正答率を複数のデータセットにおいて既存手法であるADDA、CORALと比較した結果SoTAを達成。TDが解答選択肢のみ、質問と正解を持つ場合において高い精度を達成。

コメント・リンク集

TDの正解、誤答のみを使用し質問を使用せずにDAを行った方が高い状況がいくつも確認できる。これはつまり質問と解答の相関がすでにSDで学習できており、SDの質問がノイズになってしまっているとを示唆している。
VQAをDAしてみた、という実験的な論文であり比較している手法もDAのベンチマークの手法なので、まだまだ新規性を出すことができそう。
論文
Supplementary material

[#564]

Unsupervised Learning of Depth and Ego-Motion from Monocular Video Using 3D Geometric Constraints

Reza Mahjourian et al.

CVPR 2018

Yoshihiro Fukuhara

概要

教師なし学習で単眼の動画から Depth と Ego-Motion の推定を行う研究. 連続するフレーム間における 3D Geometry の一貫性を教師信号の代わりに利用して学習を行う.

fukuahra-Unsupervised-Learning-of-Depth-and-Ego-Motion-from-Monocular-Video-Using-3D-Geometric-Constraints.png

新規性・結果・なぜ通ったか？

連続するフレーム間における 3D Geometry の一貫性を用いることで, 教師なし学習で単眼の動画から Depth と Ego-Motion の推定を行うことを可能とした
連続するフレームから推定された Point Cloud に対して Iterative Closest Point (ICP) を計算し, その Residual と Transform の大きさを 3D Loss として課す
3D Loss に加えて推定された Depth の滑らかさと, 推定結果を用いて復元した画像の誤差 (2種類) も Loss として課す
KITTI dataset と mobile phone カメラで撮影した動画を用いて行った評価実験では　Trajectory と Depth の両方において先行研究よりも優位な結果を達成した

コメント・リンク集

[論文] Unsupervised Learning of Depth and Ego-Motion from Monocular Video Using 3D Geometric Constraints

[#565]

2018.5.28 18:59:55

A Network Architecture for Point Cloud Classification via Automatic Depth Images Generation

RiccardoRoveri et al.

CVPR 2018

Yoshihiro Fukuhara

概要

Point Cloud データのクラス分類についての研究. 順序不定の 3D Point Cloud データを 2D Depth 画像に変換し, ResNet でクラス分類を行う. 評価実験では PointNet より優位な結果となった.

fukuhara-A-Network-Architecture-for-Point-Cloud-Classification-via-Automatic-Depth-Images-Generation.png

新規性・結果・なぜ通ったか？

Network は３つのモジュールで構成されており, joint training が可能
１つ目のモジュールは PointNet を用いて PointCloud から有用な view direction を推定する
２つ目のモジュールは Gausiaan Interporation （Roveri＋18 の拡張版）によって推定された view direction からの Depth 画像を生成する
３つ目のモジュールは ResNet50 を用いて Depth 画像から Image Based Classification を行う
ModelNet40 benchmark を用いて行った shape のクラス分類の評価実験では instance-based accuracy と class average accuracy の両方で PointNet よりも優位な結果となった

コメント・リンク集

[論文] A Network Architecture for Point Cloud Classification via Automatic Depth Images Generation
3D の問題を既によく研究されている 2D 画像のクラス分類へと帰着させることで, 既存の強力な手法を用いる戦略

[#566]

2018.6.13 5:54:55

GraphBit: Bitwise Interaction Mining via Deep Reinforcement Learning

Yueqi Duan et al.

CVPR 2018

Yoshihiro Fukuhara

概要

Deep binary descriptor においてバイナリを生成する際に0と1の境界に位置する曖昧なビット (ambiguous bit) の問題に取り組んだ研究. 強化学習によって学習したビット間の implicit な関係性を付加することで曖昧性を緩和する GraphBit を提案.

fukuhara-GraphBit-Bitwise-Interaction-Mining-via-Deep-Reinforcement-Learning.png

新規性・結果・なぜ通ったか？

Binary descriptor における曖昧なビット (ambiguous bit) の問題を緩和するためにビット間の関係性を付加した GraphBit を提案
CNNからの出力された正規化された特徴量（binary descriptor）に対して Grpah 構造を付加する
ビット間の相互関係をマイニングする過程をマルコフ過程として定式化し, 強化学習（Policy Gradient）で学習
State は現在の Graph の構造
Atction は GraphBit に新しいエッジを１つ追加するか, 既存のエッジを１つ削除
Reward は t ステップと t+1 ステップにおけるロス関数の減少度合いから計算
CIFAR-10, Brown, HPatches dataset を用いた評価実験では mean average precision (mAP) の評価尺度でそれぞれ平均 9.64%, 8.84%, 3.22% の精度の向上を達成した

コメント・リンク集

[論文] GraphBit: Bitwise Interaction Mining via Deep Reinforcement Learning

[#567]

2018.6.13 2:43:55

Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition

Yansong Tan et al.

CVPR 2018

Yoshihiro Fukuhara

概要

Skeleton-based action recognition の研究. 強化学習によって与えられた動画から最適な keyframe の組を選択する frame distillation network (FDNet) と graph-based convolution によって keyframe の skeleton 情報から行動認識を行う Graph-based CNN (GCNN) を提案.

fukuhara-Deep-Progressive-Reinforcement-Learning-for-Skeleton-based-Action-Recognition.png

新規性・結果・なぜ通ったか？

与えられた動画のシークエンスから最適な keyframe の組を選択する過程をマルコフ過程として定式化し, 強化学習 (policy gradient) を適用した
State として Skeleton 動画全体と現在選択されてる keyframe の組の情報を使用
Action は各 keyframe を1フレーム前後にずらすか, そのままかの３つ
Reward は学習済みの GCNN を用いて計算
また, keyframe から行動認識を行う際は gggraph-based convolution を用いることによって人間の関節の依存関係を考慮している
NTU, SYSU, UT dataset を用いて評価実験では state-of-the-art とほぼ同等か, 優位な結果を示した

コメント・リンク集

[論文] Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition

[#568]

2018.6.12 13:53:55

Learning Superpixels with Segmentation-Aware Affinity Loss

Wei-Chih Tu, Ming-Yu Liu, Varun Jampani, Deqing Sun, Shao-Yi Chien, Ming-Hsuan Yang, Jan Kautz

CVPR2018

Hiroaki Aizawa

概要

superpixel segmentationのためにピクセルの類似性(pixel affinities)を学習するdeep learningベースの手法を提案。pixel affinitiesが同一物体に属する2つの隣接画素の尤度を測る。これまで、groundtruthがないこと、superpixelsのインデックスが交換可能であること、superpixelsの手法は微分不可であることからdeep learningベースのsuperpixelアルゴリズムは試みられていなかった。論文では、segmentation誤差から類似性を学習するsegmentation-aware loss(SEAL)と、pixel affinitiesを出力するPixel Affinity Net(PAN)を提案し、superpixelsとdeep learningを統合する。既存の手法より物体境界を保持したままsuperpixelsを計算することが可能になった。

Learning_Superpixels_with_Segmentation_Aware_Affinity_Loss.PNG

新規性・結果・なぜ通ったか？

superpixels + deep learningが新しい。実験では単純なpretrained modelによる特徴量や、edge検出によるsuperpixelsとの統合はうまくいかないことを示している。手法に関しては、superpixelsを直接出力するのではなく、pixel affinitiesを計算、graph-basedのアルゴリズム(ERS)を経由し出力、そしてSEALを計算する。これにより、pixel affinitiesを出力するPANへ誤差を逆伝播することができる。

コメント・リンク集

より効果的に細部の情報をsuperpixelsとして保持することができるため、semantic segmentationの改善や計算量の削減につながるだろう。

[#569]

2018.6.12 12:14:08

Generating Synthetic X-ray Images of a Person from the Surface Geometry

Brian Teixeira, Vivek Singh, Terrence Chen, Kai Ma, Birgi Tamersoy, Yifan Wu, Elena Balashova and Dorin Comaniciu

CVPR2018

Ryota Suzuki

概要

人間の三次元輪郭形状から，見えない体の内側を解析してしまおうという話．本論文では，X線画像を生成する．さらに，X線画像はパラメタライズしておくことで，体のキーポイントの調節によるマニピュレーションも可能．

構造的には，2つのネットワークからなる．(1)部分画像といくつかのパラメータから，画像全体を生成するように学習， (2)全体画像が得られるような(1)のパラメータの推定．これら2つのネットワークを，一貫性が出てくるように反復的に学習させる．

生成した画像を使ってみて，画像補間に使ってみた．

新規性・結果・なぜ通ったか？

体表面を計測しておくなどして，体表面形状のデータがあれば，X線画像をある程度任意に生成できる．逆に，体表面形状をいじることでそれに対応したX線画像も作れる．学習データとして活用することができる可能性がある．

構造はGAN風だが，いい感じに変形している感じがウケているかもしれない．

コメント・リンク集

この時点での一番の貢献は，それっぽいX線画像が自動生成できる事だろう．SMPLと組み合わせていろいろやることを想定しているだろうか．

論文

[#570]

2018.6.12 10:10:47

Fully Convolutional Adaptation Networks for Semantic Segmentation

Yiheng Zhang, Zhaofan Qiu, Ting Yao, Dong Liu, Tao Mei

CVPR 2018 Poster

Kazuki Inoue

概要

スタイル特徴量を用いて画像の見た目を変換するネットワークとドメイン間で不変な特徴量を得るネットワークを用いて、domain adaptationを行うことで教師無しでセマンティックセグメンテーションを行うFully Convolutional Adaptation Networks (FCAN)を提案。画像の見た目を変換するAppearance Adaptation Networks (AAN)ではホワイトノイズから画像を生成し、ソースドメインの特徴量マップ、ターゲットドメインのもつスタイル特徴量が小さくなるように学習を行うことで、画像をもう一方のドメインの見た目になるように変換する。ドメイン間で不変な特徴量を得るRepresentation Adaptation Networks (RAN)ではsemantic classificationと、それぞれのドメインにから得られた特徴量マップに対するadversarial lossと、 ASPPによって得られた特徴量マップに対してピクセルごとにadversarial lossを適用。ドメインとして実画像とゲーム画像で検証している。

新規性・結果・なぜ通ったか？

style transferと同様の考え方でドメイン間の画像変換を行いsemantic classification、特徴量マップ、dilated convolutional layerから得られた特徴量マップに対する各ピクセルに対してadversarial lossをとることで教師無しでセマンティックセグメンテーションを行う。
GTA5とCityscapesを用いて、セマンティックセグメンテーションの精度をstate-of-the-artと比較した結果、19クラスのうち17クラスで最も高い精度を達成。

コメント・リンク集

論文

[#571]

Re-weighted Adversarial Adaptation Network for Unsupervised Domain Adaptation

Qingchao Chen, Yang Liu, Zhaowen Wang, Ian Wassell, Kevin Chetty

CVPR 2018 Poster

Kazuki Inoue

概要

Unsupervised Domain Adaptationを行うため、ドメイン間の特徴量分布を一致させるoptimal transportベースのEM distanceを導入し、ターゲットドメイン(T)のラベル分布をソースドメイン(S)のラベル分布に対してラベルごとに重み付けした分布で表現する手法を提案。 domain discriminatorをOTベースのEM distanceをロス関数とすることでドメイン間の特徴量分布を近づける。一方でベイズの定理より、ドメイン間のラベルの事前分布と特徴量の事後分布は比例関係にありラベルは低次元かつ離散的であるのでドメイン間で類似度が高いと仮定し、Tにおけるラベルの事前分布をSのラベルの事前分布の重みを変更したもので表す。

新規性・結果・なぜ通ったか？

ドメイン間で特徴量分布をOTベースのEM distanceの学習で、Tのラベル分布をSのラベル分布の重みを変更したもので表現することで、それぞれのdomain shiftを解消する手法を提案。
手書き文字データセットMNIST、USPS、SVHN、MINST-Mデータセット、19のラベルを持つ実画像、デプス画像のドメインを持つNYU-Dデータセットで検証。state-of-the-artと比較した結果、多くの状況で最も高い精度を達成。
Sのラベル分布の重みの変更による有効性、ラベルごとの特徴量が分離できているかどうかも議論している。

コメント・リンク集

論文

[#572]

Unsupervised Deep Generative Adversarial Hashing Network

Kamran Ghasedi Dizaji, Feng Zheng, Najmeh Sadoughi, Yanhua Yang, Cheng Deng, Heng Huang

CVPR 2018 Spotlight

Kazuki Inoue

概要

教師無しで画像をバイナリに符号化するハッシュ関数であるHashGANを提案。ハッシュ関数が満たすべき条件は画像が変換されて同じハッシュ値を返すこと、異なる画像には異なるハッシュ値を与えることである。既存の教師無しハッシュ関数は過学習のために精度がよくなかった。提案手法であるHashGANはgenerator、discriminator、 encoderからなる。学習はGAN loss、encoderによって生成されるハッシュ値のエントロピーが小さくなるように、出現するハッシュ値が同じになるように、画像の変換によるハッシュ値が不変となるように、画像ごとのハッシュ値が固有となるように、合成画像をエンコードした際のハッシュ値のL2ロス、実画像と合成画像を入力とした際のdiscriminatorの最後の層に対して feature matchingを行う。またdiscriminatorはデータ固有の情報を識別し、encoderはデータ固有の情報を抽出しようとするため、両者の目的が一致しているのでパラメタを共有して学習を行う。

新規性・結果・なぜ通ったか？

GAN、discriminatorとパラメタを共有しているencoder、ハッシュ関数が満たすべきロス関数を導入したHashGANを提案。
image retrieval、image clusteringで手法の優位性を検討。image retrievalでは既存のunsupervised hash functionとの比較を行い、最も高い精度を達成。image clusteringではstate-of-the-artと同等の精度を達成。
ablation testにより、特にadversarial loss, feture matching, L2ロス、画像変換によるハッシュの不変性の考慮の影響が大きいことがわかった。

コメント・リンク集

教師無し学習でもタスク特化の手法であり、ハッシュ関数の性質をよく考察した上でモデルを設計している。
論文

[#573]

Supervision-by-Registration: An Unsupervised Approach to Improve the Precision of Facial Landmark Detectors

Xuanyi Dong, Shoou-I Yu, Xinshuo Weng, Shih-En Wei, Yi Yang, Yaser Sheikh,

CVPR 2018 Poster

Kazuki Inoue

概要

ランドマークのGT有り顔画像とラベルなし顔動画を用いて、現在フレームに対して直接推定されたランドマークと、トラッキングによって前フレームから推定されたランドマークの位置の誤差を学習することで顔画像に対してランドマークを推定する手法を提案。人間によるランドマークのアノテーションは正確でないため、この誤差が学習や推定精度に影響を与えてしまう。これに対して本論文ではランドマークの推定器に最適化によって計算されるオプティカルフローを教師情報として与える Supervision by Registration(SBR)を提案。ランドマーク位置を推定するCNNに対して、 Lukas-Kanade法によるトラッキング結果とランドマークの推定位置が同じになるように学習を行う。

新規性・結果・なぜ通ったか？

人間のアノテーションよりも、より正確であるオプティカルフローを教師情報として使用することで顔画像に対するランドマークの推定手法を提案。
300-W、AFLWにおいてランドマーク推定手法であるCPMのアルゴリズムをSBRで学習させると、SBRを使用しない場合よりも精度が向上。
動画に対するランドマーク推定はstate-of-the-artに及ばなかった。ターゲットとなる人物をデータセットに含んでおくPersonalized Adaptation Modeling(PAM)を行うことで、state-of-the-artと同等の精度を達成。

コメント・リンク集

画像のランドマークを推定するために動画から得られるオプティカルフローを使用する、という発想の飛躍が面白い！最適化による正確な教師情報とCNNによる合わせ技。
論文

[#574]

Environment Upgrade Reinforcement Learning for Non-differentiable Multi-stage Pipelines

Shuqin Xie et al.

CVPR 2018

Yoshihiro Fukuhara

概要

微分不可能な multi-stage pipline において joint optimization を可能にする environment upgrade reinforcement learning (EU-RL) を提案. ２段階の Instance segmentation と pose estimation のタスクで評価実験を行い, どちらも優位な結果を示した.

fukuhara-Environment-Upgrade-Reinforcement-Learning-for-Non-differentiable-Multi-stage-Pipelines.png

新規性・結果・なぜ通ったか？

微分不可能な multi-stage pipline の学習において問題であった上流への feedback が出来ないという点と end-to-end な最適化が出来ない点に取り組んだ研究
強化学習の agent が下流の出力を受けて上流の出力に変更を与える, environment upgrade reinforcement learning (EU-RL) を提案
強化学習の手法として actor-critic を Temporal Difference　(TD) learning で学習
State として１段階目（例えば物体認識）からの出力と２段階目からの出力（例えば semantic segmentation）を使用
Action として１段階目からの出力結果を変更する操作の集合を使用（物体認識ならBounding Boxの位置の変更やスケールなど）
Reward は２段目の出力の精度の向上度合いによって計算
Instance segmentation と pose estimation のタスクで評価実験を行い, どちらも優位な結果を示した

コメント・リンク集

[論文] Environment Upgrade Reinforcement Learning for Non-differentiable Multi-stage Pipelines
強化学習の応用先としても, アイデアとしても面白い. 今回の論文では２段階の pipeline についてのみ議論が行われていたが, 今後は３段以上の pipeline でも同様の議論が行われていく？

[#575]

2018.5.11 23:32:55

Deep Reinforcement Learning of Region Proposal Networks for Object Detection

Aleksis Pirinen and Cristian Sminchisescu

CVPR2018

872

概要

Region proposal network（RPN）と深層強化学習（DRL）を組み合わせたdrl-RPNを提案する．通常のRPNがRoIを貪欲に選択するのに対し，DRLで学習されたsequential attention mechanismを用いて選択することで，最終検出タスクに最適化される．また，時間経過とともにクラス固有の特徴を蓄積し，分類スコアに良い影響を与えて検出精度が高めることを示す．また，学習をいつ停止するか自動的に判断する．

新規性・結果・なぜ通ったか？

RPNにDRLを導入して，attentionに即したRoIを選択できるようにした．VOC2007を用いた評価では，通常のRPNがmAP74.2%なのに対し，drl-RPNは76.4%を達成した．MSCOCOでも各指標・各セットで数%の精度向上が見られた．

コメント・リンク集

またまた高精度なRoIを検出するタイプの手法．ついにRLまで使うことになった．

論文

[#576]

2018.6.11 23:18:20

A Closer Look at Spatiotemporal Convolutions for Action Recognition

Du Tran et al.

CVPR2018

1711.11248

Takumu Ikeya

概要

動画解析のための時空間畳み込みの各手法が行動解析に及ぼす影響を調査した．
Residual learningのフレームワークでは3D CNNsが2D CNNsよりも精度において優れていることを実験的に示した．
3D Convolution filterを空間と時間へ分割することで精度が向上することを示した．
新たな時空間畳み込みブロックの構造として”R(2+1)D”を提案した．

Item3Image

新規性・結果・なぜ通ったか？

新規の畳み込みブロックとして時空間の畳み込みブロックを時間と空間に分割する"R(2+1)D"を提案した．
"R(2+1)D"はSports-1M，Kinetics,UCF101,HMDB51のデータセットでSOTAを達成した．

コメント・リンク集

論文

[#577]

2018.6.11 19:39:34

GeoNet: Geometric Neural Network for Joint Depth and Surface Normal Estimation

Xiaojuan Qi, Renjie Liao, Zhengzhe Liu, Raquel Urtasu andJiaya Jia

CVPR2018

Yuta Matsuzaki

概要

単眼の画像から深さ(depth)と表面の法線マップ(surface normal maps)を同時に予測する幾何ニューラルネットワーク(GeoNet)を提案．NYU v2 dataset、ではGeoNetが幾何学的に一貫した深度マップと法線マップを予測できることを確認．surface normal maps推定でSOTA、また既存のdepth推定方法と同等の精度を達成．

新規性・結果・なぜ通ったか？

GeoNetは2つのストリームのCNNの上に構築されており、depthとsurface normal maps間の幾何学的な関係を構築．これによってdepthとsurface normal mapsを効率的に予測するための基礎となるモデルを構築し，高い一貫性と一致精度を達成することが可能．

コメント・リンク集

[#578]

2018.6.9 13:54:32

MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition

Yizhou Zhou, Xiaoyan Sun, Zheng-Jun Zha and Wenjun Zeng

CVPR2018

Yuta Matsuzaki

概要

2D CNNと3D CNNの畳み込みモジュールを統合した行動認識のためのネットワークMixed Convolutional Tube(MiCT)を提案．3つの有名なベンチマークデータセット(UCF101，Sport1M，HMDB-51)においてMiCT-Netが元の3D CNNのみの手法より著しく優れていることを確認．UCF101とHMDB51での行動認識でSOTAの手法と比較し、MiCT-Netは最高の性能を発揮．

新規性・結果・なぜ通ったか？

2D CNNにおける手法を十分にリスペクトし，3D Convと融合した新規のネットワークを構築
MiCT-Netによって時空間融合の各ラウンドにおける学習の複雑さを軽減しつつ、より深くより有益な特徴マップを生成可能
UCF101とHMDB51においてSOTA

コメント・リンク集

論文

[#579]

2018.6.9 15:14:28

Jerk-Aware Video Acceleration Magnification

Shoichiro Takeda, Kazuki Okami, Dan Mikami, Megumi Isogai and Hideaki Kimata

CVPR2018

Yuta Matsuzaki

概要

高速で大きな動きに対して加速度法の出力を頑健にするための、ジャーク(振動，ぶれ)の新規利用方法について言及．微小な変化は時間的スケールでの高速な大きな動きよりも滑らかであるという観点・観測に基づき、高速で大きな動きの下でのみ微妙な変化を通過させるジャークフィルタを設計．

新規性・結果・なぜ通ったか？

ジャークフィルタを加速度法に適用することで、最先端のものより優れた結果を確認．

コメント・リンク集

link1

[#580]

2018.6.9 17:37:53

Recurrent Pixel Embedding for Instance Grouping

Shu Kong, Charless Fowlkes

CVPR2018

Hiroaki Aizawa

概要

Instance segmentationのような画素単位のグループ分け問題を行うEnd-to-Endで学習可能な枠組みを提案。同じグループの画素はcosine similarityが高くなるように、異なるグループはmargin以下の値になるように超球面上に回帰(Spherical Embedding Module)し、そこでRNNによるMean-shift clusteringを実行すること(Recurrent Grouping Module)で実現。

新規性・結果・なぜ通ったか？

既存のregion proposalやbboxによる組み合わせたinstance segmentationの手法とは大きく異なり新しい。またこれをRNNでMean-shift clusteringを表現することで実現し、End-to-Endな学習を可能としている。加えてhyperparameterの設定に関する理論的分析も提供。instance segmentationやsemantic segmentationだけでなく、様々なpixel-levelのドメインタスクへ応用可能。

コメント・リンク集

手法もシンプルでかつ効果的で応用先も広い。Fig.11の結果からsemantic segmentationにおいてもinstanceの情報が効果的に利用できそうで試してみたい。

[#581]

2018.6.11 07:49:04

Learning a Discriminative Feature Network for Semantic Segmentation

Changqian Yu, Jingbo Wang, Chao Peng, Changxin Gao, Gang Yu, Nong Sang

CVPR2018

Hiroaki Aizawa

概要

Semantic Segmentationにおけるintra-class inconsistencyとinter-class indistinctionの問題を、Discriminative Feature Network(DFN)によって対処。intra-class inconsistencyは図の牛の一部を馬と誤認識するような現象。inter-class indistinctionは、図のコンピュータのように外見が似ている対象の区別することが難しい現象。前者の問題をmulti-scaleかつglobal contextな情報を抽出するChannel Attention Block(CAB)を持つSmooth Networkにより、後者の問題をbottom-upなBorder Networkにより緩和する。

Learning_a_Discriminative_Feature_Network_for_Semantic_Segmentation.PNG

新規性・結果・なぜ通ったか？

Semantic Segmentationをpixel単位のラベル付けだけではなく、物体の1つのカテゴリに対して一貫したセマンティックラベル付けをするタスクとして考えた。それゆえのBorder Networkと考える。上記の2つの問題は、必要な情報が異なるゆえ、対処の仕方をCABとU-Net構造に似たSmooth NetworkとBottom-upなBorder Networkとうまく分解している。PASCAL VOC 2012でmean IoU 86.2%、Cityscapesで80.3%を達成。

コメント・リンク集

実験で各モジュールの効果を検証していたが何が効いているのかよくわからない。直感的にはBorder NetworkとSmooth Networkの分離は良いアイデアと感じたが、この分離による効果は1%未満。

arxiv

[#582]

2018.6.11 07:32:22

SemStyle: Learning to Generate Stylised Image Captions using Unaligned Text

A.Mathew, L.Xie and X.He

CVPR2018

arXiv:1805.07030

Kota Yoshida

概要

書面上のコミニュケーションをする上で文書のスタイルは魅力と明快さに影響する．同一の画像からスタイルの異なるキャプションを生成するという研究．様々なスタイルの単語の選択肢とは異なる構文をもつ文章をデコードするための統一された言語モデルを開発した．

新規性・結果・なぜ通ったか？

Semanticな用語を用いて文章の柔軟性を備えたキャプションの生成
スタイルと記述両方のコーパスを用いて文章レベルのスタイルを模倣するための学習
SemStyleのキャプションが画像の意味を保持し、記述的で、スタイルもシフトできていることを示した

コメント・リンク集

連続する写真からより豊富なキャプションを生成できる可能性を秘める
Paper

[#583]

2018.6.10 14:13:49

Reinforcement Cutting-Agent Learning for Video Object Segmentation

Junwei Han et al.

CVPR 2018

Yoshihiro Fukuhara

概要

Video Object Segmentation (VOS) を強化学習によって行う研究. Object Segmentation では主に物体の領域とそれらの(周辺との)関係性が重要であるという推量に基づいて, VOS をマルコフ過程として定式化し, Deep Q-Learning を適用した. 評価実験では, state-of-the-art とほぼ同等の結果を達成した.

fukuhara-Reinforcement-Cutting-Agent-Learning-for-Video-Object-Segmentation.png

新規性・結果・なぜ通ったか？

Video Object Segmentation (VOS) をマルコフ過程 (MDP) として定式化した
State は動画の現在のフレームの特徴量と過去 k（論文では k=4）フレーム分の action のヒストリーを使用
Action は object searching (9次元) と context embedding (3次元) を使用
Reward は ground truth のマスクと推定されたマスクの IoU の差で評価
強化学習は Deep Q-Learning (DQN) を使用
DAVIS dataset と YouTube-Objects dataset を用いた評価実験では, state-of-the-art とほぼ同等の結果を達成した

コメント・リンク集

[論文] Reinforcement Cutting-Agent Learning for Video Object Segmentation
[Dataset] DAVIS dataset
[Dataset] YouTube-Objects dataset
Future work として同様の手法が　Semantic Segmentation, Object Localization, Saliency Estimation, 3D Shape Learning などに適用できる可能性を示唆

[#584]

2018.6.9 17:29:55

SeedNet: Automatic Seed Generation with Deep Reinforcement Learning for Robust Interactive Segmentation

Gwangmo Song et al.

CVPR 2018

Yoshihiro Fukuhara

概要

インタラクティブセグメンテーションに強化学習を適用した研究. 入力画像と初期 seed から自動で新しい seed を順次生成する SeedNet を提案. 評価実験では state-of-the-art の結果を達成すると共に, 教師あり手法と比較しても優位な結果を達成した.

fukuhara-SeedNet-Automatic-Seed-Generation-with-Deep-Reinforcement-Learning-for-Robust-Interactive-Segmentation.png

新規性・結果・なぜ通ったか？

Interactive Segmentation のタスクをマルコフ過程として定式化し, 強化学習（Deep Q-Learning）を用いて学習を行った
State には入力画像の画素情報と seed の位置とラベル,　mask 画像を用いる (seed の位置を state に陽に加えることによって, 生成される mask が seed 位置の変化についてロバストになるらしい)
Action は state の情報から新しい seed の位置とラベルの決定（自由度を削減するために 20x20 のグリッド上から位置を選択, seed の数が10点になった段階で終了）
Reward は生成された Mask と Ground Truth の Mask の IoU（exp 型を提案）に加えて, SeedNet によって追加された新 seed のラベルと位置が適切かの２点を考慮して決定
MSRA10K dataset を用いた評価実験では state-of-the-art の結果に加えて, 初期の seed 位置についてロバストであることが確認された
また, 教師あり学習を用いた手法 [Long+15], [Xu+16] と比較しても優位性が確認された

コメント・リンク集

[論文] SeedNet: Automatic Seed Generation with Deep Reinforcement Learning for Robust Interactive Segmentation
強化学習を新タスクに適用してみました系列の論文
他の同系列の論文に見られる傾向と同じく, MDPによる定式化と Reward の計算方法を主な貢献としている
特に本論文は, 教師ありでは学習するのが難しい問題を上手く見つけている（seed の打ち方は user によって千差万別なのでトレーニングデータを作るのが難しい）

[#585]

2018.6.10 21:50:55

Adversarial Complementary Learning for Weakly Supervised Object Localization

Xiaolin Zhang et al.

CVPR 2018

Yoshihiro Fukuhara

概要

弱教師ありの Object Localization の研究. 2つの Classifier を並列に配置し, 片方の classifier で注目された領域を他方の入力から取り除いておくことで, それぞれが異なる領域に反応するような構造となっている. 評価実験では ILSVRC dataset の localization　のタスクで 45.15% (new state-of-the-art) の誤差率を達成した.

fukuhara-Adversarial-Complementary-Learning-for-Weakly-Supervised-Object-Localization.png

新規性・結果・なぜ通ったか？

全結合層の最後に畳み込み層を1つ追加することで, CAM [Zhou＋16] と同等の object localization maps を事後処理無しで得られることを数式で示した
画像から畳み込み層によって抽出した特徴量を, 並列に配置した　classifier に入力する
片方の classifier から出力された object localization map で注目されていた領域を消去したものを, 他方の入力とすることで両方の classifier を異なる領域に反応させる
ILSVRC dataset 等を用いて行った評価実験では Localization と Classification の両タスクにおいて, state-of-the-art [Zhou+16, Singh+17] と同等か優位な結果を達成した

コメント・リンク集

[論文] Adversarial Complementary Learning for Weakly Supervised Object Localization

[#586]

2018.6.9 00:32:55

Feature Selective Networks for Object Detection

Yao Zhai, Jingjing Fu, Yan Lu, Houqiang Li

CVPR2018

538

概要

物体検出時に用いるRegion-of-Interest（RoI）を，sub-regionとアスペクト比の差を用いて再構成するFeature selective netsを提案．画像全体に対してsub-regionのattention bank（すべてのattention mapを記憶するbank）とアスペクト比のattention bankを生成する．Attention mapはbankから選択的にpoolされ，RoIの改善に使用される．処理の手順は(1)CNNから得られた特徴マップをRPNに入力しRoIを得て，(2)特徴マップのチャンネル数を削減してRoIプーリングを行い，圧縮されたRoI特徴を得る．(3)削減される前のRoIをregion-wise attention生成モジュールに入力する．特徴マップを用いてアスペクト比attention bankとsub-region attention bankを得る．(4)各bankにselective RoIプーリングを行う．そして，(2)と(4)で得られたRoI特徴と各attention mapを結合して検出サブネットワークに入力する．

新規性・結果・なぜ通ったか？

RoIをattentinを用いて補正する．VGGだけではなくGoogLeNetやResNetにも適用可能である．VOC2007を用いた評価では，mAP: 82.9%, 76.8%, 74.3% （Res101, GoogLe, VGG-16）を達成し，Faster R-CNNの78.8%, 74.8%, 73.2%（上記と同順）よりも高精度である．さらに，検出サブネットワークをシンプルにしているため，Faster R-CNNよりも高速な検出が可能である．

コメント・リンク集

Attentionを用いた物体検出が増えてきている．Mask R-CNNみたいにRoIに注目する手法も多い？

数年前は型崩れの多い3次元形状を出力するGeneratorであったが、徐々によくなりつつある。この研究もまだ過程にしか過ぎない？

[#590]

2018.6.10 16:03:52

Improving Occlusion and Hard Negative Handling for Single-Stage Pedestrian Detectors

Junhyug Noh, et al.

Munetaka Minoguchi

概要

歩行者検出におけるオクルージョンやハードネガティブを改善するための提案。本提案手法は、シングルステージ物体検出手法に適応可能。オクルージョン処理のために、ベースモデルの出力テンソルを更新してパートスコアを推定し、オクルージョン認識スコアを算出する。ハードネガティブの混同を軽減するために、 average grid classifiersをpost-refinement classifiersとして導入。

新規性

SqueezeDetやYOLOv2、SSD、DSSDを含むシングルステージ物体検出手法に適応でき、オクルージョンやハードネガティブを改善する。本論文では歩行者検出におけるオクルージョンにフォーカスを当てているが、一般物体検出にも適応できる可能性がある。

結果・リンク集

CaltechPedestrianとCityPersonsデータセットで評価。4つのモデルのパフォーマンス向上を確認。重度のオクルージョン設定において、最良のパフォーマンス。

論文

論文

[#595]

Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion Forecasting with a Single Convolutional Net

Wenjie Luo, Bin Yang, Raquel Urtasun

CVPR2018

437

概要

3Dセンサで得られた点群から3D物体検出や追跡を行う新しいDNN「Fast and Furious（FaF）」を提案．検出と追跡，さらに短期の経路予測を同時に推論でき，Sparse dataやオクルージョンに頑健な検出ができる．3D点群と時間の4Dテンソルを入力として，空間と時間に対して3D畳み込みを行う．4DテンソルはEarly FusionまたはLate Fusion（図中ではLater）で時間情報を結合している．これらは精度と効率のトレードオフ関係にある．

新規性・結果・なぜ通ったか？

物体検出から追跡，さらに経路予測までend-to-endで行えるモデル．全体の検出時間はわずか30ms以下である．約55万フレームからなるLiDARのデータセットを作成し，車両に3D bboxとトラッキング用IDをラベリングして学習および評価に用いる．物体検出の結果はSSDのIoU 77.92mAPを上回る83.10mAPである（Late Fusionを用いることで1.4mAP向上している）．追跡もHungarianと同等以上の性能で，経路予測もL2距離0.33メートル未満で10フレーム予測可能である．

コメント・リンク集

タイトルが某カーアクション映画みたいでカッコいい．内容も名前負けしておらずよく作り込まれておりOralで採択されている．インパクトのあるタイトルは大切．

論文

[#596]

2018.6.10 03:15:09

Low-Shot Learning from Imaginary Data

Yu-Xiong Wang, et al.

1801.05401

Munetaka Minoguchi

概要

人間の想像力に着目することで、メタ学習におけるLow-Shot Learningを可能にするアーキテクチャの提案。コンピュータビジョンに幻覚(想像)を抱かせることで、少ないデータから新しい視覚的概念を学習させる。アプローチとしては、メタ学習を取り入れており、 meta-learnertとhallucinator(幻覚者)を組み合わせて共同で最適化。hallucinatorは、通常のトレインセットとノイズベクトルから幻覚トレーニングセットを出力する。通常のトレーニングセットに加えて、幻覚トレーニングセットを学習することで精度向上を図る。

新規性

人間は新しい視覚的情報を素早く学習できる。これは、「物体がさまざまな視点から見たときにどのように見えるかを想像できるから」と仮定。そのうえで、人間の想像力をモデルとし、システムに組み込むことでLow-Shot Learningを可能にしている。

コメント・リンク集

AIに幻覚を見せられる時が来た模様。さまざまなメタ学習手法に組み込むことができ、精度を向上させられるらしい。

論文

[#600]

2018.6.9 19:19:49

Fine-grained Video Captioning for Sports Narrative

Huanyu Yu, Shuo Cheng, Bingbing Ni, Minsi Wang, Jian Zhang, Xiaokang Yang

CVPR 2018

okayasu

概要

Fine-grainedなスポーツ動画キャプショニング

Fine-grained_Video_Captioning_for_Sports_Narrative

新規性・結果

youtubeから2Kのスポーツ動画とキャプションからなるFine-grained Sports Narrative dataset(FSN)の提案
スポーツビデオのキャプショニングの新しい評価指標Fine-grained Captioning Evaluation(FCE)の提案
スポーツビデオのキャプショニングの新しいフレームワークの提案(骨格情報とオプティカルフローで詳細な動作のエンコード，オプティカルフローと選手のローカライズ結果で人物間のインタラクションをエンコードそれらのエンコードされたベクトルを階層的RNNで言語化)

コメント・リンク集

論文

[#601]

2018.3.24 13:04:44

GANerated Hands for Real-Time 3D Hand Tracking From Monocular RGB

Franziska Mueller, Florian Bernard, Oleksandr Sotnychenko, Dushyant Mehta, Srinath Sridhar, Dan Casas, Christian Theobalt

CVPR 2018

概要

RGBのみの動画入力からリアルタイムに3次元手部関節位置推定を実行する手法を提案。YouTubeのようなコントロールされていない場面においても3次元手部関節位置推定を行うことができる。本論文では3次元のハンドモデルとCNNを組み合わせることによりトラッキングを実行しており、GANによる生成ベース（手の3次元合成データをリアルに変換していることに相当）の手法によりオクルージョンやビューポイントの違いに頑健である。GANはAdversarial LossとCycle-consistency Loss、さらには幾何学的な整合性を保つためにGeometric Consistency Lossを最適化するよう学習。

180609GANeratedHand

新規性・結果・なぜ通ったか？

GANをベースとして合成データからリアル画像を生成、同データで学習したモデルは、RGB-onlyな3次元ハンドトラッキングにおいてState-of-the-artである。敵対的学習を用いたデータ生成手法、YouTube等のあまり校正されていないデータにおいても良好な精度を実現していることが採択された理由であると考える。

コメント・リンク集

3Dデータを自由に生成できることは、次世代のアイディアを実現するための大きなポイントである。3次元トラッキングのみならず面白いこと考えたい。

論文

[#602]

2018.6.9 18:52:55

A Certifiably Globally Optimal Solution to the Non-Minimal Relative Pose Problem

Jesus Briales, Laurent Kneip, Javier Gonzalez-Jimenez

CVPR 2018

概要

キャリブレーション済みの２カメラにおける相対姿勢の推定問題を解くための全体最適化法（Globally Optimal Solution）を提案する。局所最適解ではなく、グローバルな最適化が計算できることが新規性である。本論文では、凸最適化の問題においてあらかじめ定義された問題（Shor's Convex Relaxation）としてQuadratically Constrained Quadratic Program (QCQP)を扱うことを実施する。ここに対して、理論的かつ実験的な解答法を提示したことが本論文の貢献である。

180609GloballyOptimalSolution

新規性・結果・なぜ通ったか？

２カメラの相対姿勢問題の解決のために従来の凸最適化手法を適用して、理論的かつ実験的に解決できることを示したことが新規性であり、CVPRに採択された理由である。

コメント・リンク集

（あまり深く読めていないのと、知識が足りなくて自信がないです。。）

論文

[#603]

2018.6.9 17:36:01

LiDAR-Video Driving Dataset: Learning Driving Policies Effectively

Yiping Chen, et al.

Munetaka Minoguchi

概要

LiDERで取得したポイントクラウド、車載カメラ映像、および一般ドライバーの運転動作からなるLiDAR-Videoデータセットの提案。運転動作は、ハンドルの傾きと自動車の走行速度情報によるもの。また、これらのデータを使い、自律走行における運転手段を決定するためのPolicy Learningを提案。これは、DNN+LSTMで構成されるアーキテクチャである。3種類のデータの対応時間を登録することでどのように運転するかをベンチマークする。

新規性

自律走行において、これまではカメラとレーザースキャナー、運転動作を組み合わせたデータやアプローチがなかった。本論文ではデータベースを構築したうえで、自律走行に対するアプローチを提案している。

結果・リンク集

単一のデータよりも3つのデータを組み合わせることで精度が向上していることを示唆。また、DNN単体よりも長いtermで処理できるDNN+LSTMの方が精度向上につながることも示唆。

論文

[#604]

Collaborative and Adversarial Network for Unsupervised domain adaptation

Weichen Zhang, Wanli Ouyang, Wen Li, Dong Xu

CVPR 2018 Spotlight

Kazuki Inoue

概要

CNNの浅い層ではドメイン固有の特徴量を、深い層ではドメインに不変な特徴量を取得することでdomain adaptationを行うCollaborative and Adversarial Network(CAN)を提案。従来のDomain Adversarial Training of Neural Network(DANN)ではドメインに不変な特徴量を学習することができるものの、ターゲットドメイン固有の特徴量を得ることが難しいという問題があった。提案手法では、CNNの浅い層では低次の特徴量を、深い層では高次の特徴量を取得することができることに着目し、 CNNのそれぞれのブロックに対するdomain discriminatorに対して、浅いブロックではソースドメインとターゲットドメインを識別可能となるように、深いそうでは識別が不可能となるように学習を行う。ソースドメインに対してはクラスの識別も行う。またテストデータに対してpseudo labelingを行うIncremental CAN(iCAN)も提案。ターゲットドメインのサンプルのうち、高いconfidenceでソースドメインであると判定され、かついずれかのラベルに対するconfidenceが高いものに対してpseudo labelingを行うことで、データセットを拡張しdomain shiftを解消する。

新規性・結果・なぜ通ったか？

CNNの浅いブロックで得られる特徴量に対してはドメイン識別が可能なように、深いブロックで得られる特徴量に対してはドメイン識別が不可能なように学習を行うCANを提案。またターゲットドメインに対してpseudo labeingを行うiCANも提案。
実験で使用したのはpretrained RenNet50であり、10層目、22層目、40層目、49層目のそれぞれに対してdomain discriminatorを適用。41~49層からなるブロックからドメインに不変な特徴量を得るように学習を行った。
Office31、ImageCLEF-DAを用いたクラス識別においてstate-of-the-artと比較した結果、最も高い精度を達成。

コメント・リンク集

シンプルな発想だが面白い手法！似たアイディアで画像の生成もできないだろうか？
論文

[#605]

Look at Boundary: A Boundary-Aware Face Alignment Algorithm

Author

CVPR 2018 Poster

Kazuki Inoue

概要

顔の境界線を事前分布として使用することで、顔のランドマークを推定する手法を提案。既存手法でジゼ情報として使用されている顔のパーツは情報が離散的であり、顔に対するセマンティックセグメンテーションであるface parsingは鼻に対する精度が良くない。一方で顔の境界線は定義がはっきりしており、かつ顔の形状から推定することが可能。提案手法では顔の境界線をstacked hourglassをベースとして、オクルージョンに対して頑健になるようにmessage passing layer、推定精度の向上のためにadversarial netを導入している。推定された顔の境界線を元に、顔のランドマークを推定する。

新規性・結果・なぜ通ったか？

事前実験によって顔の境界線を用いたランドマーク推定がstate-of-the-artよりも優っていることを確認した上で手法を提案。
300W, COFW, AFLWなどのデータセットにおいてstate-of-the-arttと比較した結果、全ての場合において提案手法が優位となった。また境界線のGTを使用したランドマーク推定をOracleとして示しており、 Oracleによる推定精度が最も高くなった。
WIDER FaceデータセットをベースにしたWider Facial Landmarks in-the-wild(WFLW)データセットを構築しており、10000枚の画像に対して98点のランドマーク、オクルージョン、メイク、照明環境、ブラー、表情のアノテーションを持つ。

コメント・リンク集

事前実験やOracleによって精度向上の理由が明確になっていルため、手法の優位性がはっきりと伝わってくる。
論文
Project page(Supplementary material, Demo, Code)

[#606]

Revisiting knowledge transfer for training object class detectors

Jasper Uijlings, Stefan Popov, Vittorio Ferrari

1708.06128

Munetaka Minoguchi

概要

ソースクラスのBBoxアノテーションを使って、弱教師付きのトレーニング画像からターゲットの物体検出器を学習する知識転移手法の提案。まず、ソーストレインセットでproposal generatorをトレーニングし、それをターゲットトレインセットに適用。次に、画像のクラスラベル(Bboxなし)を使用し、知識転移でMultiple Instance Learning(MIL)を実行。 MILによって、物体検出器をトレーニングするために使用する、ターゲットクラス用のBBoxを生成。最後に、ターゲットの物体検出器をターゲットテストセットに適用。

新規性

物体候補とクラスを段階的に知識伝達していくフレームワーク。これにより、固有のクラスやジェネリックなクラスに渡る、広い知識伝達を可能にすることができる。

結果・リンク集

段階的な知識伝達によって、良質な物体候補を出力できる。

論文

[#607]

Fight Ill-Posedness With Ill-Posedness: Single-Shot Variational Depth Super-Resolution From Shading

Bjoern Haefner, Yvain Quéau, Thomas Möllenhoff, Daniel Cremers

CVPR 2018

概要

距離空間/距離画像の超解像を行う（Super-Resolution）を行う技術を提案。従来はShape-from-shadingにより行って来たが、形状の複雑性（誤りを含む）が存在していたため、これを改善する手法を提案した。

180609FightIllPosed

新規性・結果・なぜ通ったか？

距離画像における超解像を行うための最適化手法を提案した。結果は図に示すとおりである。

リンク集

[#608]

2018.6.9 13:58:31

Multistage Adversarial Losses for Pose-Based Human Image Synthesis

Chenyang Si, Wei Wang, Liang Wang, Tieniu Tan

CVPR 2018

概要

人物の姿勢を事前情報として、ある視点の人物画像の入力からビューポイントを変更した人物画像を合成する手法を提案する。右図では3ステージのフレームワークについて示しており、最初のステージでは角度情報を挿入した姿勢変換、次のステージでは角度変化した人物にアピアランスを挿入、最後に背景を自然に挿入するステージ、という感じで変換が進んで行く。どう枠組みを実行するため、特にステージ２ではAdversarial Lossが、ステージ３ではForeground/Global Adversarial Lossを適用して誤差を計算する。

180609PoseHumanSynthesis

新規性・結果・なぜ通ったか？

評価は生成した画像のPSNR（シグナル・ノイズ比）、正解値との誤差SSIMを計算して、提案手法がもっとも優れた数値を出していることを明らかにした（SSIM: 0.72, PSNR: 20.62）。

コメント・リンク集

データセットの環境が固定だからできる？背景モデルの空間が非常に小さいので変換した際にもテクスチャが崩れずに生成できる？

論文

[#609]

2018.6.9 13:47:06

Cross-Modal Deep Variational Hand Pose Estimation

Adrian Spurr, Jie Song, Seonwook Park, Otmar Hilliges

CVPR 2018

概要

2次元画像と3次元手部モデルを同様の空間で扱うことができるCross-modal latent spaceを提案して、手部姿勢推定を実行する。別々にクラスタリングするのではなく、同一の空間で扱う（2DRGB-3D空間関係なく、同じ姿勢は同じような空間位置に投影される）方がマッチングの際にも便利。この特徴空間を学習するためにVariational Auto-Encoder（VAE）の枠組みで、Cross-modalのKL-divergenceを学習する。

180609CrossModalLatentSpace

新規性・結果・なぜ通ったか？

2D-3Dの共通空間を学習することで、2D画像からダイレクトに手部の3D関節点推定に成功した。距離画像との単一空間も学習可能とした。同一空間上で扱えるようにして、かつ従来法よりも精度向上が見られたため、CVPRに採択された。

コメント・リンク集

異なるモダリティを同一の枠組みで行ってしまう（2d-3dを同じ空間で）学習は他にもありそう？

論文

[#610]

2018.6.9 13:24:52

Progressive Attention Guided Recurrent Network for Salient Object Detection

Xiaoning Zhang, et al.

Munetaka Minoguchi

概要

マルチレベルのコンテクスト情報を選択的に統合する、顕著性のためのProgressive Attention Guided Recurrent Networkの提案。Attention Moduleを複数組み込み、その出力をステップ形式で統合していく。高レベルのfeatureを使って、低レベルのfeatureをガイドするイメージ。また、ネットワーク全体を最適化するためのmulti-path recurrent feedbackを提案。これにより、上部の畳み込み層からのセマンティック情報を、浅い層に転送することができる。

新規性

顕著性推定のための学習方法の提案。従来のFCNベースの方法では、情報を区別せずに多レベルの畳み込み特徴を直接適用してしまうため、精度が上がらないと指摘。複数の層、複数のAttention Module出力を使い、コンテキスト情報を統合するので強力な特徴を抽出できる。

結果・リンク集

6種類のデータベースで精度評価。従来手法と比較して、ほぼ全てで最良の結果。

論文

[#611]

Scale-Transferrable Object Detection

Peng Zhou, et al.

Munetaka Minoguchi

概要

マルチスケールに対応した物体検出器であるScale-Transferrable Object Detection(STDN)の提案。STDNは DenseNet-169をベースとし、複数の物体スケールに対応するためのsuper-resolution layersを搭載。このsuper-resolution layersによってアップサンプリングすることで高解像度のfeature mapを得られるので小さな物体に対応し、大きな物体にはpooling層で対応する。

新規性

従来の物体検出手法では、様々なサイズのfeature mapを組み合わせるなどして、スケールに対応していたが、やはり小さな物体は苦手。本手法では、super-resolution layersという新たな手法によって改善を図る。

結果・リンク集

PASCAL VOCやMS COCOなどで精度向上を示している。個人的には、物体検出が苦手とする小さな物体に着目したデータセットなどを用意したうえで精度を比較してみたい。

論文

[#612]

Weakly and Semi Supervised Human Body Part Parsing via Pose-Guided Knowledge Transfer

Hao-Shu Fang, Guansong Lu, Xiaolin Fang, Jianwen Xie, Yu-Wing Tai, Cewu Lu

CVPR 2018

概要

人物姿勢推定において「似たような姿勢はほぼ同じセグメント結果を保有する」という前提で弱教師付き/半教師あり学習を実行する。ある対象画像が入力された際にはほぼ同じ姿勢のデータをDBから検索して知識を転用（Pose-guided Knowledge Transfer）学習を実行する。その際に姿勢による拘束条件（Morphological Constraints）を入れ込むことでピクセルベースの姿勢のセグメンテーションを実行。モデルは全層畳み込みネット（Fully Convolutional Networks; FCN)を適用。

180609WeakSemiPoseParsing

新規性・結果・なぜ通ったか？

弱教師付き学習（類似の姿勢を検索して対応づける）/半教師付き学習（少量のデータがあれば学習を実行）、いずれの手法でも姿勢学習を実行することができる。その上でデータ量を確保することに成功し、PASCAL-Part datasetにてmAPが3ポイント向上した。

コメント・リンク集

より少量のアノテーションで、かつ複数の枠組みで（本論文の場合は弱教師付き学習/半教師あり学習）学習が実行できる枠組みが増えてきた。そればかりか、教師あり学習のみよりも精度の高いものができあがりつつある。

[#613]

2018.6.9 09:39:15

Occluded Pedestrian Detection Through Guided Attention in CNNs

Shanshan Zhang, et al.

Munetaka Minoguchi

概要

オクルージョンに頑健な、Faster R-CNNベースの歩行者検出手法の提案。歩行者検出について解析することで、CNN特徴の各チャンネルがそれぞれ異なる身体部分を活性化していることに着目。(実際にチャンネルごとにアテンションを取ることで確認)各チャンネルが異なる身体部位を表現しているならば、オクルージョン発生時に身体部位の特定の組み合わせを定式化することができる。

新規性

歩行者検出器におけるCNN特徴について解析することで、歩行者に特化した物体検出を可能にしている。Faster R-CNNにAttention Networkを追加したアーキテクチャを提案。これにより、上位featureの重みパラメータを調節。

結果・リンク集

アーキテクチャをあまり複雑化せずに精度を向上させている。動物や虫などでも、CNNチャンネルごとに異なる身体部位を表現しているのだろうか。

論文

[#614]

FaceID-GAN: Learning a Symmetry Three-Player GAN for Identity-Preserving Face Synthesis

Yujun Shen, Ping Luo, Junjie Yan, Xiaogang Wang, Xiaoou Tang

CVPR 2018 Poster

Kazuki Inoue

概要

IDを保った任意の顔向き画像をGANで生成するために、実画像ドメインと合成画像ドメインのそれぞれのIDを識別するclassifierを導入したFaceID-GANを提案。従来のGANではgeneratorとdiscriminatorが競い合うだけでclassifierは補助的な機能を果たしていたが、提案手法におけるclassifierは実画像に対しては実画像ドメインのID番号を、合成画像に対しては合成画像ドメインのID番号を識別させる、というようにデータセットに含まれるN個のラベルに対して、 2Nのラベル識別を行う。他にも実画像のIDを表す特徴量と合成画像のIDを表す特徴量のコサイン類似度をロス関数として使用することで、異なるドメインに属する特徴量の類似度を高める。generatorには顔の形状特徴量、顔向き特徴量、ランダムノイズを入力とする。

新規性・結果・なぜ通ったか？

実画像、合成画像のそれぞれのドメインにおいてID識別を行うclassifierをGANに導入することで、generator VS. discriminator & classifier の構図を持つFaceID-GANを提案。
CASIA-WebFace494414枚(10575人のID)の画像でトレーニングを行い、LFW, IJB-A, CelebA, CFPで検証した。
state-of-the-artと横顔を入力とした正面顔画像生成、水平方向の視点移動、face verificationの精度を比較した結果、最も高い精度を達成した。

コメント・リンク集

[#615]

Unsupervised Sparse Dirichlet-Net for Hyperspectral Image Super-Resolution

Ying Qu, Hairong Qi, Chiman Kwan

CVPR 2018 Spotlight

Kazuki Inoue

概要

高解像度かつ短いスペクトルバンド幅で撮影された画像であるhyper resolution hyperspectral image(HR HSI)を、HR HSIの正解データなしで、広いスペクトルバンド幅で撮影された高解像度画像(HR MSI)と、短いスペクトルバンド幅で撮影された低解像度画像(LR HSI)を用いて生成する手法を提案。高解像度かつ短いスペクトルバンド幅で写真を撮影することはハードウェア的に困難であり、データセットの構築も難しい。提案手法ではHR MSIとLR HSIをトレーニングデータとして2つのencoder-decoderを用いる。 HR MSIとLR HSIにはそれぞれ独立のエンコーダーが適用されるが、LR HSIから得られるスペクトル情報を共有するため、デコーダーは共有する。またスペクトル係数の総和は1という物理的な制約を実現するために潜在変数がディリクレ分布に従うようにする。また推定されたスペクトルに対し得てスペクトル空間上の角度の差が小さくなるように学習を行う。

新規性・結果・なぜ通ったか？

CAVE、Harvardデータセットにて検証を行い、state-of-the-artとRMSE、SAM(スペクトル空間のベクトル類似性)比較して最も高い精度を達成。
教師無し学習が行えた理由として、古くから取り扱われている問題設定であったため、問題の性質をよく知っていたことがあげられる。

コメント・リンク集

論文

[#616]

3D Semantic Segmentation with Submanifold Sparse Convolutional Networks

Benjamin Graham, Laurens van der Maaten, Martin Engelcke

CVPR 2018

1248

Yue Qiu

概要

スパース性が持ったデータ(ポイントクラウドなど)をより効率的で畳み込むsparse convolutional operationsを提案した．また，提案operationsを用いて新たな高次元スパースデータを有効的に処理できるsubmanifold sparse convolutional networks(SSCNs)を提案した．
従来の問題点：従来のCNNをsparse dataに用いたら計算及びメモリーの効率が良くない問題点がある．また，従来のスパースデータのためのネットワークは主に”full convolution”を行うためスパースデータをdilateしてしまう問題点がある．また，従来のCNNは層が深まることにより，active sitesが大幅に増加してしまうような“submanifold dilation problem”がある．
以上の様々な問題から，“ネットワークの異なる層で同じレベルのactive sitesのスパース性を保つ”をベースな考えとした新たなconvolution operations:SSCを提案した．こういうような性質から，SSCを用いたらより深い層構造持ったネットワークの学習を可能にした
具体的なssc：①プーリーングとstrided畳み込み操作と合併②入力のactive sitesだけに対して畳み込みし，active sitesを出力．Ground stateの入力を0と取り扱い畳み込みを廃棄のような設定がある

SSCN-3D-SemanticSegmentation

新規性・結果・なぜ通ったか？

提案のSSCがスパース性持ったデータの高効率CNNを可能にした．また，計算量とメモリー消耗の大幅削減及び深い層ネットワークの構築などに用いられる．
ShapeNetデータセットにおいて，SSCNを用いた3Dシーン及び物体パーツセマンティックセグメンテーションが従来手法(PointCNN,PointNet,Pd-Networkなど含め)より良い精度を達成した．更に，SSCNsの計算効率がより良い

コメント・リンク集

論文がとても読みやすかった．しかし想像力が貧乏なので，うまくまとめられない．発表ビデオやコードで具体的なsparse convolutional operations操作を勉強したい
ポイントクラウドのようなスパースデータに相性が良いので，SSCNsを用いて３次元処理を行う文章がこれから出てきそう
論文
コード

[#617]

2018.6.7 19:19:22

Im2Struct: Recovering 3D Shape Structure from a Single RGB Image

Chengjie Niu, Jun Li, Kai Xu

CVPR 2018

578

Yue Qiu

概要

1枚のRGB画像から3次元形状構造(直方体で物体パーツを表示し，構造をパーツ間の接続性や対称性などの関係で表す)を復元するネットワーク構造を提案した．
従来1枚のRGB画像からボリューメトリックの復元が広く研究されている．しかし従来の様々な手法より復元された物体はトポロジーや構造が崩れる問題点が多く存在する（特に入力モデルの構造欠損がある場合）．提案手法は画像から形状構造復元を行うため，従来の体積復元の更なる精度向上や3次元形状構造の編集や高レベル画像編集など様々なところに応用できる．
提案手法のネットワークは①構造マスクを推定するネットワーク②再帰的オートエンコーダーを用いた直方形階層の構造復元ネットワークで構成される．具体的①はskip連結付きなマルチスケールCNNを用いた．②は①の抽出特徴及び元画像の特徴から再帰的なデコーダーを用いた．学習データは3D CADモデルからレンダリング及び構造抽出により作成した．

Im2Struct

新規性・結果・なぜ通ったか？

提案手法が初めての1枚RGB画像から詳細3次元形状構造を復元する手法と指摘した．
提案の形状構造復元手法がパーツ間の連結や対称性など関係の復元を学習するので，復元された形状の構造の妥当性と汎用性が保証できる．
構造駆動型3次元体積補間及び構造awareなインタラクティブ画像編集の2つのアプリを開発し，提案手法により復元された形状構造の有効性および妥当性を示した．

コメント・リンク集

画像からの3次元形状構造復元がvolume復元と比べパラメータ数が圧倒的少ないので，問題自体の難しさも低い．しかし実応用を考えると，構造復元がかなり応用場面が多いと思う．問題設定がとても良いと思う
逆に今までどうしてやる人がなかったのが分からない
論文

[#618]

2018.6.7 16:59:09

3D-RCNN: Instance-level 3D Object Reconstruction via Render-and-Compare

Abhijit Kundu, Yin Li, James Rehg

CVPR 2018

436

Yue Qiu

概要

RGB画像からインスタンスレベルの物体full3次元形状及び姿勢を行う”inverse graphics”なend-to-endなネットワーク構造の提案．物体のカテゴリ検出の結果が与えられたことを仮定し，画像中の物体2次元観測から物体の3次元パラメータの推定を行う．
提案手法の主な貢献としては①3次元表示：物体の3次元形状がクラス内で共通性が高いことから，大量なCADモデルから低次元なclass-specificな形状priorsを学習する．②2D-3Dマッピングを効率的行える新たなshape,poseの表示を提案した．(例:egocentricではなくallocentric視点を用いるなど)③提案手法を2D監督信号で学習可能にする予測した3次元形状を2次元にレンダリングし2次元のgtと比較することをベースとしたRender-Compareロス関数を提案した．

3D-RCNN-3D-Object-Reconstruction

新規性・結果・なぜ通ったか？

従来のシーン理解は主にシーンに対しセマンティックセグメンテーションや物体検出などを行う．3次元空間のreasoningなどのタスクにおいては3次元のrepresentationが必要となる．また，従来の画像から3次元情報復元に関する研究は主に簡単なシーンから一つの物体に対し推定を行う．提案手法はより複雑なシーンの2次元画像から全部の物体インスタンスに対し3次元情報を推定できるため，自動運転の車・人の3次元情報推定などの様々な複雑なタスクに用いられる．
ジョイント物体検出と姿勢推定、バウンディングボクス領域内の物体三次元姿勢推定の2つのタスクにおいて，Pascal 3D+,KITTIデータセットでstate-of-the-artな精度を達成した．

コメント・リンク集

今後”analysis by synthesis”,”inverse graphics”などの概念の引用が増やしそう
かなり様々なところで工夫をしている．
論文

[#619]

2018.6.7 16:52:32

Optimizing Video Object Detection via a Scale-Time Lattice

Kai Chen et al.

CVPR 2018

Yoshihiro Fukuhara

概要

動画中の物体検出において精度とコストの柔軟な trade-off が可能となる Scale-Time Lattice を提案. Propagation and Refinement Unit を用いて時間とスケールについての upsampling を階層的に行う. ImageNet VID dataset を用いた評価実験では先行研究と同等の精度の結果を Realtime で得られた.

fukuhara-Optimizing-Video-Object-Detection-via-a-Scale-Time-Lattice.png

新規性・結果・なぜ通ったか？

Propagation and Refinement Unit は入力された 2つのフレームの中間の時間のフレームでの推定結果を Motion History Image [Bobick+ 2001] を用いて推定し, その結果をもとにより大きなスケールでの推定を行う.
Propagation と Refinement を２段階行ったあとは, 残りの全フレームに対して線形補間を行う.
1段階目の入力となる Keyframe は, まず粗く一様にサンプリングした後, Keyframe 間の Propagation　の容易さ（物体の大きさが小さく, 動きが早いほど難しい）を評価し閾値を超えたら新しい中割りの Keyframe を動的に追加する.
ImageNet VID dataset を用いた評価実験の結果は 20fps のとき 79.6mAP, 62fps のとき 79.0 fps と先行研究([Feichtenhofer+ 17]が 5fps で 79.8mAP)と同等の高い推定精度を維持したまま Realtime での動作も可能であることが確認された.

コメント・リンク集

[#620]

2018.6.3 14:41:55

Distort-and-Recover: Color Enhancement using Deep Reinforcement Learning

Jongchan Park et al.

CVPR 2018

Yoshihiro Fukuhara

概要

強化学習(DQN)を用いて automatic color enhancement を行う研究. 編集後の画像のみを利用して学習を行う方法（distort-and-recover scheme）を提案し, この学習方法の場合は従来の教師あり学習の手法よりも, 強化学習を用いる方が適していることを検証した. また, 評価実験では先行研究と同等か優位な結果を達成した.

fukuhara-Distort-and-Recover-Color-Enhancement-using-Deep-Reinforcement-Learning.png

新規性・結果・なぜ通ったか？

color enhancement の工程をマルコフ過程としてモデル化し, 強化学習(DQN)を用いて解いた.
従来手法のように編集前後の画像の組では無く, 編集後の画像のみを利用して学習を行う方法（distort-and-recover scheme）を提案.
action は様々な色調整の操作, reward は教師画像に特徴量がどれだけ近づいたかによって計算.
MIT-Adobe FiveK dataset を用いた評価実験やユーザースタディーでは先行研究と同等か優位な結果を達成した.

コメント・リンク集

[#621]

2018.5.29 16:50:55

W2F: A Weakly-Supervised to Fully-Supervised Framework for Object Detection

Yongqiang Zhang et al.

CVPR 2018

Yoshihiro Fukuhara

概要

弱教師ありの物体認識の学習を使用して, 教師あり物体認識を学習を行う研究. 弱教師ありの物体認識は物体中の最も特徴的な領域や, 複数の領域を抽出してしまう傾向があるが, それらの結果から教師データとして最もらしい Pseudo ground-truth を生成する方法を提案. PASCAL VOC 2007 と 2012 を用いた評価実験では先行研究よりも優位な結果となった.

fukuhara-W2F-A-Weakly-Supervised-to-Fully-Supervised-Framework-for-Object-Detection.png

新規性・結果・なぜ通ったか？

WSDNN [Bilen+ 16] の結果を OICR [Tang+ 17] を用いて改善したものを弱教師ありの物体認識の結果として使用.
上の結果に対して Pseudo ground-truth excavation (PGE) というアルゴリズムを適用することで, 物体全体を囲う Bounding Box を生成する.
更に, region proposal network [Ren+ 15] を用いて上の結果を改善したものを　Pseudo ground-truth とする.
Pseudo ground-truth を用いて, Fast RCNN [Girshick 15] や faster RCNN [Ren+ 15] などの教師あり物体認識の手法の学習を行う.
PASCAL VOC 2007, 2012 を用いて行った評価実験では先行研究 [Tang+ 17] [Krishna+ 16] と比較して mAP に置いて 5% 程度優位な結果となった.

コメント・リンク集

[論文] W2F: A Weakly-Supervised to Fully-Supervised Framework for Object Detection

[#622]

2018.6.1 23:39:55

Learning Descriptor Networks for 3D Shape Synthesis and Analysis

Jianwen Xie, Zilong Zheng

CVPR 2018

1093

Yue Qiu

概要

3次元ボリュームデータの形状特徴をモデリングできる深層畳み込みエネルギーベースなdescriptorネットワークを提案した．
提案の3D DescriptorNetがvoxelized形状の3D形状特徴を抽出できる．具体的には，voxelized形状のprobability density functionを定義した．また，3次元形状を特徴にマッピングできるボトムアップなボリューメトリックConvNetで特徴の統計またはエネルギー関数を定義した．
提案手法の貢献としては①ボリュームベースな3次元形状特徴をモデリングできる3D DescriptorNetを提案．②提案手法の学習プロセスをモードseeking,shiftingと解釈した．③形状検索に用いられるconditional 3D DescriptorNetを提案した．④3D形状生成モデルの新たな評価メトリクスを提案した．⑤3D GANを代替できる3D cooperative training schemeを提案した．

Learning-descriptor-for-3D-volumetric

新規性・結果・なぜ通ったか？

従来あまり提案されていないエネルギーベースな3次元形状descriptorを提案した．
提案の3D DescriptorNetを3次元形状生成，3次元形状検索，3次元形状スーパー解像度，3次元物体認識などタスクにおいて実験を行った．それぞれstate-of-the-artな性能を得られた．

コメント・リンク集

コードで実際のネットワーク構造を確認したい．
論文

[#623]

2018.6.7 13:16:29

PointGrid: A Deep Network for 3D Shape Understanding

Truc Le, Ye Duan

CVPR 2018

1246

Yue Qiu

概要

3D CNNに用いられる新たな3次元データの表示方法(volumetric grid及びpoints表示をコンバインした表示方法)及び3DCNNネットワークPointGridを提案した．提案の3次元データ表示方法は畳み込みができるregular構造でありながら，ポイントクラウドのローカル幾何情報を抽出できる．
提案PointGridの処理ポロセスは：①ポイントクラウドを-1,1の区間のユニットボクスに正規化する②cellでユニットボックスを分割し，cellごとのポイント数をKまたは0にダウンサンプリング（増強の場合もある），cell内のKポイントのx,y,zを3チャンネルの特徴として取り扱う．③前述した処理後の表示を3D encoderまたは3D U-Netにより物体識別、パーツセマンティックセグメンテーションに適用する．

PointGrid

新規性・結果・なぜ通ったか？

従来の3次元表示方法の①occupacy gridやdistance fieldなどはレギュラー構造であるが，3次元形状の近似方法の特徴により低レベルの3次元局所情報しか表示できない，高レベルの特徴を表示するには高解像度が必要だが，CNNに用いたら処理・メモリ―コストが極めて高くなる．②PointNetがポイントクラウドを直接CNN処理を行えるが，max poolingだけでグローバル特徴の抽出を行っているので，局所的な情報抽出が弱い．以上の問題点から， CNN処理を行えるグリッドとポイント表示をコンバインした構造を提案し，occupacy gridより低解像度で豊かな情報を表示でき， PointNetより局所的情報の抽出が強いPointGridを提案した．
低解像度で有効的に3次元情報を表示できる．例：16，16，16解像度で良い性能を得られる（従来は64，64，64のボリューメトリックグリッド）
Modelnet-40, shape-netで物体識別及びパーツセグメンテーションの2つのタスクで従来の手法と相当レベルの精度を得られた（ボリューメトリックグリッド方法で最もメモリー消耗が少ない）．

コメント・リンク集

PointNetの考え方を従来のボリューメトリック方法の解像度削減に利用し，16，16，16解像度でも良い性能を得られるのが魅力的
提案のPointGridが構造的簡潔でほかのネットワークにも前処理の一部として用いられそう
論文

[#624]

2018.6.7 13:10:24

Hybrid Camera Pose Estimation

Federico Camposeco, Andrea Cohen, Marc Pollefeys, Torsten Sattler

CVPR 2018

概要

キャリブレーション済みのピンホールカメラにおいてカメラ姿勢推定問題を解く。例としてStructure-from-Motion (SfM)の2D-3Dマッチングを2D-2Dマッチングのように行う問題である。従来は構造ありの2D-3Dマッチングを解く絶対的なカメラ姿勢推定（absolute pose approaches）か、構造なしのテスクチャベースで2D-2Dマッチング（relative pose approaches）を行なっていたが、両者のいいとこ取りをする。本稿では新規にRANSACベースの手法を提案することで繰り返し最適化を行い、同問題の解決に取り組んだ。提案手法は、2D-3D/2D-2Dマッチングを同時にRANSACの要領で繰り返し最適化することができる（図を参照）。

180607HybridCameraPoseEstimation

新規性・結果・なぜ通ったか？

Structure-based/Structure-lessなマッチング（それぞれ2D-3D/2D-2Dに対応）を同時に解決する手法であるHybrid-RANSACを提案して、SfMの問題に対して適用した。両者のマッチングを単一の枠組みで実装しただけでなく、両者のいいとこ取りができる手法として完成させた。CVPRオーラルとして採択された。

コメント・リンク集

SfMのことはそこまで詳しくないのだが文章から「凄さ」が伝わってくる論文だった。

論文

[#625]

2018.6.7 09:00:34

MegDet: A Large Mini-Batch Object Detector

Chao Peng, et al.

1711.07240

Munetaka Minoguchi

概要

16~256のような大きなバッチサイズでも学習することができる、物体検出手法MegDetの提案。ミニバッチ数を上げられることから、GPUを効率的に使用することができ、学習速度を向上。複数のGPUからうまくバッチ正規化を行う、Cross-GPU Batch Normalizationを提案。これにより、33時間の学習を4時間に短縮、かつ高精度にうまいこと学習できる。

新規性

2018年現在の著名な物体検出アルゴリズム(Faster R-CNNやMask R-CNNなど)は、全体のフレームワークやロスの設計に力を入れている。本研究では、手薄と思われるバッチサイズに着目し，新しいアプローチで精度向上を図っている。

リンク集

GPUの性能(メモリ数)の向上に伴って、この研究は生きてくる可能性がある。学習速度を上げながらCOCO2017一位はすごい。

論文

[#626]

Rotation Averaging and Strong Duality

Anders Eriksson, Carl Olsson, Fredrik Kahl, Tat-Jun Chin

CVPR 2018

概要

本稿では非凸問題の一種であるRotation Averagingに対してLagrangian Dualityを用いる。3次元再構成問題において、その画像群が「どこで、どのカメラ角度で、いつ撮影されたか？」に依存して再構成されるモデルが局所最適解に陥るという問題がRotation Averagingである（Rotation averaging）。図のようにカメラの移動軌跡やそのカメラアングルが変化した状態だと3次元再構成の局所解は大きく異なる（3次元再構成が表面のみ捉えていることに依存する）。

180607RotationAveraging 180607RotationAveraging2

新規性・結果・なぜ通ったか？

Structure-from-Motion (SfM)の重要タスクであるRotation Averagingの問題解決についてLagrangian Dualityを用いた全体最適化（局所最適解をできる限りの場面で脱することができた）を行ったことがもっとも大きな新規性である。シンプル/スケーラブルなアルゴリズムであり、大規模空間に対するSfMにも応用可能である。結果は下の図の通りであり、局所最適解を脱してより詳細な形状復元を行うことに成功した。

コメント・リンク集

ディープラーニングを使っていない側の問題！SfMの未解決問題？であるRotation Averagingを高いレベルで改善している。

[#627]

2018.6.7 08:11:11

An Unsupervised Learning Model for Deformable Medical Image Registration

Guha Balakrishnan, Amy Zhao, Mert R. Sabuncu, John Guttag, Adrian V. Dalca

CVPR 2018 Poster

Kazuki Inoue

概要

脳の平均3D形状である脳アトラスの各ボクセルが患者の脳3次元データのどの位置に対応するか、という画像位置合わせ(image registration)をUnetを用いて正解データ無しの教師無し学習で行う手法を提案。既存手法は最適化ベースだったが、学習ベースの画像位置合わせを初めて提案。トレーニング、検証で使用されているのは脳のMRIデータだが、他のデータに対する画像位置合わせにも適用することが可能。

新規性・結果・なぜ通ったか？

U-netを用いた学習ベースの3次元画像における画像位置合わせ手法を提案。
比較は最適化ベースの手法であるSyNと行った。 SyNと同等の精度を達成し、一方で実行時間はCPU上では約160倍、GPU上では更にその156倍の速度で実行可能。
教師無し学習のため出力された脳アトラスの全体的な形状は異なっているが、各器官の位置はかなり高い精度で推定できていることが驚き。

コメント・リンク集

選択分野の勝利？手法に新規性は無く、検証で比較した手法も2008年のものとかなり古いが、それでも同等の精度で実行時間が速くなれば、それはCV分野としてはOKと判断されたのか？
論文
GitHub

[#628]

Recurrent Scene Parsing with Perspective Understanding in the Loop

Shu Kong, Charless Fowlkes

CVPR2018

Hiroaki Aizawa

概要

固定解像度で処理する画像認識システムでは、遠近感を持つシーンの画像において物体が任意のスケールを持つことが問題となる。(距離によって物体のスケールが変わる。カメラから遠いほど物体は小さく、近いほど大きい。)これ解決するために、物体のスケール(Depthに反比例)によってPoolingサイズを可変にするdepth-aware pooling moduleを提案。遠くの物体の細部は保持され、近くの物体は大きな受容野を持つことができる。 Depth画像は与えられるか直接RGB画像から推定され、Depth情報と意味的予測を利用するRecurrent Refinement Moduleにより、Semantic Segmentationを反復的に精錬する。

Recurrent_Scene_Parsing_with_Perspective_Understanding_in_the_Loop.PNG

新規性・結果・なぜ通ったか？

受容野のサイズを変化させるためにDepth情報を利用しこれを自然にCNNに組み込んだこと(geometricな情報を利用する先行研究はあり)。またこのDepth予測をSemantic Segmentationと互いに補い合う用にRecurrent Refinement Moduleを組み込んだこと。NYU-depth-v2の単眼深度推定においてstate-of-the-artな性能とSemantic Segmentationの性能改善を確認。

コメント・リンク集

Recurrent refinement moduleのLoopにより物体の事前情報を捉えることができるが、Loopによる精度変化が小さい。Curriculum Learningと組み合わせるとおもしろそう。ResNetから得られる特徴はすでにスケールを考慮した特徴が抽出できているようにも思え、depth-aware pooling moduleが活かされているかというと疑問。

[#629]

2018.6.6 19:36:41

Mobile Video Object Detection with Temporally-Aware Feature Maps

Mason Liu and Menglong Zhu

CVPR2018

698

概要

モバイルや組み込み機器上で低消費電力かつリアルタイムに動作する物体検出のオンラインモデル．Single-Shotベースの物体検出モデルとLSTMを組み合わせたモデルである．また，通常のLSTMよりも計算コストを大幅に削減できるBottleneck-LSTMを提案する．Bottleneck-LSTMは，NチャンネルのBottleneck特徴マップ（Bt）を計算してすべてのゲートの入力をBtに置き換える．これによるゲート内の計算が減る．LSTM自体をDeepな構成にしても標準LSTMより効率的な計算が可能である．

新規性・結果・なぜ通ったか？

従来のVideo object detectionはフレームごとの検出に依存しているため，時間的情報を利用することができなかったが，本研究では検出器の速度を犠牲にせず時間的な情報を組み込んだ．ImageNet VID データセットでmobilenet-SSDよりも高精度（54.4mAP）に検出可能でありながら，モバイルCPU（Qualcomm Snapdragon 835, Xperia XZ Premiumなどに搭載）で15FPSの速さで検出できる．

コメント・リンク集

Googleでのインターン成果とのこと．リアルタイム検出は時系列情報があれば精度がよくなるが，それを入れることで速度の低下が起きてしまうのでこの2点のトレードオフになっている？

arXiv

[#630]

2018.6.6 12:06:05

Dense Decoder Shortcut Connections for Single-Pass Semantic Segmentation

Piotr Bilinski, Victor Prisacariu

CVPR 2018

概要

ResNeXtを用いたEncoder-Decoder（エンコーダ-デコーダ）構造、かつシングルパスのセマンティックセグメンテーション手法を提案する。エンコーダとデコーダは折り返したような構造になっており、エンコーダの特徴は図のように対称となる/同じサイズのデコーダ位置に統合される（enc1-dec1が対応）。今回は特にデコーダ側に改善があり、(1)コンテキスト情報を抽出、(2)セマンティック情報を生成、(3)異なる解像度の出力を適宜統合という新規性がある。これを実現するため、DenseNetを参考にしたDense Decoder Shortcut Connectionsを提案し、デコーダにおいてコンテキスト特徴を全て後段に渡すようにした。

180606DenseDecoderShortcut

新規性・結果・なぜ通ったか？

デコーダにおいてDenseNetを参考にしたDense Decoder Shortcut Connectionsを提案、コンテキスト情報を後段に渡して精度を向上させた。ResNeXtの構造適用と合わせて各データセットにてState-of-the-artな精度を達成。NYUD datasetにて48.1（mean IoU）、CamVid datasetにて70.9（mean IoU）となった。PascalVOC2012においても81.2であった（SoTAはPSPNetの82.6）。

コメント・リンク集

セマンティックセグメンテーションの覇権争いが激化。ここら辺まで精度が向上すると確率的にSoTAになったりならなかったりする（回す回数が多いと一回くらい精度が高いモデルが学習される）？逆に、学習しやすい（誰が、どんなパラメータで回しても同じくらいの精度が出る）アーキテクチャというのが提案されてもよいかも。

[#631]

2018.6.6 09:38:43

Recognize Actions by Disentangling Components of Dynamics

Yue Zhao, Yuanjun Xiong, Dahua Lin

CVPR 2018

概要

人物行動認識のための表現に対して、モーションとアピアランスの共起表現（Disentangling Components of Dynamics）を提案する。従来の人物行動認識に限らず動画認識ではRGBを入力とするアピアランス、オプティカルフローを画像に投影したフロー画像が用いられていたが、本論文ではそれらの共起表現を新たに提案した。フロー画像とは異なり、特に「アピアランスの変化」をカラー付きで表現できる。さらに、3Dプーリングを提案し、上記３つのチャンネルからの特徴を蓄積する手法についても考案した。

180606DisentanglingAction

新規性・結果・なぜ通ったか？

人物行動認識の文脈において、新規の特徴表現方法であるDisentangling Components of Dynamicsを提案した。同手法はフローとは異なり、RGB値の変化を効果的に捉える方法である。さらに、3Dプーリングも提案し、RGB/Flowも合わせた3チャンネルの特徴を適切にプーリングすることができる。フルモデルを用い、さらにKineticsにて事前学習を行った実験では、95.9%@UCF101を達成、従来の行動認識の大部分よりも高い精度を実現。

コメント・リンク集

Kinetics Datasetの事前学習特徴が（やはり）強い。ImageNetでは91.8%だったものがImageNet+Kineticsで95.9%。転じて、やはりアルゴリズムなどよりもデータを用意するのがもっとも効果的。

[#632]

2018.6.6 09:16:56

Single-Shot Refinement Neural Network for Object Detection

Shifeng Zhang, Longyin Wen, Xiao Bian, Zhen Lei, and Stan Z. Li

CVPR2018

545

概要

SSDをベースにした2つのモジュールから構成されるSingle-shotベースの物体検出アルゴリズム「RefineDet」を提案．Anchor Refine Module (ARM) とObject Detection Module (ODM) と呼ばれるモジュールと，2つを繋いで特徴マップを転送するTransfer Connection Block (TCB) からなる．ARMは物体が存在しない領域を示すNegative Anchor(※)の削減や，Anchorの粗い調整を行う．ODMはTCBを通じて特徴マップを受け取って座標の回帰およびクラス推定を行う．

※物体候補領域を示すBounding-boxをAnchorと呼ぶ．SSDでDefault boxと呼ばれているものと同じ．

新規性・結果・なぜ通ったか？

SSDで細かい物体をより精度よく検出するために，一度畳み込んだ特徴マップをDeconvしたりUp samplignしたりする手法がいくつかあるが，この手法はTCBで特徴マップを転送するときに1つ前 (=出力側) の特徴マップをDeconvして足している．Single-shotでありながら2つの役割分割されたモジュールがうまく連携している．推論速度は入力320x320で24.8ms (40.3FPS)，512x512で41.5ms (24.1FPS) @TITAN Xと非常に高速である．精度もDSSDより高性能 (VOC2007: 83.8mAP, MSCOCO: 41.8AP)である．

コメント・リンク集

Single-Shotベースの物体検出は前層の特徴マップを持ってくる系が流行り？精度も良い．

[#633]

2018.6.6 01:36:45

Neural Kinematic Networks for Unsupervised Motion Retargetting

Ruben Villegas, Jimei Yang, Duygu Ceylan, Honglak Lee

CVPR 2018 Oral

Kazuki Inoue

概要

異なるキャラクタに対するモーションのリターゲティングをRNN、Cycle consisteny lossを用いることで教師なしで学習する手法を提案。RNNのencoder-decoderを用いて入力された関節位置、局所座標の原点の4次元モーションから、各関節のクォータニオンと局所座標の4次元モーションを出力しそれをForwad Kinematicsによってターゲットキャラクターに転写する。これを教師なしで行うためにCycle consistency loss、GAN lossを導入する。これによって同じモーションを持った異なるキャラクタのデータが無い場合にも、モーションのリターゲティングを行うことが可能となる。

新規性・結果・なぜ通ったか？

RNNのencoder-decoder、Cycle consistency lossを用いることで同じモーションを持った異なるキャラクタのデータが無い場合にも、モーションのリターゲティングが可能な手法を提案。
モーションのリターゲティングはオンラインで実行可能。
Mixamo animation dataを用いて、トレーニングは同じモーションを持たない７体のキャラクタの計1646のモーションを使用し、テストには６体のキャラクタを使用した。
RNN、RNNからrecurrent connectionを削除したMLP、入力モーションを単純にコピーした結果、ablation testを行い推定された関節位置のMSEを比較した結果、提案手法が最も高い精度を達成した。
特に入力モーションを単純にコピーした場合にはターゲットキャラクタの足が空中に浮いてしまったが、提案手法ではこれを防ぐことに成功している。

コメント・リンク集

クォータニオンの出力で止めているのは、クォータニオンがスケルトンに不変であることと、ボーンの回転角を制限するロス関数twist lossを取るためだと考えられる。
異なるキャラクタで同じモーションのGTがあるようなので、教師あり学習との比較を見てみたかった。一方でことモーションに関しては数値的には悪くても見た目では良し悪しがつかないということもあるので、これを考慮したのかもしれない。
Most of this work was done during Ruben’ internship at Adobe.
論文

[#634]

Cross-Domain Weakly-Supervised Object Detection through Progressive Domain Adaptation

Naoto Inoue, Ryosuke Furuta, Toshihiko Yamasaki, Kiyoharu Aizawa

CVPR 2018 Poster

Kazuki Inoue

概要

インスタンスレベルのアノテーションを持つソースドメイン(S)とイメージレベルのアノテーションを持つターゲットドメイン(T)を用いてdomain adaptationを行い、Tに対する物体検出を行う手法を提案。Sを用いて物体検出器のプリトレーニングを行い、 Cycle GANによってSをTに変換した画像を用いて物体検出器のfine-tuningを行う。続いてSとそのイメージレベルのアノテーションを用いて半教師学習を行いSに対する物体検出を行う。半教師学習を行う際にインスタンスレベルのアノテーションが施されたデータセットが必要なため、クリップアート、水彩画、漫画のデータセットの構築も行っている。

新規性・結果・なぜ通ったか？

Cycle GANによる検出器のfine-tuning、半教師学習による物体検出というステップをへてイメージレベルのアノテーションを持つ実画像ではないドメイン(クリップアートなど)に対する物体検出手法を提案。
Clipart1k, Watercolor2k, Comic2kという、それぞれクリップアート1000枚、水彩画2000枚、漫画2000枚の画像に対してインスタンスレベルのアノテーションを施したデータセットを構築。
自ら構築した三種のデータセットにおいて教師なし学習、半教師学習、SSD300、YOLOv2と比較した結果、最も高い精度を達成。

コメント・リンク集

検証しているラベル数が最大でも20と少ないことが気になった。これはターゲットドメインの構築が難しかったからであり、データさえあればラベルを増やすことができるのだろうか？
論文
Project page
GitHub

[#635]

Real-Time Monocular Depth Estimation Using Synthetic Data With Domain Adaptation via Image Style Transfer

Amir Atapour-Abarghouei, Toby P. Breckon

CVPR 2018 Poster

Kazuki Inoue

概要

合成画像とそのデプス画像、そして実世界画像を用いてunsupervised domain adaptationを行うことで、実世界画像に対するデプス画像を生成する手法を提案。実世界画像に対するデプスのアノテーションは困難であり、かつ枚数も多くない。一方合成画像に対するデプスのアノテーションは完璧だが、実世界画像に対する推定を行うときにドメインシフトが起きてしまう。提案手法ではUnetによって合成画像からデプスを推定し、Cycle GANによって実世界画像を合成画像に変換することでデプスを推定する手法を提案。 GPUを用いることで44FPSで実行することが可能。

新規性・結果・なぜ通ったか？

ラベルなし実世界画像とラベルあり合成画像に対してCycle GANによるスタイルトランスファーによりdomain adaptaionを行うことで、実世界画像のデプスを推定する手法を提案。
合成画像、KITTIデータセットでトレーニングを行い、KITTIデータセットの推定精度をstate-of-the-artと比較した結果、最も高い精度を達成。
Cycle GANによるスタイルトランスファーでは急激な照明変化や影を物体として認識してしまうといったリミテーションが存在する。

コメント・リンク集

Cycle GANによってdomain adaptationを行う割合ベーシックな手法だが、その推定精度がstate-of-the-artに優っている。
論文
Project page
Vimeo

[#636]

Unsupervised Domain Adaptation with Similarity Learning

Pedro Pinheiro

CVPR 2018 Poster

Kazuki Inoue

概要

ソースドメイン(S)の各カテゴリの重心ベクトルと、S・ターゲットドメイン(T)から得られたadversarial featuresの行列積を用いることでdomain adaptation(DA)を行う手法を提案。従来のDAではSとTのそれぞれから得られる特徴量をGANによってdomai-confusionを行い、 Sで学習したラベル識別器をTに適用するという手法だった。提案手法ではadversarial-confusionに加えて、 Sの各カテゴリにおける重心ベクトルとgeneratorから得られる特徴量の類似度を高くするように学習しDAを行う手法を提案。

新規性・結果・なぜ通ったか？

domain-confusionに加えてラベルごとの重心ベクトルとgeneratorから得られる特徴量の類似度を高くするように学習しDAを行う手法を提案。
MNIST・USPS・MISNT-M、Officde-31, VisDAデータセットで検証。11のdomain adaptationにおいて、9つの設定においてstate-of-the-artよりも高い精度を達成。

コメント・リンク集

この論文に限らずDAを提案する論文ではdomain-confusionを可視化しており、数値評価だけではなく、ドメインの分布の可視化画像を載せることも重要だと思われる。
論文

[#637]

Image-Image Domain Adaptation with Preserved Self-Similarity and Domain-Dissimilarity for Person Re-identification

Weijian Deng, Univ. of Chinese Academy; Liang Zheng, Qixiang Ye, Guoliang Kang, Yi Yang, Jianbin Jiao

CVPR 2018 Poster

Kazuki Inoue

概要

人物認証(person re-ID)の精度が落ちないようにソースドメインの人物画像をターゲットドメインの画像に変換するSimilarity Preserving GAN(SPGAN)を提案。ドメイン間の変換をCycleGANで行う。またそれぞれのperson re-IDのデータセットには基本的に同じ人物は写っていないということを利用して、ソースドメインとターゲットドメインで異なるデータセットを使用し、ターゲットドメインへと変換された画像はIDが保たれ、かつターゲットドメインのどの人物のIDとも一致しないように学習を行った。

新規性・結果・なぜ通ったか？

person re-IDデータセットの特徴を生かしドメイン変換された画像はターゲットドメインの人物画像とは一致せず、かつ元々のIDを生かすように学習を行い、ドメイン間で人物画像の変換を行うSPGANを提案。
Market-1501、Duke-MTMC-reIDデータセットで検証を行い、一方のデータセットの人物画像をもう一方のドメイン画像に変換した際に正しくre-IDができるのかを検証した。
ベースラインであるCycleGANや教師なし学習のstate-of-the-artと比較して最も高い精度を達成。

コメント・リンク集

person re-IDのタスクの中でもソースドメインの人物がターゲットドメインに存在する場合にも発見する、というタスクを解いている。
ソースドメインとターゲットドメインに含まれるIDが全く違う、ということを逆手にとった手法。
論文

[#638]

Boosting Domain Adaptation by Discovering Latent Domains

Massimiliano Mancini , Lorenzo Porzi, Samuel Rota Bulò, Barbara Caputo, Elisa Ricci

CVPR 2018 Spotlight

Kazuki Inoue

概要

domain adaptaion(DA)に対して、ソースデータは潜在的に複数のドメインで構成されていると仮定し、ソースサンプルがどのドメインに所属しているかを精度よく識別するためにMulti-domain DA layer(mDA-layer)を導入することで、ターゲットのラベルの識別精度を向上させる手法を提案。実験ではmulti-soure domain adaptationを行うことでその有効性を検証している。ソースデータないのドメインを識別するCNNの特徴量を用いることで、ターゲットドメインのラベル識別の精度が向上している。

新規性・結果・なぜ通ったか？

mDA layerによってマルチソースドメイン内のドメインを識別する学習を行うことで、ターゲットドメインのラベル識別に有効な特徴量を獲得。
MNIST・MISNT-m・USPS、Office-31、Office-Caltech、PACSデータセットで提案手法の有効性を検証。state-of-the-artのmulti-source domain adaptation(DA)よりも高い精度を達成。
ソースサンプルにドメインのラベルが全くない場合とラベルがない場合でも、精度は1%ほどしか変わらない。

コメント・リンク集

論文

[#639]

Large Scale Fine-Grained Categorization and Domain-Specific Transfer Learning

Yin Cui Yang Song, Chen Sun, Andrew Howard, Serge Belongie

CVPR 2018 Poster

Kazuki Inoue

概要

鳥の種族などより細かいラベルを推定するdomain-specific fine-grained visual categorization(FGVC) taskにおいて、効果的なトレーニングデータセットの構築方法を提案。事前実験からターゲットドメインの画像の見た目に近い画像を含むソースドメインでトレーニングするほど、識別精度が高くなるということを発見している。ターゲットドメインに含まれる画像の見た目に近い画像を多く持つソースドメインのクラスをいくつか選択することでトレーニングデータセットを構築する。画像の見た目はEarth Mover’s Distanceで測定され、 7つのfine-grainedデータセットにおいて提案手法が効果的であることを示した。

新規性・結果・なぜ通ったか？

FGVCを行う際のトレーニングスキームとして、ImageNetのような大規模データセットやクラスごとのデータ数が偏っているiNatを学習するのではなく、より効果的なトレーニングデータセットを構築する手法を提案。
fine-grainedデータセットCUB200、Stanford Dogs、Flower-102、Stanford Cars、Aircraft、Food101、NABirdsで検証した結果、5つのデータセットにおいて提案手法によって構築されたトレーニングデータセットで学習した場合に最も高い精度を達成。
classificationで使用したネットワークはResNet、Inception、Squeeze-and-Excitationであり識別ネットワーク自体には依存しないことも検証している。

コメント・リンク集

手法自体は単純ながら、事前実験に基づく論文展開や既存手法に対して投げかけた疑問を回収できたところが評価されたと思われる。
論文

[#640]

Residual Parameter Transfer for Deep Domain Adaptation

Artem Rozantsev, Mathieu Salzmann, Pascal Fua

CVPR 2018 Poster

Kazuki Inoue

概要

ソースドメインを学習したネットワークのパラメタを残差ブロックで変換することでターゲットドメインへdomain adaptaionを行う手法を提案。既存手法ではドメインに普遍な特徴量を学習していたためにネットワークのパラメタが多すぎてしまう。提案手法は学習時には残差ブロックとソースドメインを学習するネットワークのファインチューニングを行い、ソースドメインに対するラベルの識別と2つのドメインに対してadversarial domain adaptationを行う。

新規性・結果・なぜ通ったか？

ドメインに普遍な特徴量を学習するのではなく、ソースドメインを学習したネットワークの重みをソースドメイン用に変換することでパラメタ数を抑えかつ精度の高い domain adaptationを実現。
state-of-the-artと比べて、SVHN・MNIST、UAV-200データセット、Officeデータセットにおいてもっとも高い精度を達成。
ソースドメインを学習するネットワークがResNetのような深いネットワークの場合にも有効であることを主張。

コメント・リンク集

論文

[#641]

Importance Weighted Adversarial Nets for Partial Domain Adaptation

Jing Zhang, Zewei Ding, Wang Ding, Wanqing Li, Philip Ogunbona

CVPR 2018 Poster

Kazuki Inoue

概要

ターゲットドメインがソースドメインが所持するクラスの一部しか持たずかつラベルがない場合であるpartial domain adaptationをadversarial netベースで行う手法を提案。 adversarila netの手前いにドメインを識別するclassifierを用意し、このclassifierが精度良く判別可能なソースサンプルはターゲットドメインには含まれていないクラスに所属している可能性が高いので重みを小さくし、逆にconfidenceが低いソースサンプルはターゲットにも存在するクラスに所属している可能性が高いので重みを大きくする。この重みとソースサンプルを掛け合わせたものとターゲットサンプルをadversarial netで学習させる。

新規性・結果・なぜ通ったか？

4つのドメインを持つOffice+Caltech-10において、ソースは各ドメインで10のラベル、ターゲットは各ドメインで5つのラベルを使用。同様の設定でOffice-31データセット、Caltech256→Office10データセットで実験を行った。
partial domain adaptationのstate-of-the-artであるSANと比較して8つの実験のうち4つの設定でより高い精度を達成。
SANではソースのクラスの数だけclassifierを必要とするが、提案手法で必要なclassifierは2つのみ。

コメント・リンク集

論文

[#642]

Domain Generalization with Adversarial Feature Learning

Haoliang Li, Sinno Jilain Pan, Shiqi Wang, Alex Kot

CVPR 2018 Poster

Kazuki Inoue

概要

Adversarial Autoencoder(AAE)に対してMaximum Mean Discrepancy(MMD)を導入することでトレーニングデータを過学習することなくdomain generalizationを行う手法を提案。 domain generalizationとは、複数ドメインのラベル付きデータセットを学習し、テスト時にはデータセットに含まれていないドメインのデータセットにおける識別や生成タスクを行うことを指す。複数のソースドメインで不変な特徴量を取得するmulti-task learningに対して、提案手法ではMMDベースでドメイン間の差分をとることと、 AAEによって特徴量空間に対して事前分布が押し込むことでソースドメインに対する過学習が防ぐ。

新規性・結果・なぜ通ったか？

AAEに対してMMDを組み込むことで、ソースドメインを過学習することなくdomain generalizationを行う。
domain generalizationのstate-of-the-artと識別タスクにおいて比較。
MNISTを15度刻みで回転させた場合の認識精度、VLCSデータセットにおける物体認識、IXMASにおける行動認識においてstate-of-the-artよりも高い精度を達成。
AAEにおける事前分布の違いによる精度も議論しており、ラプラシアン分布が最も精度が良かったと主張。

コメント・リンク集

論文

[#643]

Adversarial Feature Augmentation for Unsupervised Domain Adaptation

Riccardo Volpi, Pietro Morerio, Silvio Savarese, Vittorio Murino

CVPR 2018 Poster

Kazuki Inoue

概要

特徴量空間におけるデータオーギュメンテーションとソースドメインとターゲットドメインに不変な特徴量を取得することでunsupervised data adaptationを行う手法を提案。右図にあるようにstep1で、ソースドメインとノイズをデコードして生成されたベクトルをGANにかけ、特徴量空間においてソースドメインに対するオーギュメンテーションを行う。続いてstep2において、ソースドメインとターゲットドメインを同一のエンコーダーに入力することでドメインに不変な特徴量を取得する。ベースラインであるAdversarial discriminative domain adaptationではドメインごとにエンコーダーを使用していたが、提案手法ではエンコーダーは一つ。

新規性・結果・なぜ通ったか？

GANを用いてソースドメインの特徴量空間でデータオーギュメンテーションを行い、かつソースドメインとターゲットドメインに不変な特徴量を推定することで、unsupervised data adaptationを行った。
ベースラインであるAdversarial discriminative domain adaptationに対して上記の2つの拡張の有効性を議論している。
state-of-the-artと比較して、数字の識別、物体の識別において既存手法と同等かそれ以上の精度を達成。

コメント・リンク集

Limitationにも書かれているようにsourceとtargetのラベが同じになる保証はなく、最終的な精度はsourceのエンコーダーがどれほどうまく学習できているかに強く依存する。
論文
GitHub

[#644]

Dynamic Video Segmentation Network

Yu-Syuan Xu, Tsu-Jui Fu, Hsuan-Kung Yang, Chun-Yi Lee

CVPR 2018

概要

動画像セグメンテーションの問題に対してネットワーク選択（Decision Network）を行い適応的にCNNモデルを処理するDynamic Video Segmentation Network (DVSNet)を提案する。同手法では性質の異なるふたつのネットワーク（深くて精度が高いが低速/浅くて精度は低いが高速）を組み合わせて交通シーンにおけるシーン解析にて高速な処理を実現する。

180605DynamicVideoSegmentationNetwork

新規性・結果・なぜ通ったか？

DVSNetは低速なもので70.1%/20fps、高速なものだと65.2%/34.4fps（いずれもCityScapes datasetにて処理した結果）を達成する。両者を、トレードオフを考慮してあらゆる場面に適応することができるという意味で新規性がある。

コメント・リンク集

こういう通し方があったのか、と勉強になる。実利用を想定し、トレードオフを考慮、それを解決することも重要な問題である。

[#645]

2018.6.5 21:14:03

Deep Cross-media Knowledge Transfer

Xin Huang, et al.

1803.03777

Munetaka Minoguchi

概要

画像とテキストなどの異なるメディアタイプ間で検索する、クロスメディア検索手法のcross-media knowledge transfer(DCKT)の提案。大規模なクロスメディアデータセットの知識を、小規模なデータセットのモデルに転移学習する。メディアレベルと相関性レベルでのドメインの違いを最小化するために、2レベルでドメイン変換することで精度向上。また、ドメインの違いを徐々に減らすようにトレーニングサンプルを選択することで、モデルがより頑健になる。

新規性

マルチメディア分野における検索。既存の手法では、ラベル付きデータを学習する方法が多いが、大規模なデータの収集とラベル付けは手間取るため問題とされる。そこで、既存のデータを転移して解決する。

リンク集

論文

[#646]

Dynamic Graph Generation Network: Generating Relational Knowledge from Diagrams

Daesik Kim, et al.

1711.09528

Munetaka Minoguchi

概要

視覚情報とテキストの情報が抽象的に統合された図であるダイアグラムを解析するためのunified diagram parsing network(UDPnet)の提案。入力は様々なイラストやテキスト、レイアウトを持つ図のみ。物体検出器によって、図内のグラフ構造を推論し、新手法であるdynamic graph generation network(DGGN)によってグラフを生成。生成されたグラフからテキストで関係性を出力する。

新規性

ダイアグラムのような図には、豊富な知識が含まれているが、固有の特性やレイアウトの問題から、コンピュータに自動的に理解させる方法はあまり提案されていない。本手法では、物体検出器やRNNを統合し、ダイアグラムから知識をテキストとして生成する。

結果・リンク集

自然画像でなく，人間による作為的なグラフ理解において優れている。人間の意図や、人間にとって自然な解釈を学習できているのではないか。

論文

[#647]

Instance Embedding Transfer to Unsupervised Video Object Segmentation

Siyang Li, Bryan Seybold, Alexey Vorobyov, Alireza Fathi, Qin Huang, C.-C. Jay Kuo

CVPR 2018

概要

物体インスタンス特有の特徴（同じ物体領域に属しているか？）を捉えることでビデオに対する教師なしの物体セグメンテーションを実施する。ここでは静止画で捉えた特徴を、ビデオに表れる物体候補/オプティカルフローと組み合わせて物体のインスタンスセグメンテーションを実施。本論文ではさらに、ビデオに対するfine-tuningなしに高精度なセグメンテーション手法を構築したと主張している。

180605InstanceEmbeddingTransfer

新規性・結果・なぜ通ったか？

静止画の学習パラメータを動画に適用していく、その際に物体候補/オプティカルフローと統合していくことで動画的な表現を教師なしで獲得していく。DAVIS datasetを用いた評価で78.5%、FBMS datasetにて71.9%（いずれもmean Intersection-over-Union (mIoU)の評価にて）を達成し、それぞれのデータセットでState-of-the-art。

コメント・リンク集

"Without finetuning"というのもアピールになるということを勉強した（ただしそれでstate-of-the-artである必要がある？）。

[#648]

2018.6.5 08:58:32

Depth-Aware Stereo Video Retargeting

Bing Li, Chia-Wen Lin, Boxin Shi, Tiejun Huang, Wen Gao, C.-C. Jay Kuo

CVPR 2018

概要

ステレオビデオ（Stereo Video）に対するリターゲティング（Retargeting）を扱う。ステレオ（かつビデオ）に対するリターゲティングは従来のリターゲティングと比較すると、動画中の顕著性が高い物体の把握やダイナミクスを含むためまだ新しくチャレンジングな課題である。ここに対して、Depth-aware Fidelity Constraint（距離画像から推定される信頼性のようなもの）を適用することで物体の顕著性を把握しつつ3次元空間を再構成することができる（リターゲティングと3次元再構成の同時推定問題）。最適化にはTotalCost関数を適用して物体の顕著性を把握しつつ形状、時間情報、距離画像のディストーションを推定。

セグメンテーションを実行する際に任意のアノテーション済み物体を事前情報（Spatial Prior）として高精度化を図るための技術を提供する。本論文では、最初の一フレームに対してセグメンテーションを行うだけで、動画中の物体に対してセグメンテーションを行うモデルを提案する。アノテーションから抽出した事前情報はニューラルネットの中間層にて情報を挿入して抽象化を行う。図は提案のフレームワークを示しており、VisualModulator（初期フレームのアノテーションから視覚的なガイドを行う）、SegmentationNet（VisualModulator/SpatialModulatorの補助を受けつつ、RGB画像の入力からセグメンテーションを実行）、SpatialModulator（空間的にどこらへんに対象物体があるかをサポート）の３つのコンポーネントから構成される。

180604NetworkModulation

新規性・結果・なぜ通ったか？

最初のフレームのアノテーションのみから動画セグメンテーションを実行するという問題を提供した、さらに視覚的な特徴量/位置的な事前知識をセグメンテーションのネットワークに導入し、動画セグメンテーションを高精度化した点が評価された。動画セグメンテーションタスクであるDAVIS2016にて74.0、YoutubeOjbsにて69.0（処理速度は0.14second/image）であった。State-of-the-artには劣る（それぞれ79.8, 74.1）が、処理速度では優っている（提案 0.14 vs. 従来 10.0）。

コメント・リンク集

メタ学習の枠組みを使用している。

[#652]

2018.6.4 20:56:17

Real-world Anomaly Detection in Surveillance Videos

Waqas Sultani, Chen Chen, Mubarak Shah

CVPR 2018

概要

監視カメラの文脈において異常検出を実行する研究である。ここで、異常検出においてビデオに対して時間のアノテーションを付与するのは非常にコストのかかる作業であるが、ここに対して弱教師付き学習の一種であるMultiple Instance Learning (MIL)を適用して正常/異常ラベルが付いたビデオから異常検出を行うモデルDeep Anomaly Ranking Modelを提案する。さらに、13種類の異常シーン（e.g. road accident, robbery）を収集したデータセットを提供することで同問題の解決を実践した。

180604AnomalyDetection

新規性・結果・なぜ通ったか？

弱教師付き学習であるMILをベースとして異常検出を行なった、おそらく初めての例であり、その精度は従来法による精度を上回りState-of-the-artとなった（AUCにて75.41を達成）。また、1900の動画に対して13種類の異常を収集したデータセットを構築し、公開した。同データセットは合計で128時間にも及ぶ。

コメント・リンク集

異常の動画データセットを公開したことが評価できるポイント。現在ではYouTube検索とダウンロードである程度のデータセットは構築できそう？（ここらへんを効率化する研究自体があってもよい）

[#653]

2018.6.4 20:22:54

Normalized Cut Loss for Weakly-supervised CNN Segmentation

M. Tang, A. Djelouah, F. Perazzi, Y. Boykov, C. Schroers

CVPR2018

Ryota Suzuki

概要

Weakly-supervisedなセマンティックセグメンテーション手法があって，その方針はインタラクティブに部分的に正解（シードとか）を与えるというものである．そこで，よく用いられるロス関数（クロスエントロピー等）で評価しようとすると，教示の塗りミスが致命的になったりする．そもそも設計的にエラーが考慮されていないからである．

本論文では，非Deepな手法で行われていた評価指標に基づく新たなロス関数Normalized Cut Lossを提案．

従来法と違うところは，提案するロス関数におけるクロスエントロピーの部分は，ラベルが既知のシードの部分での評価だけやっているという点．Normalized Cutはゆるく全ピクセルに対する一貫性の評価を行う．

新規性・結果・なぜ通ったか？

Fully-supervisedな手法と同レベルの性能を実現できた．

従来法の知見を活かした橋渡し的手法．

コメント・リンク集

Disney Researchのインターンでやった模様．

arXiv

[#654]

2018.6.4 12:33:29

Burst Denoising with Kernel Prediction Networks

B. Mildenhall, J.T. Barron, J. Chen, D. Sharlet, R. Ng, R. Carroll

CVPR2018

Ryota Suzuki

概要

携帯含む最近のカメラは連写機能が付いているので，手ブレのあるようなハンドヘルドカメラの連写で撮ったノイズ入り画像をデノイズしようという話．連続撮影における手ブレに頑健なデノイズCNNを提案する．

写実的ノイズ定式化に基づく，インターネットから拾ってきた加工済み画像からカメラで撮ったような写実的画像を生成する合成データ生成手法で学習データを作成．学習中に空間的に変化するカーネルを使い，位置調整とデノイズを実現．不慮の局所解落ち回避のための，焼きなましロス関数をガイドとした最適化．

新規性・結果・なぜ通ったか？

流行に乗った手法（合成データによる学習，適応的パラメータ調整）を使って実現．問題設定も地に足がついている感じがする．

コメント・リンク集

Google Researchのインターンでやった模様．

[#655]

2018.6.4 10:40:17

MaskLab: Instance Segmentation by Refining Object Detection with Semantic and Direction Features

Liang-Chieh Chen, Alexander Hermans, George Papandreou, Florian Schroff, Peng Wang and Hartwig Adam

CVPR2018

525

概要

物体のBounding-box detection, Semantic segmentationとDirection predictionを同時に行うモデル「MaskLab」を提案する．Faster R-CNN・ResNet-101をベースに，Bounding-box内の前景と背景をわけることでSegmentationを行う．Mask R-CNNと違い，Segmentationを行うときは単純に前景背景分割をするだけでなくクラス分類も行い，また，各ピクセルのDirectionを予測して同じクラスの重なっている物体のInstance segmentationも可能である．また，検出されたBox内でさらに切り出しを行い，小さな物体の検出をしやすくする仕組みも入れている．

新規性・結果・なぜ通ったか？

Object detectionとSemantic segmentationを同時にEnd-to-endで解くモデルの提案．それだけでなく，Semantic segmentationではDirectionを考慮して高精度な認識が可能である．MSCOCOで性能評価を行い，FCIS+++（mAP，Seg：33.6），Mask R-CNN（Seg：35.7，Det：38.2）よりも高い性能（学習時にScale augmentationを行いSeg：38.1，Det：43.0）を達成した．Res-NeXtを用いたMask R-CNN（Seg：37.1，Det：39.8）よりも高性能である．

コメント・リンク集

最近，Detection + Segmentationがいくつか出てきているので今後に注目．検出速度に関する記述は見当たらなかったが，Faster R-CNNベースなのでそれ相応の速度だと思われる．ワンショット系の検出器に適応してこの精度を保ちつつ高速な検出ができればウケそう？

arXiv

論文

[#666]

2018.5.28 00:07:00

Learning to Extract a Video Sequence from a Single Motion-Blurred Image

Meiguang Jin, Givi Meishvili, Paolo Favaro

CVPR 2018

概要

１枚のブラー画像から時系列フレームを推定して動画像を生成するアプローチを提案。モーションブラーは通常、カメラなどセンサによる露光により発生するが、その分解は非常に困難な問題として扱われていた。本論文では平均化を除去してフレームを時系列方向に並べ、次にDeconvolutionを復元して同問題に取り組む（この問題は通常、Blind Deconvolutionと言われる）。提案法では、深層学習の手法としてこの両者を実現する構造を構築。

180527SingleMotionBlurredImage

新規性・結果・なぜ通ったか？

Blind Deconvolutionの課題を取り扱っているが、さらにここでは単一のブラー画像から動画像を生成するアルゴリズムや深層学習アーキテクチャを提案した。特に、ブラー画像から時系列画像を順次復元するための誤差関数を提案したことが最も大きな新規性である。

コメント・リンク集

もともとあった問題に少し味付けして、新しい問題を作り出すセンスが欲しい。。

論文

[#667]

2018.5.27 23:44:14

Learning to Detect Features in Texture Images

Linguang Zhang, Szymon Rusinkiewicz

CVPR 2018

概要

テクスチャに対して有効かつスケーラブル、さらに学習可能な局所特徴量を提案する。さらに提案手法は既存のランキングロスやFully-Convolutional Networks (FCN; 全層畳み込みネットワーク)と統合可能である。著者らは、新規の学習誤差関数であるPeakednessという指標を畳み込みマップに対して導入した。画像はテスト画像に対して提案手法を施した結果であり、Repeatableな特徴量（画像の中に再帰的に登場するテクスチャ特徴）が検出されている。

180527LearningToDetectFeatures

新規性・結果・なぜ通ったか？

（i）FCN構造によりフルサイズの再帰的なテクスチャパターンを評価することに成功した、（ii）Peakednessという指標を導入し、これを最大化することでテクスチャを評価するための畳み込みマップを洗練化することに成功、という点がもっとも重要な新規性である。実験ではcarpet/asphalt/wood/tile/granite/concrete/coarseといったテクスチャパターンに対して有効であることを示した。

コメント・リンク集

複雑かつ特徴が比較的取りづらいテクスチャの解析は今後さらに重要性を増すと考えられる（道路面のひび割れ調査など）。ここに教師なし学習（Self-Supervision含む）が導入されていくことになると思う。

[#668]

2018.5.27 23:19:17

Sparse, Smart Contours to Represent and Edit Images (2)

T.Dekel, C.Gan, D.Krishnan, C.Liu and W.T.Freeman

CVPR2018

arXiv:1712.08232

Kota Yoshida

概要

元画像の輪郭情報から画像を再構成する手法を提案.GANをベースとして，入力情報が与えられない領域のテクスチャと細部を合成する.実験では，顔認証システムや人間を対象にして元画像と再構成された画像と区別されないという結果となった．

新規性・結果・なぜ通ったか？

Pix2pixなどの既存の手法よりも大幅に向上している．
2つのネットワークで構成されており，1つ目のネットワークでは，画像全体の構造，色を再構成，2つ目のネットワークでは画像のテクスチャと細部の表現をしている．
直感的な操作が可能で，顔のパーツを移動させたり，追加させることもできる．

コメント・リンク集

入力情報がない輪郭と輪郭の間の画像部分の再構成にも力を入れてる
Paper

[#669]

2018.6.3 19:36:19

R-FCN-3000 at 30fps: Decoupling Detection and Classification

Bharat Singh, Hengduo Li, Abhishek Sharma and Larry S. Davis

CVPR2018

Kodai Nakashima

概要

オブジェクト性検出と分類を分離した物体検出器であるR-FCN-3000を提案した．RoIのための検出スコアを得るために，オブジェクト性検出と分類スコアをかける． R-FCNで提案されたposition-sensitive filterはfine-grained classificationには必要ないというのが基本アイディア．また本論文では，R-FCN-3000はオブジェクト数が増えると性能が向上することが示されている．

新規性・結果・なぜ通ったか？

ImageNet detection datasetで一秒あたり30枚の画像を処理したところ，mAPが34.9%であった（YOLO9000は18%）．

コメント・リンク集

論文URL

[#670]

2018.6.2 21:48:26

Learning to See in the Dark

Chen Chen, Qifeng Chen, Jia Xu and Vladlen Koltun

CVPR 2018

Kodai Nakashima

概要

暗い環境において，同じシーンを短時間露光で撮影した暗い画像と長時間露光で撮影した明るい画像のrawデータを集めたデータセットを提案した．このデータセットは，5094個の暗い画像のrawデータと424個の明るい画像のrawデータが1対多で対応付けられている．インドアとアウトドアの両方で撮影を行った．

新規性・結果・なぜ通ったか？

このデータセットを用いてFCNをトレーニングし，テストしたところ図に示すような結果が得られた．このネットワークはrawデータを直接扱うため，図に示すように，従来の画像処理パイプラインの多くの代わりになる．

コメント・リンク集

[#671]

2018.6.2 18:44:28

AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions

C. Gu et al.,

CVPR 2018

Kensho Hara

概要

大規模な新規動画データセットを構築．従来の動画データセットが複合的な行動ラベルを扱うのに対して，このデータセットではStand, Sit, WatchのようなAtomicな行動ラベル (80 classes) を扱う．このようなラベルが1秒間隔で動画中のすべての人にアノテーションされており，しかもBounding Boxまで付いているというのがこのデータセットの強み． 80種類ものAtomicな行動ラベルが大規模にしかも密に付いているデータセットは初．加えて，Two-stream I3D & Faster R-CNNというような手法を提案．従来のSpatio-temporal Action Localization用のデータセットではSOTAを達成したものの，このデータセットは15.6% mAPと問題の難しさも主張している．

新規性・結果・なぜ通ったか？

Bounding Boxまでアノテーションされている初の大規模動画データセットを構築
動画中の一部ではなく密にAtomicな行動のラベルがアノテーションされている
Spatio-temporal Localizationをするためのベンチマークとなる新規手法も提案

コメント・リンク集

[#672]

2018.6.1 14:53:37

SGAN: An Alternative Training of Generative Adversarial Networks

Tatjana Chavdarova, Idiap and EPFL; Francois Fleuret, Idiap Research Institute

CVPR2018

1712.02330

KenichiroWani

概要

General Advesarial Networks(GAN)は現在，コンピュータビジョン分野で広く使われている手法である．しかしながら，複雑な学習をするには時間がかかり，人の手が必要となる．そこでSGANというトレーニングプロセスを検討する．SGANではいくつかの敵対的でローカルなネットワークの組み合わせを独立させて学習させることでグローバルな一対のネットワークの組み合わせを学習することができる．SGANの学習はローカルディスクリミネータとジェネレータによってグローバルディスクリミネータとジェネレータが学習される．

Item3Image

新規性・結果・なぜ通ったか？

adversarial pairs (G1,D1),...,(GN,DN)を学習し， G0はD1,...,DNによって学習， D0はG1,...,GNによって学習させることでグローバルな一対のネットワークを学習する。

コメント・リンク集

arxiv

[#673]

2018.5.30 21:15:54

Learning from Noisy Web Data with Category-level Supervision

L.Niu, Q.Tang, A.Veeraraghavan, and A.Sabharwal

CVPR 2018

996

Kazuma Asano

概要

日に日に増えるウェブデータから学習することはポピュラーになりつつあるが，従来の学習とウェブデータを使用した学習では，ラベルが時々間違っているなどの大きなギャップが存在する．これを解決する従来手法では，さらに情報を追加してウェブデータから学習する傾向があったが，この論文では，より活発なカテゴリレベルの監視をすることによりラベルノイズを減らすWSCI(Webly Supervised learning with Category-level Information)を提案．分類を行うネットワークをVAE（Variational AutoEncoder）の隠れ層に接続し，分類ネットワークとVAEがカテゴリレベルのHybrid Semantic Informationを共有する．提案手法の有効性はAwA2, CUB, SUNの3つデータセットで評価している．

Item3Image

新規性・結果

いずれのデータセットにおいても，提案手法は従来手法に比べ2～5%ほど精度が向上しており，AwA2のデータセットにおいては90%を超える評価を出している．

コメント・リンク集

人間がわざわざデータを集めるのではなく，機械が自動的にデータセットを作ることで今までの負担を大きく減らすことができると考えられる．

arxiv

[#674]

2018.6.22 20:15:55

Geometry-Aware Learning of Maps for Camera Localization

S.Brahmbhatt, J.Gu, K.Kim, J.Hays and J.Kautz

CVPR 2018

340

Kazuma Asano

概要

DNNを使用したデータ駆動型による学習を可能するカメラ位置推定手法, MapNetを提案．MapNetではイメージ間の絶対的な位置姿勢と相対的な位置姿勢のロスを最小限に抑えることができる．さらに画像だけでなく，Visual odometry(VO)やGPSなどのユビキタスセンサ，Inertial Measurement Unit(IMU)などをカメラ位置推定に加え，ラベルなしのビデオを利用した，自己教師あり学習によるMapNet+の提案もした． Pose Graph Optimization(PGO)によって入力データをrefineしてAccurancyの改善を行う．データセットには小規模な位置推定のトレーニングに7-Senes，大規模なものにはOxford RobotCarsを用いている．

Item3Image

新規性・結果・なぜ通ったか？

MapNet+は自己教師あり学習とマルチセンサによってパフォーマンスを向上させており，特に大規模な位置推定ではStereo VOやPoseNetなどの従来手法と比較し精度が劇的に向上している．

コメント・リンク集

[#675]

2018.6.11 14:01:28

Conditional Generative Adversarial Network for Structured Domain Adaptation

W.Hong, Z.Wang, M.Yang and J.Yuan

CVPR2018

Kota Yoshida

概要

コンピュータによって学習用のアノテーションを生成し，実画像のような合成画像として用いることが流行．しかし，ドメインの不一致という問題が起きる．それを解決するために，GANをFCNフレームワークに統合することでSemanticSegmentationのためのドメイン適用のための手法を提案．

新規性・結果・なぜ通ったか？

合成画像の特徴を実画像のように変換する条件付きジェネ−レータとディスクリメーターを学習
ジェネレータは合成画像を実画像のようにディスクリメーターを騙すように学習させることでFCNのパラメータを更新．
本手法である実際のラベルを用いずに実験を行い，CityscapesデータセットのIoU平均が12〜20上回りSoTA．

コメント・リンク集

FCN＋GANでSemanticSegmentation
Paper

[#676]

2018.5.28 15:36:39

Learning to Sketch with Shortcut Cycle Consistency

Jifei Song, Kaiyue Pang, Yi-Zhe Song, Tao Xiang, Timothy M. Hospedales

CVPR 2018

概要

画像からスケッチのストロークを取得する手法の提案。人間が画像からスケッチをすると、同じ画像に対しても様々なバリエーションが生じてしまう。そこで、教師有学習と教師無学習を組み合わせることによって画像からスケッチの取得を実現する。教師有学習は、画像からスケッチもしくはスケッチから画像という変換を学習する。教師無学習は、オートエンコーダのように画像もしくはスケッチを符号化し、元に戻すという処理を学習する。その際、CycleGANのようにドメイン変換を繰り返すのではなく、符号化したものをそのまま復号化する(Shortcut Cycle)。

Item3Image

新規性・結果・なぜ通ったか？

Pix2pixやCycleGANなどの手法と比較を行い、いずれの手法と比較してもスケッチとして抽象化されつつもセマンティックな特徴を捉えていることを確認した。また、数値評価としてスケッチの認識及び検索タスクを行って評価した。どちらのタスクにおいても、従来手法と比較して高い精度でスケッチへの変換ができていることを示した。

コメント・リンク集

論文

[論文] FFNet: Video Fast-Forwarding via Reinforcement Learning

[#682]

2018.5.17 17:25:55

Egocentric Activity Recognition on a Budget

Rafael Possas et al.

CVPR 2018

Yoshihiro Fukuhara

概要

ウェアラブルデバイスのような使用可能な電力が限られる状況において, 電力消費と精度を強化学習を用いてバランスするフレームワークを提案. 複数のセンサー情報を用いた行動認識のタスクにおいて, 高精度・高電力消費な predictor と低精度・低電力消費な predictor を強化学習の結果に基づいて適宜切り替えることで少ない消費電力で先行研究と同等の精度を達成した. また, 一人称視点動画行動認識のための新しいデータセットを作成した.

fukuhara-Egocentric-Activity-Recognition-on-a-Budget.png

新規性・結果・なぜ通ったか？

ウェアラブルカメラの情報を用いた高精度・高コストな predictor とモーションセンサーの情報を用いた低精度・低コストな predictor のどちらを使用して推定を行うべきかを A3C の agent が判断する.
どちらのセンサーの情報を用いても正しい推定結果となるような状況では低精度・低コストな predictor を使用した場合に大きな報酬が得られるように agent の学習を行う.
提案手法では報酬についてのパラメータ１つを調整する事で精度と消費電力の簡単なトレードオフが可能.
一人称視点動画行動認識のための新しいデータセット（DataEgo）を作成.
Multimodal egocentric dataset を用いた評価実験では従来手法(Song+16)とほぼ同等の精度を少ない消費電力で達成.

コメント・リンク集

[論文] Egocentric Activity Recognition on a Budget

[#683]

2018.5.19 13:40:55

A2-RL: Aesthetics Aware Reinforcement Learning for Image Cropping

Debang Li et al.

CVPR 2018

Yoshihiro Fukuhara

概要

強化学習 (A3C) を用いて Image cropping を行う手法を提案. 従来の sliding winodow に基づく手法のように膨大な数の cropping 候補を評価する必要がないため, 先行研究よりも短時間で結果の計算が可能. また, 評価実験では精度についても先行研究よりも優位な結果を達成した.

fukuhara-A2-RL-Aesthetics-Aware-Reinforcement-Learning-for-Image-Cropping.png

新規性・結果・なぜ通ったか？

Image cropping を sequential decision-making process として定式化した. (14種類の cropping を action として, Markov 過程としてモデル化.)
上記の問題を A3C を用いた強化学習を用いて解いた.
報酬については学習済みの View Finding Network (Chen＋2017）を使用.
各ステップで候補となる cropping の種類の数が少ないため, 先行研究と比較して非常に短い計算時間で結果を出力することが可能となった.
Flickr Cropping Dataset, CUHK Image Cropping Dataset, Human Cropping Dataset を用いて行った評価実験ではいずれも先行研究よりも優位な結果を達成した.

コメント・リンク集

[#684]

2018.5.22 18:27:55

Good View Hunting: Learning Photo Composition from Dense View Pairs

Zijun Wei, Jianming Zhang, Xiaohui Shen, Zhe Lin, Radomir Mech, Minh Hoai, Dimitris Samaras

CVPR 2018

概要

画像の構図の良し悪しを評価するComparative Photo Compositionデータセットを構築。10800枚の画像から24の構図の画像を作成し、クラウドソーシングによって2つの構図のどちらがいいかをアノテーションした。また、入力画像をどのようにクロッピングすると良い構図になるかを提示するシステムを構築した。その際、IOUを評価尺度にすると構図的に評価が低いものも高いスコアになるため、画像を評価するネットワークから得られるスコアを指標とした。

Item3Image

新規性・結果・なぜ通ったか？

従来のデータセットでは画像に対してスコアがついていたのに対して、構図の異なる2枚の画像どちらがいいかを100万ペアアノテーションを行った。構図推薦システムは、ユーザースタディの結果従来手法よりも良いと感じる人が多いことを確認した。また、計算速度も従来手法と比べはるかに向上した(75FPS+)．

コメント・リンク集

プロジェクトページ

[#685]

2018.5.28 00:50:47

DVQA: Understanding Data Visualizations via Question Answering

Kushal Kafle, Brian Price, Scott Cohen, Christopher Kanan

CVPR 2018

694

Yue Qiu

概要

新規なバーグラフに対して質問回答タスクDVQA及びデータセットの提案．
バーグラフが情報の一つとしてより豊かな統計的な情報を表現できる．提案手法がバーグラフを対象としたDVQAを提案し，バーグラフの自動的情報抽出と理解を可能にした．
大規模なバーグラフQAデータセットDVQAを提案した．DVQAが3Mのグラフ‐質問ペアから構成され，バーグラフに対し３種類の質問(構造理解，データ検索，reasoning)を設定した．また，全部の質問がopen-endedである．
DVQAタスクにおいて，2種類のネットワーク構造を提案した．①MOM:グラフの局所領域を抽出し文章を生成ことにより回答できる問題を対応するネットワークboundingbox OCR及びグラフの局所領域を抽出せずに回答する一般的な問題を対応するClassifierの二つのサブネットから構成される．どのネットにより回答するかを2クラス分類問題として取り扱っている②SANDY:従来手法SANにダイナミックエンコーディングモデルを用いて，質問文中のchart-specific単語をエンコーディングし，それをベースに直接chart-specificな回答文を生成できる．

DVQA

新規性・結果・なぜ通ったか？

実用性が高い新規なバーグラフに対し質問回答タスクを提案．
提案データセットDVQAに対し5種類の従来のVQA手法と提案のMOM,SANDYの比較実験を行った．一般的問題・chart-specific問題の両方に対し提案のSANDYモデルが最も良い精度を達成した．
提案のデータセットDVQAがバーグラフの理解と質問文・回答文によりバーグラフ自動生成に用いられる．

コメント・リンク集

VQAタスクのVを画像からバーグラフに変更し実用性が高い提案である．
類似した考えで従来の”V”か“Q”か“A”を同じ処理で別の似た概念に変更する研究をするも面白そう
論文

[#686]

2018.5.25 17:28:12

RotationNet: Joint Object Categorization and Pose Estimation Using Multiviews from Unsupervised Viewpoints

Asako Kanezaki, Yasuyuki Matsushita, Yoshifumi Nishida

CVPR 2018

628

Yue Qiu

概要

物体のマルチ視点の画像からジョイントで3D姿勢推定及び物体認識を行う手法RotationNetの提案．
3D MFPにより作成されたマルチ視点画像データセットMIROを提案した．(12classes, 10 instances/class,160viewpoints)
物体を観測する視点及び物体のカテゴリをジョイントで推定した方がより良い精度を達成できると指摘し，更にトレーニングする際に物体を観測する視点をlatent variablesとして取り扱い，視点unalignedな学習データセットからunsupervisedで物体の姿勢推定を学習する．
また，視点-specificな特徴をクラス内だけではなく，異なるクラス間の姿勢アライメントを行う．
RotationNetのネットワーク構造はマルチ視点の画像から画像ごとにそ全部の視点の確率(その画像がその視点であるか)及び物体カテゴリを予測し，全部の画像から予測した結果から正解ラベルのクラスの確率＊視点の確率の統合を最大化するように学習する．

RotationNet

新規性・結果・なぜ通ったか？

物体認識においてはSHREC’17のnormalデータに対し優勝した．また，ModelNet-10,ModelNet-40に対し従来のマルチ視点・ポイントクラウド・ボクセルベースな様々な手法より良い精度を達成．
物体姿勢推定において，無監督な方法で従来の監督方法レベルな結果が得られた．
実環境で，良い姿勢な画像をと撮影できるとは限らない．RotationNetで物体の姿勢及び認識を行う際，画像枚数（＞＝１）で動作でき，観測が更新したら予測結果を更新する．そのため，RotationNetはAR応用などの実環境の応用に適応する．

コメント・リンク集

クラス間のViewpoint-specificな特徴を学習することが面白い．可視化手法を加えて学習済みモデルに対しどういうようにアライメントしているのかを知りたい．また，問題定義を詳細的に考える必要がありそう
疑問点としては予測したそれぞれの視点の結果の統合は平均をとる？
論文
コード

[#687]

2018.5.25 17:21:58

Visual to Sound: Generating Natural Sound for Videos in the Wild

Yipin Zhou, Zhaowen Wang, Chen Fang, Trung Bui, Tamara Berg

CVPR 2018

435

Yue Qiu

概要

ビデオからリアルな音声を生成する(waveformな)手法及びビデオ―音声データセットを提案した．
人がビジョンとサウンド間の関連性をある程度把握できる．そこで，in-the-wildビデオから音声(waveform型)を自動生成するタスクを提案し，また，このタスクのためのデータセットVEGASを提案した．VEGASはAudioSetデータセットをAMTよりクリーンし，10カテゴリのビデオ及び対応した音声28109ペアから構成される．データセットのビデオの総時間が55時間となる．
提案タスクに対応したフレームワークはビデオエンコーダー及び音声ジェネレータから構成される．音声ジェネレータは階層的RNNを用いた．ビデオエンコーダーに対し:①frame-to-frame②sequence-to-sequence③flow-basedの３種類の設計を用いた．3種類モデルの生成結果に対し定量評価及びヒューマンテストを用いて評価し，flow-based構造が最も良い性能とヒューマン評価を達成した．

VisualToSound_InTheWild

新規性・結果・なぜ通ったか？

従来のビデオから音声を生成する手法はビデオに対し拘束条件を加えている．提案手法は初めてのin-the-wildビデオから音声を生成する手法．
ビデオから音声を自動生成する手法の応用場面が広い．(VRシステムでの没入感の増強，音声編集作業の自動化，視覚障害の人に視覚体験を聴覚体験として提供)
ヒューマンテスト (ビデオがリアルかフェクか)に対し，ビデオエンコーダーをflow-basedな構造を用いた場合，平均73.36%の生成音声がリアル音声と評価された．

コメント・リンク集

・視覚情報の抽出機に更にコンテンツと物体relationなどを重視したネットワークを用いたら更なる良い結果が得られそう・逆設定として，音声情報からビデオの予測も面白そう

[#688]

2018.5.25 17:15:56

Functional Map of the World

Gordon Christie, Neil Fendley, James Wilson, Ryan Mukherjee

CVPR 2018

795

Yue Qiu

概要

建物や土地などの機能的目的を予測するタスクに用いられる大規模な衛星画像データセットfMoWの提案(bounding box, 時系列，カテゴリ，メタ情報などのアノテーションがあり)
データセットの具体的な統計情報は①200以上の国の１,047,691 枚画像②63カテゴリ③一枚の画像1つ以上のバウンディングボクス定義④時系列画像が大量に含む．
このデータセットに対応した新たなタスクを設定した：連続な時系列画像によりバウンディングボクス内の物体を認識する．提案データセットfMoWを用いて5つのネットワーク構造:LSTM-M,CNN-I,CNN-IM,LSTM-I,LSTM-IM(I:画像M:メタ特徴)に対し比較実験を行た．平均F1スコアにおいてLSTM-IMが最も高い精度を示したので，時系列情報及びメタ情報をジョイントでreasoningするアプローチの有効性を証明した

FunctionalMapOfTheWorld

新規性・結果・なぜ通ったか？

公開されている最も大規模な衛星画像データセット．
異なる国・撮影時間・撮影年代などで撮影された画像から構成され，提案データセットを統計比較などにも用いられる．
従来の衛星画像データセットは主にbrief momentsの情報だけをキャプチャーし，メタ情報(ロケーション，時間，太陽角度など)がアノテーションされていない．提案データセットはメタ情報をアノテーションし，様々な応用を可能にした．(例：パーキングエリアの時系列駐車量の統計・影と時間情報によりオブジェクトの高さ推定など)
検出と識別タスクの間に位置付ける新たな問題設定“時系列画像のバウンディングボックス内の物体識別”をして，更に実験を通してメタ情報と時系列情報をジョイントで処理することの重要性を示した．

コメント・リンク集

地理情報に関する分析の研究に用いられるデータセット
国のバリエーションが豊かなデータセットなので，国ごと上空シーン特徴の比較などにも用いられる
論文
コード
データセット
fMoW Challenge

[#689]

2018.5.25 17:05:45

Deep Cocktail Network: Multi-source Unsupervised Domain Adaptation with Category Shift

Ruijia Xu, Ziliang Chen, Wangmeng Zuo, Junjie Yan, Liang Lin

CVPR 2018 Poster

Kazuki Inoue

概要

ソースドメインのラベル付きデータセットが複数ある場合のunsupervised domain adaptation(UDA)であるmultiple domain adaptation(MDA)によってターゲットドメインのクラシフィケーションを行う Deep Cocktail Network(DCTN)を提案。MDAではUDAで問題視されるドメインシフトに加えて、ソースドメインのデータセット間で全てのカテゴリが共有されていないカテゴリシフトが存在する。 DCTNでは、k番目のソースドメインのデータセットとターゲットドメインのデータセットを入力として discriminatorによってperplexity scoreを算出することでどのソースドメインのデータセットの分布に近いかを算出し、これを全てのソースドメインのデータセットに対して行い、perplexity scoreを重み付けるすることで最終的な識別結果を出力する。

新規性・結果・なぜ通ったか？

discriminatorによってターゲットドメインがソースドメインのデータセットのうちどのデータの分布に近いかを計算することで、MDAに取り組むDCTNを提案。
3つのベンチマークにおいてUDAのstate-of-the-artと比較し他結果、提案手法が最も高い精度を達成。
カテゴリシフトを解決できているかどうかを確認するために、ターゲットドメイン内でカテゴリの重複あり/なしにおける識別結果を比較したところ、 state-of-the-artと同等以上の精度を達成。

コメント・リンク集

discriminatorが算出したperplexity scoreによって重み付けをするというシンプルな手法だが、UDAに取り組むstate-of-the-artよりも高い精度を達成している。
論文

[#690]

Unsupervised Correlation Analysis

Yedid Hoshen, Lior Wolf

CVPR 2018 Poster

Kazuki Inoue

概要

2つのドメインを結合する手法であるCanonical Correlation Analysis(CCA、正準相関分析)を教師なし学習に対して行うUnsupervised Correlation Analysis(UCA)を提案。既存のCCAは教師あり学習かつ2つのドメインが何らかの対応関係を持っていることを前提としていたが、 UCAは教師なし学習かつ2つのドメインに対応関係がない場合を想定している。教師あり学習とは異なり、トレーニング時に2つのドメインにおける相関係数を計算することができないため、入力する2つのドメインと、ネットワークによって射影された潜在変数空間の3つのドメイン間の射影、逆射影がうまくいくように様々なロスをとることで学習を行う。ロスに対するablationも行なっている。

新規性・結果・なぜ通ったか？

教師なしかつ2つのドメインに対応関係がない状況におけるCCAの拡張であるUCAを提案。
評価尺度として潜在変数空間における相関係数、AUCを用いて以下の5つの状況で実験を行なった。1.MNISTの画像とそのミラー画像、2.MNISTの上半分の画像と下半分の画像、3.鳥の画像とそのキャプション、4.花の画像とそのキャプション、5.Flickerの画像とそれに付随する5つの文章。関節位置のエラーを測定したところ上記のstate-of-the-artの手法と同等、あるいは上回る精度を達成。
教師なし学習の結果をGANと比較しており、全ての実験においてGANよりも高い精度を達成。
教師あり学習をUCAで行なった結果も乗せられており、実験3、４、5において通常のCCAよりも高い精度を達成。

コメント・リンク集

現状のネットワークを見ると、それぞれのドメインにおける直交性と、それぞれのドメインの射影先が同じ空間になるように様々なロスをとっているだけなので、もう少しアップデートすることができるかもしれない。
CCAの特徴であるL_Orthだけを除いた場合に、どれほどの影響が出るのかが気になった。
論文

[#691]

Transferable Joint Attribute-Identity Deep Learning for Unsupervised Person Re-Identification

Jingya Wang, Xiatian Zhu, Shaogang Gong, Wei Li

CVPR 2018 Poster

Kazuki Inoue

概要

ラベルなしデータセットにおいてperson re-identification(re-id)を教師なしで行うために、ラベルありデータセットからdomain adaptationを行うTransferable Joint Attribute-Identity Deep Learning(TJ-AIDL)を提案。person re-idとは、街中の監視カメラのような異なる視点、重複のない領域を撮影された映像内の同一人物を探すことである。 TJ-AIDLにはアイデンティティーを推定するIdentity branch、アトリビュートを推定するAttribute branch、アトリビュートからアイデンティティーを推定するモジュールであるIdentity Inferred Attirbute(IIA)からなる。 domain adaptationの際には、Attribute branch、IIAの更新のみを行う。

新規性・結果・なぜ通ったか？

domain adaptationを用いて教師なしでperson re-idを行うために、画像のアトリビュートからアイデンティティーを推定するTJ-AIDLを提案。
personn re-idのベンチマークである4つのデータセットを使用しており、Rank-1mAPにおいてre-idを教師なしで行うstate-of-the-artよりも高い精度を達成。
TJ-AIDLにおいてアトリビュート/アイデンティティーのみ学習した際の結果、adaptation有り/無しの結果についても議論しており、提案したTJ-AIDLが最も高い精度となった。

コメント・リンク集

論文

[#692]

Duplex Generative Adversarial Network for Unsupervised Domain Adaptation

Lanqing Hu, Meina Kan, Shiguang Shan, Xilin Chen

CVPR 2018 Poster

Kazuki Inoue

概要

同一カテゴリのdomain間におけるadaptation, transferをラベル識別と2つのdiscriminatorを用いるネットワークDupGANを提案。target domainにはラベルがない状況である教師なし学習を対象としている。 DupGANはencoderでそれぞれのドメインの潜在変数をエンコードし、generatorでデコードを行い、 2つのdiscriminatorでそれぞれのドメインに対してfake/realとラベルの認識を行う。結果はdomain transferされた数字画像のラベル認識・生成結果、物体認識の精度において比較を行う。

新規性・結果・なぜ通ったか？

ラベル認識と2つのdiscriminatorによってdomain adaptaion/transferをおこなうDupGANを提案。
既存手法であるDANN、ADDAはadversarial lossを使用してtarget→source のマッピングを行うが、これらの手法ではマッピングされたtarget domainの分布が歪んでいないことは保証できない。一方DupGANではラベルの認識を行わせることでカテゴリ構造を保つことができる。また提案手法では画像の生成も可能である。
state-of-the-artと比較して、数字画像データセットであるMNIST、USPS、SVHN、SVHN-extraそれぞれのデータセット間におけるdomain transferに対するラベル認識の結果、最も高い精度を達成。またdomain transferによる画像も生成することが可能。
31種類のラベル、3つのドメインを持つOffice-31データセットにおける物体認識結果がstate-of-the-artよりも高い精度を達成。

コメント・リンク集

クラシフィケーション生成された画像ではなくはエンコードされた潜在変数に対して行われている。
画像の生成力はそこまで高くなく、実際Office31に対する画像生成は難しかったと主張している。
論文
Supplementary material

[#693]

Pixels, voxels, and views: A study of shape representations for single view 3D object shape prediction

Daeyun Shin, Charless Fowlkes, Derek Hoiem

CVPR 2018

384

Yue Qiu

概要

1枚の画像から3次元形状を推定するタスクにおいて，異なる形状representation及びcoordinate framesを用いた場合，精度がどのように変化するのかの徹底的比較実験に関する研究．
従来形状推定タスクにおいて異なる設計の比較分析の研究がないので，著者達が異なる設計を比較できるフレームワーク及び具体的な実験を行った．
比較実験は具体的に，a.RGB画像b.デプス画像からの形状推定タスクにおいて，“①マルチサーフェス画像VS volumetricデータ表示②viewer-centered VS object-centeredな座標”などの設定に対し，定量的及び定性的な比較実験を行った．
提案の比較用フレームワークはencoder-decoderベースなネットワークを用いて，decoderに変更を加えることで，マルチサーフェス画像及び volumetricデータの2種類を生成できるようにした．また，coordinate frameをスイッチすることにより，viewer/object centeredを変更できる．

A_Study_Of_Shape_Representations

新規性・結果・なぜ通ったか？

3次元形状推定タスクにおいて，異なる設定の比較実験を行った．
形状representationの設定において，Multi-surfaceの方がvoxel と比べunseenクラスにおいてより良い性能を達成した． Multi-surfaceの方が高い解像度をエンコーディングできるのが理由な可能性があると指摘した．
coordinate framesの設定において，意外なことに従来広く採用されているobject-centeredはviewer-centeredと比べunseenクラスにおいて精度が劣っていて， object-centeredの方がカテゴリ認識に対応が強いのが原因となることを指摘した．
以上の結論を元に，object centeredなsurface-basedな1枚の画像から3次元形状推定の手法3D-R2N2を提案し，PASCAL 3D+データセットにおいてmean IoU0.414を達成した．

コメント・リンク集

比較をしていない設計(Oct-tree based representationなど)もあるので，そういった構造に対して比較実験を行うのも面白い．
3次元あたりの徹底的比較を行って，何らかの結論を出すような研究がまだ少ないので，研究テーマを沢山作れるかも？
論文

[#694]

2018.5.24 18:20:50

PlaneNet: Piece-wise Planar Reconstruction from a Single RGB Image

Chen Liu, Jimei Yang, Duygu Ceylan, Ersin Yumer, Yasutaka Furukawa

CVPR 2018

336

Yue Qiu

概要

1枚のRGB画像から“piece-wise planar depthmap”を推定するend-to-endなネットワークを提案した．提案手法を用いてRGB画像から平面パラメータ及び平面セグメンテーションマスク及びデプスマップを同時に推定できる．
画像からpiece-wiseな平面を検出するタスクはARの応用に一つ重要なタスクとなっている．しかし従来，デプス推定とpiece-wiseな平面検出を同時に行う研究がない．著者達が新たにこのタスク及びタスクに対応できるネットワークを定義した．
提案フレームワークは:①DRNs(Dilated Residual Networks)を用いて入力画像から特徴抽出を行う②平面パラメータ推定・non-planarデプスマップ推定・セグメンテーションマスク推定の3つの推定ネットワークを用いる③推定した3つの結果から“piece-wise planar depthmap”を生成する．

PlaneNet_PieceWise_PlaneEstimation

新規性・結果・なぜ通ったか？

新規な問題定義．実験で提案手法が部屋のレイアウト推定・ARアプリ(テクスチャー編集・バーチャルルーラーなど)に応用できることを指摘した．
51,000枚ほどの学習データを作成した．(これが大変そう)
plane segmentationタスクにおいてNYUデータセットでの精度が従来の三つの手法より優れている(比較している手法は2009年，2009年，2012年の手法だけど。。)
デプスマップ推定タスクにおいてNYUv2データセットにおいて前述した３つの手法より精度良い

コメント・リンク集

ARアプリに応用できるところから考えると単純なデプス推定より実用性が高い
平面検出も同時に行うので，部屋レイアウト推定に良い精度を達成したのが理解できる．しかし，疑問としては提案手法が平面検出＋デプス推定だけで部屋の幾何構造実際は学習していないので，デプス推定＋平面パーツ検出の従来研究と比べると新規性と技術的の難しさがどこなのかちょっとわからない
論文
コード
プロジェクト

[#695]

2018.5.24 18:13:54

PointNetVLAD: Deep Point Cloud Based Retrieval for Large-Scale Place Recognition

Mikaela Angelina Uy, Gim Hee Lee

CVPR 2018

573

Yue Qiu

概要

PointNetとNetVLADを用いたポイントクラウドベースな“場所検索”ネットワークPointNetVLAD及びデータセットの提案．
従来の自動運転などに用いられる場所検索技術では2次元画像ベースで行われている．しかし，照明条件などに対しロバスト性が低い．ポイントクラウドベースな場所検索が従来良いグローバル特徴抽出機がないため，まだ研究されていない．近年PointNetなどの良いポイントクラウド特徴抽出機が提案され，そこで著者達がPointNetとNetVLADを用いたLiDARで撮ったポイントクラウドをベースとした場所検索手法を提案した．
提案データセットの収集過程は:①Oxford RobotCar などのdatasetからフルールートを選択する②フルールートから局所を選択する③選択した局所ポイントクラウドをダウンサンプルと正規処理を行う．また，Oxford RobotCar 以外，3種類の他のデータセットからデータを集めた．
fixedサイズなポイントクラウドからグローバル特徴を抽出できるPointNet，NetVLADと全結合層をコンバインたend-to-endなグローバル特徴抽出機を構築した．

PointNetVLAD

新規性・結果・なぜ通ったか？

新規なポイントクラウドベースな場所検索及び場所検索3次元ポイントクラウドデータセットの提案．
従来の2次元画像ベースな場所検索と比べ，提案したポイントクラウドベースな場所検索が照明条件にロバストである．
PointNetとNetVLADを用いているので，ポイントクラウドの無順序性及びpermulationを対応できる．
新規なロス関数Lazy quadrupletを定義した．
提案データセットにおいて，PointNetとModelNetなどの従来手法と比べ良い検索精度達成した．

コメント・リンク集

PointNet，PointNet++, Kd-networkなどのポイントクラウドデータを扱えるネットワークでポイントクラウドから情報抽出を利用した研究がこれからまだ増えるのかな？
ポイントクラウドデータを直接処理できるネットワークがいくつかあるが，主にPointNet，PointNet++が引用されていそう．ほかの手法があまり使われていない理由が知りたい
論文
コード

[#696]

2018.5.24 18:03:54

Pix3D: Dataset and Methods for 3D Object Modeling from a Single Image

Xingyuan Sun, Jiajun Wu, Xiuming Zhang, Zhoutong Zhang, Tianfan Xue, Joshua Tenenbaum, William Freeman

CVPR 2018

375

Yue Qiu

概要

大規模なピクセルレベルに対応付けられたimage-shape pairsデータセットPix3Dの提案及び画像から同時に三次元形状及び姿勢を推定するネットワークの提案．
従来のimage-shape pairsデータセットは①合成データセットを用いる②image-shapeの対応が精密ではない③データセット規模が小さいなどの問題点がある．そこで，著者達が大規模なピクセルレベルに対応付けられたデータセットを提案した．Pix3Dは395個の3次元物体モデル(9カテゴリ)，10069ペアの画像―形状ペアから構成される．画像と形状のペアはピクセルレベルの精密的に対応付けられている．
データセットの収集段階では:①IKEA及び自撮りで大量な画像―形状ペアを集める②AMTにより画像からキーポイントをアノテーションする③Efficient PnP及びLevenberg-Marquardtを用いて粗い・精密なposeを求める．
更に，提案手法は画像から同時に姿勢及び3次元形状を予測できるネットワークを提案した．提案ネットワークはまず画像から2.5Dスケッチを推定し，推定したスケッチをエンコーディングする．また，デコーディングにより3次元形状を推定し，同時にview estimatorネットワークにより姿勢を推定する．

Pix3D

新規性・結果・なぜ通ったか？

従来のデータセットではCGモデルで合成されている方が多く，提案のデータセットが実物体を用い，更にピクセルレベルな精密度の画像―形状対応付けアノテーションがある．
画像から同時に形状姿勢を推定するフレームワークの定量化結果は提案したデータセットでは3D-VAE-GAN,MarrNetなどの従来手法より良い精度を達成した．

コメント・リンク集

現在の学習データアノテーション段階でAmazon Mechanical Turkを用いている．Semantic Keypointの自動的検出を用いたら自動化できることはデータセットの更なる拡大化につなぎられそう
論文
コード

[#697]

2018.5.24 17:57:53

Learning to Look Around: Intelligently Exploring Unseen Environments for Unknown Tasks

Dinesh Jayaraman, Kristen Grauman

CVPR 2018

152

Yue Qiu

概要

新規な問題設定“シーンや物体を有効的に観測できる視点を学習する”及びこの問題を対応できる “アクティブ観測補完”ネットワークの提案．
従来のCVタスクは主に与えられた観測(画像・ビデオ・ポイントクラウドなど)から視覚性質(クラス分類・検出など)の分析を行う．しかし，リアルな知能はまず環境から目的を達成するための観測を取得することから始まる．また，異なる観測から得られる情報量も異なる．そこで，著者達が“active observation completion”タスクを提案し，未知なシーンかオブジェクトからシーン及び物体のより多く3次元情報が含めた数が限られた観測視点の推定を目標とする．
提案手法は強化学習を用いる．RNNベースなネットワークを用いて選択された視点からシーンか物体のパーツ情報を統合する．また，統合されたモデルから推定できるunobserved視点とgt間の誤差をベースにロス関数を設定した．

LearningToLookAround

新規性・結果・なぜ通ったか？

学習データを手動でラベリングする必要がないので，大量な学習が行える．
提案フレームワークを“シーン”の補完及び“物体モデル”の補完の2種類だいぶ異なったタスクに実験を行い，良い精度を達成したので，”提案した“無監督探索的な”フレームワークを遷移学習でほかのタスクに用いられる．
SUN360(Scene dataset)及び”ModelNet” (Object dataset)を用いて，従来のいくつかベースとなる手法より良い精度を達成した．

コメント・リンク集

Interactive 環境でのVQAタスク(Embodied Question Answeringなど)は環境から“情報量が豊かな画像”を集めるのが重要の一環なので，提案フレームワークを用いられそう．
論文

[#698]

2018.5.24 17:50:58

PU-Net: Point Cloud Upsampling Network

Lequan Yu, XIANZHI LI, Chi-Wing Fu, Daniel Cohen-Or, Pheng-Ann Heng

CVPR 2018

355

Yue Qiu

概要

data-drivenなポイントクラウドアップサンプリング手法の提案．スパースなポイントクラウドから，もっとデンスでユニフォームなポイントクラウドを取得できる．
従来の2D画像super-resolutionタスクと比べ，3D Upsamplingでは処理対象が空間オーダーとレギュラー構造がないポイントクラウドで，物体の本当のサーフェス(ポイントクラウドのリアル物体)に近づき，点の密度も均等であることがタスクの目標となる．こういったことから，提案手法はポイントクラウドからマルチレベルの特徴を抽出し，更にマルチブランチで特徴を拡張することにより，ポイントクラウドの局所及びグローバルな情報を取得できる．
提案ネットワークPU-Netは入力のポイントクラウド(N points)に対し①ポイントクラウドに対し異なるスケールのパッチを抽出し，②パッチからPointNet++を用いたマルチレベルの特徴抽出を行う．③feature expansion構造により特徴を拡張し，④全結合層を用いて出力のポイントクラウド(N＊ｒ points)を生成する．また，物体のサーフェスまでの距離及びポイントクラウドの過密程度を基準に，ジョイントロスを設計した．

PU_Net

新規性・結果・なぜ通ったか？

新たな評価指標：“物体のサーフェスまでの距離偏差”及び“ポイントクラウド分布のユニフォーム性”を評価できる指標を提案し，この2つの指標においてSHREC2015データセットに対し従来研究より優れた精度と指摘した．
Pointnet++を用いてローカル及びグローバル情報抽出を行うので，ポイントクラウドの幾何的無オーダーを対応できる

コメント・リンク集

提案手法を更に発展し物体モデルの補完およびアップサンプリング同時にできることを期待される
Pointnet++を基本構造として使っていることがすごそう
論文

[#699]

2018.5.24 17:36:47

Deep Unsupervised Saliency Detection: A Multiple Noisy Labeling Perspective

J.Zhang, T.Zhang, Y.Daiy, M.Harandi, and R.Hartley

CVPR2018

arXiv:1803.10910

Kota Yoshida

概要

深層学習を用いた教師あり学習による顕著性の検出方法は教師データに依存する．そこで，“汎化能力を改善しつつ教師データなしで顕著性マップを学習することは可能か？”という問いに対して，弱いものやのノイズのある教師なし顕著性検出手法によって生成される多数のノイズラベルを学習することによって教師なしで顕著性の検出を行った．

新規性・結果・なぜ通ったか？

従来の教師なし顕著性検出に新たな顕著性を推定し，複数のノイズの多い顕著性検出方法から顕著性マップを学習する．
我々の深層学を用いた顕著性検出モデルは，人間のアノテーションなしでEnd to Endで学習できとても簡潔である．

結果・リンク集

評価実験をしたところ従来の教師なしの顕著性検出方法を大きく上回り，深層学習を用いた顕著性の精度と同等のものとなった．
Paper

[#700]

2018.5.23 20:28:11

Cross-View Image Synthesis using Conditional GANs

Krishna Regmi and Ali Borji

CVPR2018

概要

対応する航空写真とストリートビュー写真間の変換を行うcGANを提案．pix2pixによる変換に比べて，オブジェクトの正しいセマンティックスを捉え維持する変換が可能となっている．提案したcGANモデルは２つあり，X-Fork とX-Seq と呼んでいる．出力が変換画像とセグメンテーションマップであることが特徴．Inception Scoreの比較実験をすると，航空写真からストリートビュー方向の変換ではがX-Forkが優れ，逆方向の変換ではX-Seqの生成結果が優れていることがわかった．

256x256の解像度で生成可能．gがストリートビューで，aが航空写真に当たる．

手法

X-Forkは１つのGeneratorと１つのDiscriminatorから成るシンプルな構成のcGAN．出力は変換後の画像とセグメンテーションマップの２つであることが特徴．
X-Seqは２つのGeneratorと２つのDiscriminatorから成るcGAN．１つ目のGeneratorで変換後の画像を生成．それを元に２つ目のGeneratorでセグメンテーションマップを生成する．
セグメンテーションマップのGround-Truthには，学習済みのRefineNetを用いた生成結果を使用している．

コメント・リンク集

航空写真とストリートビューという劇的に見た目が変わる場合の変換において，どのようなことが問題点となるのか５つ挙げられていたので気になる場合は元論文を参照してください．
コードやデータは公開予定
arXiv

[#701]

2018.5.23 20:24:52

Multimodal Explanations: Justifying Decisions and Pointing to the Evidence

D. H. Park et al.,

CVPR 2018

Kensho Hara

概要

性能がよく，かつ説明可能なモデルの実現のための新規手法の提案．これまでの説明可能なモデルは視覚的なAttentionのみやテキストの説明のみという単一のmodalだけだったのに対して，この論文では両者を合わせたmulti-modalな説明を出力可能にした．それを行う手法の提案と，学習と評価に使うデータセットを構築したのがこの論文のContribution．データセットはVQAと静止画からのActivity Recognitionのタスクで，従来あったデータセットに，理由のテキスト説明と視覚的な根拠となった領域のアノテーションを追加して作成．手法は，まず答えを出力して，それを元に根拠となった理由を出力するという形式のネットワーク構造を採用．

Multimodal_Explanations_Justifying_Decisions_and_Pointing_to_the_Evidence.png

新規性・結果・なぜ通ったか？

モデルの出力に加えて視覚的，テキストのmulti-modalな根拠説明をする手法を提案
VQAとActivity Recognitionでそれを評価可能なデータセット（追加アノテーション）を構築

コメント・リンク集

論文 (arXiv)
データセットはまだ公開されていない模様

[#702]

2018.5.8 12:00:18

A Variational U-Net for Conditional Appearance and Shape Generation

Patrick Esser, Ekaterina Sutter, Björn Ommer

CVPR 2018 Spotlight

Kazuki Inoue

概要

画像を構成する成分はshape(ジオメトリ、ポーズなど)とappearanceであるという考えのもと、VAEによってappearanceを推定し、 U-Netにshapeを学習させることで入力画像のappearanceとshapeの片方を保ったままもう一方を変更することが可能なVariational U-Netを提案。通常のVAEではshape、appearanceの分布を分離することが不可能なため、 VAEに画像とshapeを入力することでappearanceの特徴量を抽出し、U-Netによってshape情報を保つように学習を行う。 shapeとして体のポーズや線画が入力される。トレーニングデータには同一物体に対する様々なバリエーションの画像は必要としない。

新規性・結果・なぜ通ったか？

VAEでappearanceを、U-Netでshapeを学習させることで画像に内在する2つの事前分布を別々に学習することができるVarational U-Netを提案。
コンディションによって画像を編集するpix2pixとポーズをコンディションとして人物画像を編集するPG2と比較を行った。COCO、DeepFashion、Market-1501データセットにおいてSSIMやIS、関節位置のエラーを測定したところ上記のstate-of-the-artの手法と同等、あるいは上回る精度を達成。

コメント・リンク集

VAEとU-Netのいいとこ取りをすることで、2つの変数を扱うことが可能になった。
論文
Project page
GitHub

[#703]

Total Capture: A 3D Deformation Model for Tracking Faces, Hands, and Bodies

Hanbyul Joo, Tomas Simon, Yaser Sheikh

CVPR 2018 Oral

Kazuki Inoue

概要

表情、体全体の動き、手のジェスチャといった様々なスケールの動きをマーカー無しでキャプチャするdeformation modelである”Frankenstein”と”Adam"を提案。 3Dキャプチャシステムに置いて、画像の解像度と3Dキャプチャシステムの視野はトレードオフであるため、体の局所的な動きと全体的な動きを同時に捉えことは難しかった。提案手法では顔、両手、両足、手の指における3Dキーポイントと3D Point Cloudを用いて表情などの局所的モーションと体全体のモーションをキャプチャすることができるFrankensteinを構築。また70人のトラッキングデータを用いてFrankensteinモデルを最適化することで、髪と服を表現することが可能なAdamモデルを提案。結果は既存手法とのトラッキングの精度によって比較している。

新規性・結果・なぜ通ったか？

表情や手のジェスチャといった局所的なモーションと、体全体の動きを同時にトラッキングすることが可能なdefromation modelを提案。620台のVGAカメラと31台のHDカメラが必要とする。
state-of-the-artであるSMPLでは顔の表情を表現することは不可能だが、提案手法では可能になっている。
SMPLとトラッキングにおけるGTとのオーバーラップを計算した結果、SMPLが84.79%であるのに対し提案手法は87.74%となり、提案手法の方が高い精度を達成

コメント・リンク集

[#704]

SfSNet: Learning Shape, Reflectance and Illuminance of Faces ‘in the wild’

Soumyadip Sengupta, Angjoo Kanazawa, Carlos D. Castillo, ; David Jacobs

CVPR 2018 Spotlight

Kazuki Inoue

概要

ラベル付き合成顔画像とin-the-wildなラベルなし実顔画像のどちらもトレーニングデータとして使用することで、実顔画像からシェイプ、リフレクタンス、イルミネーションを推定してリコンストラクションをend-to-endに行うSfSNetを提案。実顔画像に十分なラベルがついているデータセットが存在しない、という問題を解決。Shape from Shading(SfS)のアイディアに基づき、低周波成分を合成顔画像から、高周波成分を実顔画像から推定する。リコンストラクションされた画像のL1ロスを取ることで、トレーニングにおける合成顔画像と実画像の橋渡しが行われる。リコンストラクションにはランバーシアンレンダリングモデルを使用する。

新規性・結果・なぜ通ったか？

ラベル付きの合成顔画像とラベルなしの実世界顔画像でトレーニングすることで、実世界顔画像の法線、アルベド、シェーディングを推定しインバースレンダリングを行うSfSNetを提案。
インバースレンダリングによってリコンストラクションされた画像のロスを取ることで、合成顔画像と実世界顔画像の橋渡しを実現。
インバースレンダリングの見た目がstate-of-the-artよりも良い結果となった。
法線・シェーディングの推定精度が、法線・シェーディング単体をそれぞれ推定するstate-of-the-artよりも良い結果となった。

コメント・リンク集

画像をリコンストラクションする際によく使われるU-NetではなくResNetを使った理由についても議論されている。
論文
Project Page
GitHub

[#705]

Who's Better? Who's Best? Pairwise Deep Ranking for Skill Determination

Hazel Doughty, Dima Damen and Walterio Mayol-Cuevas

CVPR 2018

概要

2つの動画から、手術や絵を描くなどの技能がどちらが上かを予測する手法の提案。入力動画をTemporal Segment Networks(リンク参照)によりいくつかのセグメントに分割し，技能評価に用いるフレームを3枚選択する。技能評価の学習は、2つの動画のどちらが技能が上か、2つの動画の技能が同じであるとき同じであると判定できるかの2つの尺度をロスとして行う。技能を表すスコアは、Two Stream CNN(リンク参照)によって空間と時間それぞれについてスコアを取得する。

Item3Image

新規性・結果・なぜ通ったか？

手術、ピザ生地をこねる、絵を描く、箸を使うの4つの技能を撮影したデータセットにより実験を行った。そのうち絵を描く、箸を使うは新たにデータセットを構築した。全てのタスクで70%以上の精度を達成し、箸を使う以外のタスクではベースラインと比べ精度が向上した。

コメント・リンク集

[#706]

2018.5.22 17:48:35

LiteFlowNet: A Lightweight Convolutional Neural Network for Optical Flow Estimation

T. Hui et al.,

CVPR 2018

Kensho Hara

概要

FlowNet2よりも，性能が良く，モデルサイズが小さく，高速に動作するOptical Flow推定手法を提案． FlowNet2（Feature Warping, Correlation）は性能が良いけどモデルサイズが大きい， SPyNet（ピラミッド構造を採用）はモデルが小さいけど性能はあまり良くない，ということで，提案手法は両者の良いところを合わせることをしている． 2フレームを入力として，各フレームをCNNに入れてピラミッド構造の特徴表現を得る．一番解像度の低いところから順にFlow推定を繰り返していって洗練化していく．各Flow推定では軽量な2つのモデルをカスケードさせたりして2フレーム間の大きな移動にも対応しながら，軽量かつ高速な推定を実現．

LiteFlowNet_A_Lightweight_Convolutional_Neural_Network_for_Optical_Flow_Estimation.png

新規性・結果・なぜ通ったか？

軽量な2つのネットワークをカスケードさせて使うCascaded flow inferenceの提案
CNNベースのFlow推定にFlow Regularizationを導入
高性能，省メモリ，高速な推定を実現

コメント・リンク集

論文 (arXiv)
プロジェクトページ
コード (GitHub)
カスケード構造が複雑でなぜこれが良いのか少し納得しにくい
実験は各コンポーネントのON/OFFで性能比較がわかりやすい

[#707]

2018.5.8 12:00:18

Person Transfer GAN to Bridge Domain Gap for Person Re-Identification

Longhui Wei, Shiliang Zhang, Wen Gao and Qi Tian

CVPR2018

Yuta Matsuzaki

概要

Person Re-identification (ReID)のパフォーマンスは大きく向上したが，複雑なシーンや照明の変化、視点や姿勢の変化といった問題の調査は未だなされていない．本稿ではこれらの問題に関する調査を行った．このためにMulti-Scene MultiTime person ReID dataset (MSMT17)を構築した．またドメインギャップがデータ間に存在するため，このドメインギャップを埋めるためのPerson Transfer Generative Adversarial Network (PTGAN)を提案した．実験ではPTGANによってドメインギャップを実質的に狭められることを示した．

新規性・結果・なぜ通ったか？

ReIDを行う際の現実的な問題について網羅的に調査
新たなReIDデータセットMSMT17を構築
データ間のドメインギャップを埋めるPTGANを提案

コメント・リンク集

論文

[#708]

2018.5.22 17:09:22

Zero-Shot Sketch-Image Hashing

Yuming Shen, Li Liu, Fumin Shen and Ling Shao

CVPR2018

Yuta Matsuzaki

概要

大規模スケッチベース画像検索において，既存の手法では学習中にカテゴリの存在しないスケッチクエリがある場合失敗するという問題がある．本稿ではそのような問題を解決するZero-shot Sketch-image Hashing(ZSIH)モデルを提案した．2つのバイナリエンコーダとデータ間の関係を強化する計3つのネットワークで構成される．重要な点として，Zero-shot検索での意味的な表現を再構成する際に生成的ハッシングスキームを定式化する点である．Zero-shotハッシュ処理を行う初のモデルであり，関連する研究と比較しても著しく精度が向上した．

新規性・結果・なぜ通ったか？

スケッチイメージハッシングの研究において初のZero-shot
意味的な表現を再構成する際に生成的ハッシングスキームを定式化

コメント・リンク集

論文

[#709]

2018.5.22 16:03:53

Lions and Tigers and Bears: Capturing Non-Rigid, 3D, Articulated Shape from Images

Silvia Zuffi, Angjoo Kanazawa and Michael J. Black

CVPR 2018

Yuta Matsuzaki

概要

3Dスキャンは人間をキャプチャするために設計されており，自然環境での使用や野生動物のスキャンおよびモデリングには不向きという問題がある．この問題を解決する方法として，画像から3Dの形状を取得する方法を提案した．SMALモデルを画像内の動物にフィット，形状が一致するようにモデルの形状を変形(SMALR)，さらに複数の画像においても整合性がとれるよう姿勢を変形させ、詳細な形状を復元する．本手法は，従来の手法に比べ大幅に3D形状を詳細に抽出することを可能にするだけでなく，正確なテクスチャマップを抽出し，絶滅した動物といった新しい種についてもモデル化できることを可能にした．

Item3Image

新規性・結果・なぜ通ったか？

3Dスキャンが困難な動物のモデルを構築する方法を提案
SMALモデルを基として形状を変形させることで，より詳細な3D復元が可能
上記手法により，一貫したテクスチャマップの抽出が可能

コメント・リンク集

論文

[#710]

2018.5.22 15:06:58

DOTA: A Large-scale Dataset for Object Detection in Aerial Images

Gui-Song Xia, Xiang Bai, Jian Ding, Zhen Zhu, Serge Belongie, Jiebo Luo, Mihai Datcu, Marcello Pelillo, Liangpei Zhang

CVPR2018

Tetsuya Narita

概要

俯瞰画像から物体検出するためのデータセットを提案．従来のデータセットのものよりも小さい物体が多いデータセットである．各画像は4000×4000ピクセルであり，さまざまな大きさ，向き，形状を示す物体を含む．データセットは15カテゴリに分類されており，188282のインスタンスを含み，それぞれは任意の四角形でラベリングされている．人工衛星での物体検出の基礎構築のために，DOTA上の最先端の物体検出アルゴリズムを評価した．

新規性・結果・なぜ通ったか？

俯瞰画像データセット内のインスタンスは小さいものの割合が高く，細かいものも検出可能人工衛星による物体検出に応用が利く可能性を示唆．

コメント・リンク集

論文

[#711]

2018.5.21 18:34:11

Illuminant Spectra-based Source Separation Using Flash Photography

Zhuo Hui, Kalyan Sunkavalli, Sunil Hadap, and Aswin C. Sankaranarayanan

CVPR2018

752

Kouyou OTSU

概要

フラッシュを当てた状態の写真とそうでない写真の2種類を利用して，画像を光源の違いに基づく構成画像へと自動的に分離するアルゴリズムの提案．2つの写真の色情報の違いに基づき，光源に対応するスペクトルや陰影との関係を見出す．従来手法と比較して，光の色合いや陰影を忠実に反映した低ノイズでの分離が可能であることを示した(従来手法(Hsu et.al.)でのSNR:10.13dB 提案手法でのSNR 20.43dB)．また，提案手法が画像のライティングの編集，カラー測光ステレオに有用であることを示した．

Item3Image

新規性・結果・なぜ通ったか？

光源分離にカメラのフラッシュを利用（手軽）
従来手法を上回る性能．

リンク集

[#712]

2018.5.21 20:53:52

Multi-Label Zero-Shot Learning with Structured Knowledge Graphs

Chung-Wei Lee, Wei Fang, Chih-Kuan Yeh, Yu-Chiang Frank Wang

CVPR 2018

Shusuke Shigenaka

概要

この論文は,各々の入力インスタンスに対して,複数の見えないクラスラベルを予測できるmulti-label learning及びmulti-label zero-shot learning(ML-ZSL)の新しい深層学習の提案した研究．提案手法は複数のラベル間で人間が関心を持つsemantic knowledgeをグラフの中に組み込むことにより, 情報伝播メカニズムを学習し見えているクラスと見えないクラスの間の相互依存関係をモデル化することに適用できる．本手法はstate-of-the-artと比較して,同等または改善されたパフォーマンスとして達成をすることができる．

171106526

新規性・結果・なぜ通ったか？

・見た目だけでなく,経験を通して学んだ知識を使って物体を認識・WordNetから観察された知識グラフをend-to-endの学習フレームワークに組み込み,意味空間に電番されるラベル表現と情報を学習・NUS-81およびMS-COCOの結果をWSABIE,WARP,Fast0Tag,Logisticsと比べたところ精度について一番高い結果を残した．・ML-ZSLについてもFast0Tagと比べて高い精度を残している．

リンク集

論文

[#713]

2018.5.22 14:28:22

Wasserstein Introspective Neural Networks

Luan Tran, Xiaoming Liu

CVPR 2018 Poster

Kazuki Inoue

概要

generatorとdiscriminatorを一つのモデルで表現するIntrospective Neural Network(INN)に対してwasserstein distanceを導入することで、INNと同等の生成能力・識別能力を保ちつつclassifierにおけるCNNの数を20分の1にしたWasserstein INN(WINN)を提案。生成された画像の比較はDCGAN、INN for generative(INNg)、INNgのclassifierにおけるCNNを一つにしたINNg-singleと行った。またadversarial exampleに対して頑健な識別精度を達成した。

新規性・結果・なぜ通ったか？

INNにwasserstein distanceを導入することで、生成・識別においてINNと同等以上の性能を持ちながら識別器におけるCNNの数が20分の1であるIWNNを提案。
テクスチャの生成やCelebA・SVHNを学習することで生成された画像はDCGANと比べてはっきりとしており質が高い。
CIFAR-10の学習によって生成された画像におけるInception scoreはDCGANの方が良い結果となった。
CNN、ReosNet、ICNと比較して、adversarial exampleに対する誤識別率が低く、 adversarial examples に惑わされずに識別を行うことが可能。

コメント・リンク集

[#714]

Nonlinear 3D Face Morphable Model

Luan Tran, Xiaoming Liu

CVPR 2018 Spotlight

Kazuki Inoue

概要

3Dスキャンデータを使用せずにin-the-wildな顔画像のみを用いてencoder-decoderによって3D Morphable Model(3DMM)を生成する手法を提案。生成された3DMMを nolinear 3DMMと呼んでいる。従来のlinear 3DMMは学習のために3Dスキャンデータが必要であり、かつPCAによって次元削減を行うため表現力に乏しいという問題点があった。提案手法ではencoderによってプロジェクション、シェイプ、テクスチャのパラメタを取得し、decoderによってシェイプ、テクスチャを推定する。また初期の学習では既存手法によって得られる3DMMのプロジェクションパラメタ、シェイプパラメタとUV空間から得られるテクスチャを擬似的なGTとすることで弱教師学習を行う。

新規性・結果・なぜ通ったか？

3Dスキャンデータを使用せずに、in-the-wildな顔画像のみを学習させることで、入力画像から3D Morphalbe Modelを生成する。
linear 3DMMと比較して、3次元形状、テクスチャの精度が高い。また見た目もGTにより近い。
顔のアラインメントにおいてstate-of-the-artよりも高い精度を達成。
3次元形状における精度はstate-of-the-artと同等であった。

コメント・リンク集

弱教師学習がどれほど影響を持つかが気になった。

[#715]

UV-GAN: Adversarial Facial UV Map Completion for Pose-invariant Face Recognition

Jiankang Deng, Shiyang Cheng, Niannan Xue, Yuxiang Zhou, Stefanos Zafeiriou

CVPR 2018 Poster

Kazuki Inoue

概要

in-the-wildな入力顔画像から得られるUVマップの補完をU-Netで行う手法を提案。入力画像に対して3D Morphalbe Modelを適用し不完全なUVマップを取得し、U-Netで補完を行うように学習を行う。 discriminatorにはUVマップ全体と顔領域の判定をさせる。またUVマップの個人性が失われないように、アイデンティティーに関するロスを取る。 1892人のUVマップをもつWildUVデータセットの構築も行った。

新規性・結果・なぜ通ったか？

in-the-wildな顔画像に対してもリアルかつ精度の高いUVマップの補完を達成。入力されるUVマップが50%欠けていても補完可能。
入力画像からUVマップと3D shapeを取得するため、入力画像を任意の顔向きに編集可能。
横向き顔画像から生成されたUVマップはPSNR, SSIMにおいて既存手法を上回る精度を達成。
frontal-profile face verificationにおいてstate-of-the-artを上回る94.05%を達成。
1892のアイデンティティーのUVマップをもつ大規模UVマップデータセットであるWildUVデータセットを公開（予定）。

コメント・リンク集

論文

[#716]

LIME: Live Intrinsic Material Estimation

A. Meka, M. Maximov, M. Zollhöfer, A. Chatterjee, H.P. Seidel, C. Richardt and Ch. Theobalt

CVPR2018

Ryota Suzuki

概要

単RGB画像で，リアルタイムに材質反射特性を推定する手法を提案し，デモシステムを作った．

構造は，主に複数のU-Netからなり，それぞれ前景セグメンテーション，スペキュラー推定，鏡面反射推定を行う．ロス関数も定義．

さらに，形状情報も使えるのなら，低・高周波光源情報の推定も可能．連続撮影時の光源情報の連続性を考慮した時系列統合の枠組みも提案．

新規性・結果・なぜ通ったか？

実用的なシチュエーション（リアルタイム，複雑な光源下，連続撮影）で利用可能であることを示している．
定性，定量評価を行い，性能の良さを示している．

コメント・リンク集

デモビデオを作り慣れているように見えるあたり，CG勢と思われる．デモも結構評価されているだろうか．アプリケーション枠で評価されるように書いているかもしれない．

[#717]

2018.5.21 21:08:44

Fast End-to-End Trainable Guided Filter

H. Wu, S. Zheng, J. Zhang, K. Huang

CVPR2018

Ryota Suzuki

概要

低解像度＋高解像ガイダンスマップを与えると，高解像度画像を効率的（省計算時間，省メモリ）に出力できるGuided Filtering Layerなるものを提案．

GuidedFilterは，空間的に変化する線形変換行列のグループとして表現でき， CNNに統合可能．つまり，end-to-endで最適化可能な深層ガイデッドフィルタネットワークを構成できる．

新規性・結果・なぜ通ったか？

Context Aggregation NetworkにGuided Filtering Layerを載せたものを、5つの先進的な画像処理タスクで試したところ，10～100倍高速であり，SoTA性能も出た．

コメント・リンク集

かなり省コストになっている．DNN導入可能にするように（エレガントに）定式化し，コストダウンしつつ深層学習できるようにする手法がいくつか見られている．

[#718]

2018.5.21 20:01:20

Guide Me: Interacting with Deep Networks

Christian Rupprecht, Iro Laina, Nassir Navab, Gregory D. Hager and Federico Tombari

CVPR 2018

概要

CNNにより学習したタスクの出力結果に対して、人間がヒント(例：画像中に空は見えない)を与えていくことで精度向上を図る研究。CNNモデルをheadとtailの2つのパートに分割し、headから得られた特徴マップをヒントによって修正していくことで精度の向上を実現する。その際、ネットワークの重みを更新するのではなく修正に用いるパラメータを言語情報から推測することで行う。ネットワークの予測結果とground truthの差分を取り、正しく予測できていない物体の種類や位置を推定することで学習に用いる文章は自動で生成する。

Item3Image

新規性・結果・なぜ通ったか？

セマンティックセグメンテーションにより実験を実施したところ、クラス間違い、物体の一部が欠けている、物体の一部のみが見えるといったケースにおいて精度が向上することを確認した。ヒントを繰り返し与えていくことはノイズとなってしまうためあまり精度が向上しなかった。従来のディープラーニングは一度学習をしてしまうと得られる出力が固定されてしまうのに対して、人間が介入することで結果を変えるという新しい応用方法を提案している。

コメント・リンク集

論文

[#719]

2018.5.21 16:15:43

Deep Face Detector Adaptation without Negative Transfer or Catastrophic Forgetting

Muhammad Abdullah Jamal, Haoxiang Li, Boqing Gong

CVPR 2018 Poster

Kazuki Inoue

概要

顔検出におけるターゲットドメインからソースドメインへのadaptationを、negative transferとcatastrophic forgettingの両方を引き起こさずに行う手法を提案。negative transferとはターゲットドメインに対する検出精度がadaptation後よりも前の方が良い場合を指しし、catastorophic forgettingとはadaption後におけるソースドメインの検出精度が著しく下がることを指す。提案手法では、ソースドメインとターゲットドメインの違いを、ロス関数とDNNの重みの差分で表現し、この差分がなくなるように学習を行う手法を提案。またターゲットドメインにface or notのラベルがないという状況も考えて教師あり学習だけでなく教師なし学習、半教師あり学習の結果についても議論を行った。

新規性・結果・なぜ通ったか？

ソースドメインとターゲットドメインの違いを、DNNのロス関数・重みの差分で表現することでadaptationを行った。
実験は、CascadeCNN+AFLW(25000 faces), Faster-R CNN+WIDER FACE dataset(393,703 faces, highly labeled)の2つのモデルでソースドメインの学習を行い、ターゲットドメインははFDDB(5171 labeled faces)、COFWで行った。
検出結果はターゲットドメインのみを学習した検出器、ソースドメインからターゲットドメインへfine tuningされた検出器、domain adaptaionを行うstate-of-the-artと比較を行った。提案手法はターゲットドメインにおける検出においてもっとも高い精度を達成。またソースドメインにおける検出においてもターゲットドメインのみを学習した識別器と同等の精度を達成。

コメント・リンク集

adaptationというより、もはやトレーニングデータセットの事後拡張となっており、後でトレーニングデータを追加したくなった時に有用なのではないだろうか。
論文
Supplementary

[#720]

Extreme 3D Face Reconstruction: Looking Past Occlusions

Anh Tuấn Trần, Tal Hassner, Iacopo Masi, Eran Paz, Yuval Nirkin, Gérard Medioni

CVPR 2018 Poster

Kazuki Inoue

概要s

入力顔画像からバンプマップや視点を推定することで、入力画像からは見えていない側面や、強いオクルージョンがある顔画像からも精度の高い三次元形状を取得する手法を提案。入力画像から帯域的な情報として三次元の大まかな形と、局所的な情報としてしわなどのディティールを表現するバンプマップを別々のDNNモデルを使って取得する。続いてオクルージョンがある場合には、バンプマップが不自然な起伏を持つため深層学習による修正を行う。最後に顔の対称性を利用して、入力画像からは見えていない側面などをルールベースで復元する。

新規性・結果・なぜ通ったか？

入力画像から3Dモデル全体を一気に復元するのではなく、帯域的な特徴と局所的な情報を分けて取り扱うことで精度の高い三次元復元を可能にした。
結果の評価は復元された三次元形状による個人認証の精度で行っている。画像にオクルージョンがない場合にはstate-of-the-artよりも高い精度を達成。オクルージョンがある場合でも、オクルージョンがない場合よりと比べて2%ほどしか劣らなかった。(state-of-the-artはそもそもオクルージョンを考慮できない。)
復元された三次元形状は、既存手法がオクルージョンを考慮することができなかったりシワなどの復元ができていないのに対して、提案手法ではオクルージョンがある場合でもシワなどの詳細な情報を復元できている。

コメント・リンク集

帯域的な顔形状の復元やバンプマップの修正などを既存手法に頼っているものの、復元された三次元形状は既存手法に比べて圧倒的なクオリティを持つ。しかし形状自体のGTとの比較がなかったのが残念。
論文
GitHub

[#721]

InverseFaceNet: Deep Monocular Inverse Face Rendering

Hyeongwoo Kim, Michael Zollhöfer, Ayush Tewari, Justus Thies, Christian Richardt, Christian Theobalt

CVPR 2018 Poster

Kazuki Inoue

概要

実世界の3D顔モデルを使用せず合成された3DモデルのみでCNNをトレーニングすることで、実世界の顔画像から顔向き、形、表情、リフレクタンス、イルミネーションの3D復元を行う手法を提案。 CNNをトレーニング際の問題点として、実世界の3D顔モデルに対するアノテーションが足りないという問題があった。これに対して、実世界の顔画像から推定されるパラメタと合成顔から推定されるパラメタに対してself-supervised bootstrappingを行うことで、トレーニングに使用する合成顔3Dモデルのパラメタの分布を実世界のパラメタの分布に近づくようにトレーニングデータを逐次的に更新を行うことで、 CNNの学習を行った。

新規性・結果・なぜ通ったか？

self-supervised bootstrappingを使用することで、実世界のパラメータを再現するように合成顔のデータセットを再構築することで、データセットがないという問題に取り組んだ。
既存の学習ベースの手法に比べて、ジオメトリーにおいて最も高い精度を達成。
最適化ベースの手法に比べると、パーツのディティールやシワの再現の精度が悪い。
リミテーションとして、データセットにない顔向きや髪によるオクルージョンを考量することができない。

コメント・リンク集

異なるドメインを使ったトレーニングの方法として、GANを使ってcross domainの分布を近づける方法が提案されているなど、トレーニングデータ不足を解決する方法が提案されてきている。
論文
Supplementary

[#722]

Towards Pose Invariant Face Recognition in the Wild

Jian Zhao, Yu Cheng, Yan Xu, Lin Xiong, Jianshu Li, Fang Zhao

CVPR 2018 Poster

Kazuki Inoue

概要

様々な照明環境、表情をした横向き顔画像を入力として、正面顔画像を生成することで高い個人認証率を達成するGANベースのPose Invariant Model(PIM)というネットワークを提案。学習で使用できるトレーニングデータが少ないため、効率的かつ過学習を防ぐために以下のようにPIMを構築。

顔全体を生成するgeneratorと両目・鼻・口の4つのパーツを生成するgeneratorを用意。

4つのパーツが検出された画像と取得できない画像(横顔画像など)を異なるドメインの画像とみなして、cross-domain adversarial trainingを行うことで、両目・鼻・口を復元。

上記のGANを２セット用意し、discriminator同士でlearning to learnを行うことで効率的な学習を行った。

新規性・結果・なぜ通ったか？

2つのGANをもつTP-GANやDR-GANは最適化が困難で合ったが、これに対してlearning-to-learnを導入することでこの問題を解決。
MultiPIE、CFPデータセットにおいて様々な角度の顔画像に対する個人識別においてほぼ全てのケースにおいてstate-of-the-artよりも優れた精度を達成。(唯一Multi-PIEで顔向きが±30°の場合にTP-GANに劣った。)
横向き顔画像から生成される正面顔画像において、既存手法ではテクスチャが崩れていたり完全に正面を向いていない場合があったが、提案手法では見た目が良い正面顔画像を生成。

コメント・リンク集

データセットが少ないという根本的な問題に対して、cross-domain adversarial training、learing to learnを行うことで解決しているが、これがデータベースが欠乏している他の問題設定でも解決できるのかを試してみたい。
論文

[#723]

Ring loss: Convex Feature Normalization for Face Recognition

Yutong Zheng, Dipan K. Pal and Marios Savvides

CVPR 2018 Poster

Kazuki Inoue

概要

DNNによって得られた特徴量を超球面上に配置するように正規化を行うロス関数であるRing lossを提案。特に教師あり識別問題においてはDNNによる特徴量を正規化することでより精度の高いモデルを構築することができる、というアイディアもとにRing lossを提案。 SoftMaxといった基本的なロス関数と組み合わせることでより高い精度を達成。実験には様々な識別タスクを行うことができる顔データセットを用いることで、精度の向上を確認した。

新規性・結果・なぜ通ったか？

SoftMaxとSphereFaceにRing lossを組み合わせることでLFW, IJB-A Janus, Janus CS3, CFP, MegaFaceデータセットにおけるface verification, identificationにおいて他のロス関数と同等あるいはそれ以上の精度を達成。
極端に低解像度の画像におけるface matchingにおいてベースラインの手法を凌駕した。
実験ではResNet64を使用。

コメント・リンク集

論文

[#724]

Label Denoising Adversarial Network (LDAN) for Inverse Lighting of Faces

Hao Zhou, Jin Sun, Yaser Yacoob, David W. Jacobs

CVPR 2018 Spotlight

Kazuki Inoue

概要

3Dモデルから実画像へのドメイン変換をGANによって行うことで、単一顔画像から照明パラメタを推定するLabel Denoising Adversarial Network(LDAN)を提案。人の顔画像に対して照明パラメタ(論文で使用されているのは37次元の球面調和関数)がアノテーションされたデータセットがないため、 3Dモデルを使用してFeature Netと呼ばれるネットワークで中間特徴量を取得し、中間特徴量からLightning Netを用いて照明パラメタの推定を学習。続いて人の顔画像に対して、既存手法を用いてノイズが乗った照明パラメタを取得し、人の顔画像に対してもFeature Netを新しく学習し、 3D モデルから得られた中間特徴量と共にGANに入力することでドメインの変換を行うことでノイズが除去された照明パラメタを取得。

新規性・結果・なぜ通ったか？

単一画像からの照明パラメタの推定という問題に対して、初めて学習ベースの手法を提案。
結果の比較は19の照明環境が用意されているMultiPieデータセットで行い、推定されたパラメータに対する識別を行うことで精度を評価。state-of-the-artに比べて識別精度およびユークリッド距離・Q値におけるAUCで最も高い精度を達成。
同問題を扱う既存手法が最適化ベースということもあり、既存手法と比べて10万倍のスピードで実行可能。

コメント・リンク集

GANを使って異なるドメインの特徴量を同じ空間にマップする考え方は既にAdversarial Discriminative Domain Adaptationによって提案されているが、異なる点としては[Eric et al.]はGANのロスしか使っていないが、この方法では写像がうまく行かず、 A→A', B→Bと学習して欲しいところをやA→B', B→A'といった写像を学習してしまう。これを解消するために、lightning netで得られたパラメータに対するL2ロスを取ることでこれを解消。
論文

[#725]

Disentangling 3D Pose in A Dendritic CNN for Unconstrained 2D Face Alignment

Amit Kumar, Rama Chellappa

CVPR 2018 Poster

Kazuki Inoue

概要

顔向きをコンディションとして与え木構造で表された顔のランドマークを学習させることで、顔のランドマーク推定を行うPose Conditioned Dendritic CNN(PCD-CNN)を提案。顔のコンディションはPoseNetにより出力された値を使用する。顔のランドマークを木構造として与えることで、ランドマークの位置関係を利用してCNNを学習させた。また提案ネットワークはPCD-CNNと通常のCNNの二段階になっており、後段のCNNをファインチューニングすることでランドマークのポイント数が違うデータセットや顔向き推定などの他のタスクにも適用可能。

新規性・結果・なぜ通ったか？

ネットワークをPCD-CNNとCNNの二段階で構成することで、異なるランドマークのポイント数や顔向き推定といった他のタスクにも適用可能。
顔向きをコンディションとして与えることで推定精度が向上。また、20FPSで実行が可能。　
AFLW, AFWデータセットにおいてランドマークの推定精度がstate-of-the-artよりも高い推定精度を達成。

コメント・リンク集

論文

[#726]

Multi-Image Semantic Matching by Mining Consistent Features

Qianqian Wang, Xiaowei Zhou and Kostas Daniilidis

CVPR2018

Kazuho Kito

概要

ノイズを考慮しつつ、数千もの画像セット全てにおいて一致する(信頼できる)特徴を見出すことで、画像間の対応を図るマッチング手法。マッチングはセマンティック性を考慮することができる（目と目、耳先と耳先など）これにより、一貫性がある画像セット内で信頼できる特徴の関係を確立。何千もの画像を処理する場合にスケーラブルな手法。つまりは数に頑健。

Multi-Image_Semantic_Matching_by_Mining_Consistent_Features.PNG

新規性・結果・なぜ通ったか？

従来手法では、全てのペアで対応する関係を最適化していたが、本手法では、特徴の選択とラベリングに着目し、信頼度の高い特徴のみを用いた疎なセットのみで識別、マッチングする。

コメント・リンク集

図は中の左が出力結果であり、目は青、耳は黄色、鼻は赤など各特長の意味を理解し、マッチングを成功させている。

論文

[#727]

2018.5.21 11:27:27

Learning Intrinsic Image Decomposition from Watching the World

A. Uthors, B. Uthors and C. Uthors

CVPR2018

概要

Intrinsic Image Decompositionのために，時間経過とともに照明が変化するビデオを使ったCNNの学習方法を提案．正解の Intrinsic Imageが不要な点が強みである．学習が完了したモデルは単一画像に対して適用できるよう汎化しており，いくつかのベンチマークに対して良い結果となった．
Contribution：
・データセット（BigTime）の公開．室内，室外両方での照明変化のあるビデオと画像シーケンスのデータセット．
・このGround Truthを含まないデータを使った手法の提案．

学習時：ラベル無しで，視点が固定され照明が変化するビデオを学習に利用する．
テスト時：単一画像からintrinsic image decompositionを行う．

手法

最適化ベースのIntrinsic Decomposition手法と，機械学習手法の間に位置する手法と言える．
・U-netに似た構造のCNN．
・Lossの工夫：画像ペア全てを考慮するall-pairs weighted least squares lossとシーケンス全体のピクセル全てを考慮するdense, spatio-temporal smoothness loss．最適化ベースのlossをフィードフォワードネットワークのlossとして利用する．

コメント・リンク集

Intrinsic image decompositionとは，入力された1枚の画像をreflectance画像とshading画像の積に分解する問題のこと．
intrinsic imagesのGround Truthを大規模に揃えることは困難．

arXiv

[#728]

2018.5.21 11:26:41

Photographic Text-to-Image Synthesis with a Hierarchically-nested Adversarial Network

Zizhao Zhang, Yuanpu Xie, Lin Yang

CVPR2018

概要

階層的入れ子構造の識別器を使用し，テキストから高解像画像を生成するGANを提案．end-to-endの学習で高解像画像の統計量を直接モデルリングすることが可能な手法．これは，step-by-stepで高解像画像を生成するStackGANとは異なる点である．複数のスケールの中間層に対して階層的入れ子構造の識別器を使用することで中間サイズレベルでの表現に制約を加え，生成器が真の学習データの分布を獲得しやすくする．

手法

新しい構造と，lossの工夫でtext-to-imageのタスクで高解像画像の生成を可能とした．
・hierarchical-nested Discriminatorを使用．
・lossには，pair lossとlocal adversarial lossを使用する．pair lossでは入力テキストと生成画像が一致しているかを評価．local adversarial lossでは生成画像の細部の質を評価する．

コメント・リンク集

arXiv

[#729]

2018.5.21 11:22:05

Connecting Pixels to Privacy and Utility: Automatic Redaction of Private Information in Images

Tribhuvanesh Orekondy, Mario Fritz, Bernt Schiele

CVPR2018

概要

プライバシー保護のために画像に含まれる個人的な情報を自動的に改変する手法の提案．プライバシーを守りつつ画像の有用性を保つためのトレードオフが問題となる．有用性を保つためには改変する領域サイズが最小限である必要があり，これをセグメンテーションの問題として取り組む．

Contribution:

データセットの公開．様々な種類のプライバシーのラベルが，ピクセルレベルとインスタンスレベルで与えられている自然画像の初のデータセット．
モデルの提案．多様な個人情報を自動的に改変するモデルを提案する．正解のアノテーションに対して83％の正解率を達成した．

指紋，日時，人，顔，ナンバープレートを黒く塗りつぶせている．
他にも，住所やメールアドレスのようなテキスト情報や顔や車椅子などの視覚情報，あるいはテキストと視覚情報を合わせたものなど，多様な個人情報に対応するデータセットとモデルを提案．

手法

どのような対象(Textual, Visual, Multimodal)を扱うかで使用するモデルは異なる．
Textualな対象では，Sequence Labelingを使用する．
VisualとMultimodalな対象では，Fully convolutional instance-aware semantic segmentationを使用する．
Nearest Neighborなどのベースライン手法と比較を行なっている．

コメント・リンク集

画像全体を黒く塗ればプライバシーは保護されるが，画像の価値がなくなるので，トレードオフが存在する．
データセットを作った貢献がメイン．プライバシー保護のためのアノテーションを行ったことで，それなりの正解率で個人情報の改変を行えるようになった．

arXiv

[#730]

2018.5.21 11:17:12

Disentangling Structure and Aesthetics for Style-aware Image Completion

Andrew Gilbert, John Collomosse, Hailin Jin, and Brian Price

CVPR2018

概要

ノンパラメトリックのInapinting手法を提案．
視覚的な構造とスタイルをdeep embeddingすることで，パッチの検索と選択の際に視覚的なスタイルを考慮することが可能で，さらに，パッチのコンテンツを補完画像のスタイルに合わせるためのneural stylizationが可能となる．この手法は，patch-basedの手法とgenerativeベースの手法の架け橋的な補完手法である．
技術的貢献：
・style-aware optimization
・adaptive stylization

手法

以下の手順で画像補完を行う．
１．スタイルを考慮して穴に埋める候補を検索する
２．補完画像と構造とスタイルが合うパッチをMRFで複数集め，選択する
３．選択されたパッチを補完画像のスタイルに変換する

コメント・リンク集

論文pdf

[#731]

2018.5.21 11:09:50

DeblurGAN: Blind Motion Deblurring Using Conditional Adversarial Networks

Orest Kupyn, Volodymyr Budzan, Mykola Mykhailych, Dmytro Mishkin, Jiˇri Matas

CVPR2018

概要

motion deblurringのためのGAN(DeblurGAN)を提案．structural similarity measureとアピアランスでSoTA．ブラーを除去した画像で物体検出の精度を出すことで，ブラー除去モデルの質を評価するという方法を提案．提案手法は，質だけでなく実行速度も優れており，従来手法の５倍の速さがある．モーションブラーのかかった画像を合成するための方法を紹介し，そのデータセットもコード，モデルとともに公開．

ブレを除去してからYOLOで検出すると精度が良くなることを示している．これをDeblurモデルの指標にすることができると主張．

手法

loss：WGANによるAdversarial lossとPerceptual loss
構造：畳み込み，instance normalization層，ReLU関数から成るResBlockの繰り返しがメインで，出力するときに入力画像を加算するglobal skip connectionを持つ．

コメント・リンク集

最近のGAN手法やテクニックを詰め込んで，新しく作ったデータセットを利用したらSoTAがでたという感じ．テクニカルな貢献はあまりなさそう．

[#732]

2018.5.21 11:05:29

Learning to Understand Image Blur

Shanghang Zhang, Xiaohui Shen, Zhe Lin, Radom ́ır Meˇch, Joa ̃o P. Costeira, Jose ́ M. F. Moura

CVPR2018

概要

ボケ(blur)が望ましいのか否かと，そのボケが写真のクオリティーにどのような影響を与えているのかを，自動的に理解するアルゴリズムは少ない．この論文では，blur mapの推定とこのボケの望ましさの分類を同時に行うフレームワークを提案する．

貢献：

ボケを検出することと，画像の質という点でボケを理解することを同時に行うのは，おそらく初めての研究．ABC-FuseNetというネットワークを提案．
１万枚のデータセット（SmartBlur）の公開．ピクセルごとにボケがかかっているか３段階でラベルづけ．さらに，画像ごとにボケの望ましさ(desirability)をラベルづけ．
SmartBlurと他の公開データセットで実験を行い．blur mapの推定とボケの望ましさの分類がSoTAを超えた．

Item3Image
ボケ具合をピクセルごとに３段階で示し，ボケの望ましさも出力する．

手法

ABC-FuseNetでは，低レベルのボケの推定と高レベルの画像内で重要コンテンツの理解の二つを行う．
A: attention map，FCNである．
B: blur map，Dilated Convolutionとpyramid pooling, Boundary Refinement用の層を使ってblurの推定を行う．
C: content feature map，ResNet-50を使ってコンテンツの特徴を抽出．
ボケの推定はBによって行い，ボケの望ましさの分類はA, B, Cから得られた特徴を用いて行う．ネットワーク全体をEnd-to-endで学習することができる．

コメント・リンク集

ボケを軽減するための研究は多いが，ボケが全て邪魔とは言えない．ボケを効果的に利用することで，写真の印象が良くなることもある．いいボケなのか，悪いボケなのかの判断も必要だというモチベーションがある．

コード，データセットは以下に公開予定

[#733]

2018.5.21 10:50:21

Tags2Parts: Discovering Semantic Regions from Shape Tags

Sanjeev Muralikrishnan, Vladimir G. Kim, Siddhartha Chaudhuri

CVPR2018

概要

指定された形状のタグに強く関係する領域を検出する手法の提案．明示的に領域ごとのラベリングはなく，さらにあらかじめセグメンテーションされていない状況で，形状のタグを与えた時に領域を発見するという問題設定．難しい点は，オブジェクトのタグという弱い教師情報からポイントごとのラベルを細かく出力する必要があること．このために分類とセグメンテーションを同時に行うネットワークを使う．形状ごとのタグからポイントごとの予測を得るためのネットワーク構造（WU-net）を提案したことがメインの貢献．

学習が完了すれば，タグが不明な形状に対しても手法を適用することができる．また，元々Weakly-supervised用に提案しているが，strongly-supervised用としても利用できる手法となった．

Item3Image

手法

U-net風のWU-netを提案．U-netから修正した点は，
・浅いU型の構造を3回くりかし，skip-connectionで密に繋がっている．深いU型1回の場合との結果の違いを図示している.
・セグメンテーションの用の隠れ層にタグ分類用の層を追加．(元々のは，strongly-supervised セグメンテーション用に設計されているので．)

コメント・リンク集

３D形状としてはボクセル表現を使用．64×64×64 cubical gridを入力する．

arXiv

[#734]

2018.5.21 10:40:57

Neural 3D Mesh Renderer

Hiroharu Kato, Yoshitaka Ushiku, and Tatsuya Harada

CVPR2018

概要

ニューラルネットワークに組み込むことができる3Dメッシュのレンダラーである Neural Renderer を提案。レンダリングの『逆伝播』と呼ばれる処理をニューラルネットワークに適した形に定義し直した．そしてこのレンダラーを
・一枚の画像からの3Dメッシュの再構成（ボクセルベースの再構成との比較あり）
・画像から3Dへのスタイル転移と3D版ディープドリーム
に応用できることを示した．

2D-to-3Dスタイルトランスファーの例

方法

従来のままでレンダリングの操作が処理の途中にあると逆伝播が行えない状態であるので，レンダリングのための勾配を定義することでニューラルネットワークの中にレンダリング操作を加えても学習を行えるようにした．

コメント・リンク集

プロジェクトサイト
GitHub
３Dの形式には様々ある（ポイントクラウド，ボクセル，メッシュなど）が，3Dメッシュは効率的で表現能力が高く直感的な形式だそう．

[#735]

2018.5.21 10:28:19

Demo2Vec: Reasoning Object Affordances from Online Videos

Kuan Fang, Te-Lin Wu, Daniel Yang, Silvio Savarese and Joseph J. Lim

CVPR2018

1387

KazuhoKito

概要

商品などのデモンストレーションの映像の特徴を通してその商品などのアフォーダンスを推論する研究．映像から埋め込みベクトルを抜き出すことで，ヒートマップと行動のラベルとして特定のもののアフォーダンスを予測するDemo2Vecモデルを提案．また，YouTubeの製品レビュー動画を集め，ラベリングすることでOnline Product Review detaset for Affordande(OPRA)を構築．

Demo2Vec_Reasoning_Object_Affordances_from_Online_Videos.PNG

新規性・結果・なぜ通ったか？

アフォーダンスのヒートマップと行動のラベルの予測に関し，RNNの基準よりよいパフォーマンスを達成

コメント・リンク集

YouTubeで公開されている動画では，Demo2Vecを用いてある物体のデモ動画からSawyer robotのEnd Effectorを予測したヒートマップの地点に移動するように制御させている様子を見ることができる．

[#736]

2018.5.20 22:42:02

Probabilistic Plant Modeling via Multi-View Image-to-Image Translation

Takahiro Isokane, Fumio Okura, Ayaka Ide, Yasuyuki Matsushita, Yasushi Yagi

CVPR 2018

368

Goshi Sasaki

概要

葉に隠れていても３次元の枝構造を多視点画像から推測できるようにした。多視点からの植物画像を入力として枝構造の２次元確率マップをdropoutを取り入れたPix2Pixで推測して、それらから３次元の確率構造を作成した。最後にpartical floｗシュミレーションによって明確な３次元の枝構造を生成した。

architecture

新規性・結果・なぜ通ったか？

葉や他の枝によって隠れてしまっていても枝構造を生成できるようにした。ベイジアンPix2Pixを利用することで植物の３次元構造をより正確に表せるようにした。

コメント・リンク集

論文

[#737]

2018.5.20 20:53:44

ROAD: Reality Oriented Adaptation for Semantic Segmentation of Urban Scenes

Yuhua Chen, Wen Li, Luc Van Gool

CVPR2018

Hiroaki Aizawa

概要

synthetic-to-realな変換を行う際に、1)モデルがsyntheticにoverfitするstyleの側面と、2)syntheticとrealの分布の違いの側面から発生する2つの問題があることに著者らは着目している。解決するために、前者はtarget guided distillation、後者はspatial-aware adaptationという手法を提案し、それを組み合わせた Reality Oriented ADaptation Network(ROAD-Net)を考案。GTAV/SYNTHIA - Cityscapesの適合タスクで評価し、sotaのsemantic segmentationモデルの汎化性能を向上したことを確認。

ROAD_Reality_Oriented_Adaptation_for_Semantic_Segmentation_of_Urban_Scenes.PNG

新規性・結果・なぜ通ったか？

Semantic SegmentationへのDomain Adaptationの適用が新しい。
結果もまたNonAdaptなPSPNetからmIoUが約11.6%向上している。

コメント・リンク集

Learning to Adapt Structured Output Space for Semantic Segmentationと目的と対象が似通っている。どちらもクラス分類で得られる特徴(ImageNetで学習されたpretrain model)がsegmentationでは有効ではないという主張であり、これをもとにそれぞれmulti-scaleな手法と、distillationによる手法と異なるアプローチをとっているのが興味深い。
spatial-aware adaptationはPatchGANと似通っており同様の性質を持つ？

arxiv

[#738]

2018.5.20 19:20:29

Gated Fusion Network for Single Image Dehazing

Wenqi Ren Lin Ma, Jiawei Zhang, Jinshan Pan, Xiaochun Cao, Wei Liu, Ming-Hsuan Yang

CVPR2018

404

Kazuma Asano

概要

霧がかかった画像(hazy input)から更に３つの入力，White balanced input，Contrast enhanced input，Gamma corrected inputを計算して導出し，これらの異なる入力間の外観差に基づきピクセル単位のConfidence Mapを計算する．これらを学習することで鮮明な画像を生成するMulti-scale Gated Fusion Network(GFN)を開発した．

Item3Image

新規性・結果・なぜ通ったか？

従来手法と比較し，実装や再現が容易であり，また出力結果もPSNR，SSIMともに従来手法より高い評価となっている．

コメント・リンク集

[#739]

2018.5.14 12:31:27

AdaDepth: Unsupervised Content Congruent Adaptation for Depth Estimation

J.Nath, K.Phani, K.Uppala, A.Pahuja and R.V.Babu

CVPR2018

arXiv:1803.01599

Kota Yoshida

概要

教師あり深層学習による手法は単眼カメラ画像における深さ推定に対して良い結果を出している．しかし．grand truthを得るためにはノイズに影響され，コストもかかる．合成データセットを用いた場合の深度推定では固有のドメインにしか対応していなく，自然なシーンに対して対応するのが難しいと言われる．この問題に対応するため，Adversalな学習と対応したターゲットの明確な一貫性をかすこと事によりAdaDepthを提案．

新規性・結果・なぜ通ったか？

高次元の構造化エンコーダ表現に作用する，教師なしの敵対的適応設定AdaDepthを提案．
新規の特徴を再構成する正則化フレームワークを使用して適応表現にコンテンツ一貫性を課すことでモード崩壊の問題に取り組んだ．
最小限の教師データでの自然シーンの深度推定タスクにおいてSoTAを達成．

コメント・リンク集

Paper

[#740]

2018.5.20 15:52:52

End-to-end learning of keypoint detector and descriptor for pose invariant 3D matching

Georgios Georgakis, Srikrishna Karanam,Ziyan Wu,Jan Ernst,Jana Kosecka

CVPR 2018

227

Goshi Sasaki

概要

End-to-Endで3次元空間における特徴点の抽出とマッチングを行う手法を提案した。2つの距離画像を入力とし、VGG-16 を利用したFaster R-CNNを基本構造としている。２つの距離画像からそれぞれVGG−16を利用して特徴マップを作成し、RPNにより領域候補を推定して、ROIプーリング層、全結合層を経て特徴量ベクトルを作り出す。最終的にcontrastive lossを利用して得られた特徴量間の対応関係を求めた。

architecture

新規性・結果・なぜ通ったか？

初めてEnd-to-Endで3次元マッチングを行えるようにした。ノイズ環境下においてキーポイントマッチングで従来手法のHarris3D +FPFHなどよりも10％以上高い精度を出した。

コメント・リンク集

論文

[#741]

AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks

Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, Xiaodong He

CVPR2018

概要

アテンションドリブン，複数ステージでのRefineによって，テキストから詳細な画像を生成するGANを提案．CUBデータセットとCOCOデータセットでinception scoreがstate of the artを超えた．生成画像の特定の位置をワードレベルで条件付けしていることを示した．

貢献：
・Attentional Generative Adversarial NetworkとDeep Attentional Multimodal Similarity Model(DAMSM)の提案．
・実験でstate-of-the-art GAN modelsを超えたことを示す．
・ワードレベルで自動的に生成画像の一部をアテンションするのは初である．

Item3Image

手法

・Attentional Generative Networkはセンテンスの特徴から始めて段階的に画像を高精細にしていくネットワークで，途中にアテンションレイヤーからのワード特徴を入力して条件付けする．
・各解像度に対してそれぞれDiscriminatorがある．
・最終的な解像度になったあと，Image Encoderにて局所的な画像特徴量とし，ワード特徴量とDAMSMにて比較することで，生成画像の細部がどれくらい単語に忠実であるか評価する．

コメント・リンク集

・StackGANの著者も共著にいる．
・アテンションにより生成箇所を局所に向けることで，COCOのような複雑なシーンでも対応できるようになっている．

arXiv

[#742]

2018.5.19 13:50:16

From source to target and back: Symmetric Bi-Directional Adaptive GAN

Paolo Russo, Fabio M. Carlucci, Tatiana Tommasi and Barbara Caputo

概要

SBADA-GANの提案．（Symmetric Bi-Directional ADAptive Generative Adversarial Network）
unsupervised cross domain classificationにフォーカス.
ラベルが与えられるSourceのサンプルを利用して，最終的にはTargetの分類問題を解く．SourceのサンプルをTargetのドメインに(Image-to-Imageの)マッピングをし，同時に逆方向も行う．分類器の学習に利用するのは，Sourceサンプル，TargetをSource風にしたもの，SourceをTarget風にしてさらにSource風に戻した３種類を使う．それぞれにラベルもしくは擬似ラベルを付与して学習する．テスト時はTargetサンプルのクラスを予測したいので，Target用の分類器と，TargetサンプルをSource風にしてから入力するSource用の分類器の２つを使用する．

Item3Image

手法

セルフラベリングの使用．Source用の分類器に制約を課す
class consistency lossの導入．Generatorとともに利用することで両方向のドメイン変換がお互いに影響し合うようになる．安定性と質向上の効果．最終的な目標である分類問題を解くことに有効．
例えばSource側のDiscriminatorは，RealサンプルとしてSource画像を使い，FakeサンプルとしてTarget画像をSource画像風にGeneratorでドメイン変換した画像を使う．
（問題設定的に）Source側の分類器にはクラスラベルによる学習ができる．
SourceとTargetの双方向のサンプル生成のための二つadversarial lossと，二つのclassification lossを同時に最小化する．

コメント・リンク集

arXiv

[#743]

2018.5.19 14:15:18

Deep Photo Enhancer: Unpaired Learning for Image Enhancement from Photographs with GANs

Yu-Sheng Chen, Yu-Ching Wang, Man-Hsin Kao, Yung-Yu Chuang

CVPR2018

概要

学習ベースで画像のエンハンスメントを行う手法の提案．入力として「良い」写真のセットを使う．このセットに含まれる特色を持つように変換することが「エンハンスメント」に繋がると定義する．エンハンスメント問題をimage-to-imageの問題として扱い，提案手法は「良い」写真のセットの中で共通の特色を発見することを狙っている．普通の写真のドメインを「良い」写真のドメインに変換すれば良いとし，（CycleGANのような）２方向GANを以下の３つの工夫とともに利用する．

Contribution

global featureを使ったU-netの利用．これがシーンの状況，照明条件，対象のタイプの情報を捉える．
WGANのためのadaptive weighting schemeを提案．収束を早める．
individual batch normalization layersの利用．Generatorは入力データの分布により適応するようになる．

コメント・リンク集

Flickerのレタッチされた写真を利用するなどしている．
Adobeがプロ写真家一人一人のレタッチ方法を再現するという機能を実装するのも近いかもしれない．
ハイダイナミックレンジの写真にしたらエンハンスされていると思っている節がある．
論文

[#744]

2018.5.19 13:33:54

A Generative Adversarial Approach for Zero-Shot Learning from Noisy Texts

Yizhe Zhu, Mohamed Elhoseiny, Bingchen Liu, and Ahmed Elgammal

CVPR2018

概要

Wikipediaのようにノイズの多いテキストからzero-shot learningを行うためのGAN用いる方法を提案．GANを使ってテキストが表現するオブジェクトのビジュアル的な特徴を生成する．オブジェクトのクラスごとに特徴を近い位置にembeddingできれば良い．これができれば後は教師あり手法で分類を行えることになる.
コントリビューション：

zero-shot learningにおいてUnseenであるクラスのテキスト記述からvisual featureを生成することで，zero-shot learningを従来の分類問題にしてしまう．generative adversarial approach for ZSL (GAZSL) ．
ノイズを抑制するためのFC層と埋め込み後のクラス識別性を高めるvisual pivot regularizationの提案．
zero-shot recognition, generalized zero-shot learning, and zero-shot retrievalという複数のタスクでstate-of-the-art手法を超えた．

左上段がFakeデータを作るストリーム．左下段がRealデータを作るストリーム．

手法

Unseenクラスについてのノイズを含むテキスト記述を入力とし，このクラスのvisual featureを生成するGANを提案．テキストから生成されるvisual featureをFakeデータとし，真の画像から得られるvisual featureをRealデータとしてGANを学習．

テキストのembedding後，FC層で次元圧縮をし，ノイズの影響を軽減．
生成された特徴のクラス間の識別性を保存するために, visual pivot regularizationを利用．Generatorの更新に利用．
Realデータとして真の画像からvisual feature得る際にはVGGを利用．

コメント・リンク集

arXiv

[#745]

2018.5.19 13:28:25

MoCoGAN: Decomposing Motion and Content for Video Generation

Sergey Tulyakov, Ming-Yu Liu, Xiaodong Yang, Jan Kautz

CVPR2018

概要

教師不要でコンテンツとモーションという要素に分解し，ビデオを生成するGANを提案．コンテンツを固定しモーションのみ変化させることや，逆も可能．広範囲の実験を行い，量と質ともにSoTAであることを確認．人の服装とモーションの分離や，顔のアイデンティティーと表情の分離が可能であることを示している．

Contribution:・ノイズからビデオを生成する，条件なしでのビデオ生成GANの提案．・従来手法では不可能である，コンテンツとモーションのコントロールが可能なこと・従来のSoTA手法との比較

手法

GAN．
ランダムベクトルのシーケンスをビデオフレームのシーケンスにマッピングするGenerator．ランダムベクトルの一部はコンテンツ，もう一部はモーションを指定するもの．
コンテンツの部分空間はガウス分布でモデル化．モーションの部分空間はRNNでモデル化．
Generatorは一つのフレーム分をベクトルからフレームにマップする働きだけなので，モーションを決めるのは連続するベクトルを生成するRNN部分となる．
1枚のフレームを入力とするDiscriminatorと連続した数フレームを入力とするDiscriminatorを使うGAN構造を新たに提案．

コメント・リンク集

ビデオはコンテンツとモーションに分けられるという前提（prior）からスタート
arXiv

[#746]

2018.5.19 13:08:06

Finding “It”: Weakly-Supervised Reference-Aware Visual Grounding in Instructional Videos

De-An Huang, Shyamal Buch, Lucio Dery, Animesh Garg, Li Fei-Fei, Juan Carlos Niebles

CVPR 2018

概要

言語的な文脈の中で指示語からそれが何であるかを特定する問題（Visual Grounding; 「それを取ってください」の「それ」を動画中から探索するなど）を扱う論文である。この問題に対してMIL（Multiple Instance Learning）を参考にした弱教師付き学習であるReference-aware MIL（RA-MIL）を用いて解決する。

180518VisualGrounding

新規性・結果・なぜ通ったか？

画像に対するVisual Groundingが空間的な関係性を捉えるのに対して、Visual Groundingは時間的な関係性を捉える課題である。YouCookII/RoboWatch datasetにて処理を行った結果、弱教師付き学習であるRA-MILを適用するとVisual Groundingに対して精度向上することを明らかにした。

コメント・リンク集

Language and Visionの課題はすでに動画にまで及んでいる。Visual Groundingのみならず、新規問題設定を試みた論文として精読してもよいかも？それと視覚と言語のサーベイ論文は読んでみたい

[#747]

2018.5.18 16:30:52

Practical Block-wise Neural Network Architecture Generation

Zhao Zhong, Junjie Yan, Wei Wu, Jing Shao, Cheng-Lin Liu

CVPR 2018

概要

ブロック単位でのアーキテクチャ生成手法であるBlockQNNを提案。Q学習（Q-Learning）を参考にして高精度なニューラルネットを探索的（ここではEpsilon-Greedy Exploration Strategyと呼称）に生成する。基本的には生成したブロックを積み上げることによりアーキテクチャを生成するが、早期棄却の枠組みも設けることで探索を効率化している。

180517BlockQNN

新規性・結果・なぜ通ったか？

ブロック単位でニューラルネットのアーキテクチャを探索するBlockQNNを提案した。同枠組みはHand-craftedなアーキテクチャに近い精度を出しており（CIFAR-10のtop-1エラー率で3.54）、探索空間を削減（32GPUを3日間使用するのみ！）、さらに生成した構造はCIFARのみならずImageNetでも同様に高精度を出すことを明らかにした。ネットワーク構造の探索問題においてブロックに着目し、性能を向上させると同時に同様の枠組みを複数のデータセットにて成功させる枠組みを提案したことが、CVPRに採択された基準である。

コメント・リンク集

ここから数年で、practicalなGPU数（8GPUや4GPUなど）、1日以内の探索で解決するようになると予想される（し、してくれないと一般の研究者/企業が参入できない）。

論文

論文

[#751]

2018.5.17 11:20:46

Direct Shape Regression Networks for End-to-End Face Alignment

X. Miao, X. Zhen, V. Athitsos, X. Liu, C. Deng and H. Huang

CVPR2018

Ryota Suzuki

概要

顔のアライメントにおいて，Direct shape regression networkを提案．いくつかの新しい構造を組み合わせている．(1)二重Conv， (2)フーリエ特徴プーリング， (3)線形低ランク学習．顔画像-顔形状間の高い非線形関係性（初期化への強い依存性，ランドマーク相関導出の失敗）の問題を解決する．

新規性・結果・なぜ通ったか？

複数の新しい構造の定義
いくつかのケースでSoTAを超える性能．

コメント・リンク集

論文

[#752]

2018.5.18 11:57:02

Scale-recurrent Network for Deep Image Deblurring

X. Tao, H. Gao, Y. Wang, X. Shen, J. Wang, J. Jia

CVPR2018

Ryota Suzuki

概要

coarse-to-filneに単画像デブラーリングする，Scale-recurrent Network (SRN-DeblurNet)を提案．

構造的には，(1)入出力がピラミッド画像， (2)中間はUnet， (3)最終層の出力を第1層に注入（Recurrent）し，ピラミッド画像の枚数分実行．

新規性・結果・なぜ通ったか？

シンプルでパラメータ数が少ない．
SoTAを超える性能．例もすごいきれいになっているように見える．

コメント・リンク集

見た目明らかにきれいになっていると，やはり評価したくなる．

arXiv

[#753]

2018.5.18 11:02:11

Convolutional Neural Networks with Alternately Updated Clique

Yibo Yang et al.,

CVPR 2018

Tomoyuki Suzuki

概要

従来のCNNの構造では基本的に決められた方向へのみのforwardを行うのに対して、すべてのレイヤー間で結合を持つClique blockで構成されるClique Netの提案。CIFAR-10でSoTA、その他ImangeNetやSVHNでも少ないパラメータでSoTAに匹敵する精度を記録。

Convolutional_Neural_Networks_with_Alternately_Updated_Clique.png

手法・なぜ通ったか？

Clique blockでは以下のような処理が行われる。

畳み込み層によってすべての層を共通の特徴マップで初期化。
ある層に対して、他のすべての層から畳み込み結合した値で更新。これを各層に対して順次行い、すべての層で更新したら1つのStageが終了。
上記を決められたStage数行う。畳み込み結合の重みはStage間で共有する。

DenseNetの拡張に近い構造のため妥当性があり、実際に精度が出ている点が強い。

コメント・リンク集

論文

[#754]

Geometry Guided Convolutional Neural Networks for Self-Supervised Video Representation Learning

Chuang Gan et al.,

CVPR 2018

Tomoyuki Suzuki

概要

合成画像のペア間のフローと教師ラベルのない実画像のペア間のデプスを推定することによってシーン認識、行動認識のための表現学習を行う研究。フロー推定を行ったのち、デプス推定にfine-tuningし、さらに目的となるタスクにfine-tuningする。直感的には、低レベルな特徴が獲得されそうだが、行動認識などの高次な問題設定でも効果を発揮した。

Geometry_Guided_Convolutional_Neural_Networks_for_Self_Supervised_Video_Representation_Learning.png

手法・なぜ通ったか？

多段にfine-tuningするため、初期の問題設定によって獲得した特徴が失われてしまう可能性があるので、２段目のfine-tuning時にはfine-tuning前の出力結果への蒸留を同時に行う。ImageNetのpretrainingとも行動認識において補間的な関係がある。表現学習自体での使用データが少ないのに関わらず高い精度向上が実験的に示されたことが大きなcontributionだと考えられる。

コメント・リンク集

特徴のforgetを防ぐ手法は、複数のタスクで学習済みモデルを作成する際に、その順番が重要となるような状況で有用だと思われる。既存手法との比較においては今回は+αのデータを利用している点はフェアではないと感じた。また、目的のタスクへのfine-tuningの際のフレームペアの選び方などの詳細な設定が記されていなかった。主に精度評価のみで、高次なタスクでうまくいく考察が少なく、疑問もあった。

論文

[#755]

Learning to Compare: Relation Network for Few-Shot Learning

F. Sung, Y. Yang, L. Zhang, T. Xiang, P.H.S. Torr, T.M. Hospedales

CVPR2018

Ryota Suzuki

概要

メタ学習を用いたFew-shot learningの新しい枠組み，Relation Networkの提案．一度学習されれば，ネットワークのアップデートの必要なしに新しいクラスの画像分類ができるようになる．

1エピソードにおける少数の画像の比較によって距離メトリックを学習するメタラーニングを行う．少数の新クラスの代表画像群とクエリ画像の関連性スコアの比較により，追加学習なしに新クラス画像分類が行える．

新規性・結果・なぜ通ったか？

再学習しなくても，データさえ用意しておけば未知のクラスも分類可能な画像分類器ができる．
Zero-shot learningにも拡張可能．
シンプルで，高速に動作し，拡張性も高い．

コメント・リンク集

テスト時も少数のデータを用意しておけば，という考え方はイマドキ感がある．

[#756]

2018.5.18 10:30:48

MegaDepth: Learning Single-View Depth Prediction from Internet Photos

Z.Li and N.Snavely

CVPR2018

arXiv:1804.00607

Kota Yoshida

概要

画像における深度予測はCV分野において基本的なタスクである．既存の手法は学習データによる制約が伴う．今回提案する手法では，インターネットの画像をデータセットとするMVSの手法を改良し，既存の3D reconstructionとsemantic ラベルを組みわせて大規模な深度予測モデルであるMegaDepthを提案．

新規性・結果・なぜ通ったか？

セマンティックセグメンテーションを用いた順序による深度関係を自動で拡張
MegaDepthが強力なモデルであることを示すために膨大なインターネット画像を使い検証

コメント・リンク集

深度予測にsemantic ラベルを取り入れることで精度が向上．
semanticラベルを用いており，複雑背景における物体検出にも応用可能かも！！
Paper

[#757]

2018.5.18 02:33:22

Real-Time Rotation-Invariant Face Detection with Progressive Calibration Networks

FXuepeng Shi, Shiguang Shan, Meina Kan, Shuzhe Wu, Xilin Chen

CVPR 2018 Poster

Kazuki Inoue

概要

リアルタイムで顔の回転に頑健な顔検出を行うProgressive Calibration Network(PCN)を提案。PCNは3つのステージで構成されており、それぞれのステージでは検出された領域を0° or 180°回転させる、 0° or 90° or -90°回転させる、頭が上にくるように顔を回転させる、という処理をそれぞれ行う。また各ステージ共通で検出された領域が顔であるか顔でないかという識別を行う。第1,2ステージで粗く回転を行うことで第3ステージにおける回転量と、各ステージにおける顔識別の学習が容易になったことで、高精度かつリアルタイムに顔検出を行うことが可能となった。

新規性・結果・なぜ通ったか？

従来手法であるデータオーギュメンテーション、角度の値域を分割してそれぞれの検出器を学習させる方法、角度の回転角を推定する流手法では、どれもネットワークが大きくなりすぎるためにリアルタイムでの実行が難しかった。
解像度が40x40以上の顔を検出。
state-of-the-artの手法と比べて同等の精度を達成し、かつGPUを使用した際の実行スピードは4.2倍となった。

コメント・リンク集

[#758]

Partially Shared Multi-Task Convolutional Neural Network with Local Constraint for Face Attribute Learning

Jiajiong Cao, Yingming Li, Zhongfei Zhang

CVPR 2018 Poster

Kazuki Inoue

概要

顔のアトリビュート推定に有効なネットワークであるPS-MCNN/-LCを提案。従来手法のMCNNでは、類似度の高いアトリビュートの識別率を高めるために、類似度の高いアトリビュートのごとにグループを形成し、MCNNの高い層では各グループごとにCNNを形成して学習を行なっていた。そのため低い層で得られていた特徴量が消失するという問題が起きていた。これを解決するために、MCNNに対して各レベルで得られた特徴量を教諭するShared Netを導入したPS-MCNNを提案。また同一人物において推定されたアトリビュート同士のロスをとるPS-MCNN-LCも提案した。ネットワークの構築に関する議論も行なっている。

新規性・結果・なぜ通ったか？

同一人物において推定されたアトリビュート同士のロスをとることで、アトリビュートの空間を限定することが可能となるという考えのもとPS-MCNN-LCを提案している。
state-of-the-artに比べて、CelebAデータセットではPS-MCNN-LCが40種全てのアトリビュートにおいて最も高い精度を達成、LFWAデータセットではPS-MCNN/-LCを合わせて37種において最も高い精度を達成。

コメント・リンク集

精度が上がったことはもちろんだが、既存研究であるMCNNのリミテーションを正確に見抜いてネット枠を改善している点が採択につながったと考えられる。
論文

[#759]

Deep Semantic Face Deblurring

Ziyi Shen, Wei-Sheng Lai, Tingfa Xu, Jan Kautz, Ming-Hsuan Yang

CVPR 2018 Poster

Kazuki Inoue

概要

顔に対してセマンティックセグメンテーション(face sparsing)を利用することで、モーションブラーが加えられた正面顔画像に対するCNNベースのデブラーリング手法を提案。 face sparsingによって顔のパーツの位置関係や形といった情報を利用することができると主張。また学習の際には様々なカーネルサイズによるブラー画像を同時に与えるのではなく、小さなカーネルサイズのブラー画像から順々に学習させるincremental trainingことでデブラーリング精度を向上させた。

新規性・結果・なぜ通ったか？

ブラー画像はランダムな3D cameraの軌道によって与えられ、カーネルサイズは13x13~27x27までを学習させた。
ロスとしてデブラーリング画像のL1 loss, face parsing画像のL1 loss, adversarial loss, CNNの特徴量マップのL2 ロスを使用。
tate-of-the-artに比べてデブラーリング画像とソース画像のPSNR、SSIM、顔の検出率、個人認証の精度においてもっとも良い精度を達成し、それぞれ約5%, 5%, 28%, 4%向上した。
state-of-the-artに比べて実行スピードが約44%向上した。

コメント・リンク集

学習データを少しずつ変化させて、順々に最適化を行うincremental trainingは、学習データをパラメトリックに変化可能な他の問題に対しても有用なトレーニング方法だと思われる。
論文

[#760]

Learning to Adapt Structured Output Space for Semantic Segmentation

Yi-Hsuan Tsai, Wei-Chih Hung, Samuel Schulter, Kihyuk Sohn, Ming-Hsuan Yang, Manmohan Chandraker

CVPR2018

Hiroaki Aizawa

概要

Semantic Segmentationに関するDomain Adaptationの研究。Semantic Segmentationをsource domainとtarget domain間の空間的な類似性を持つ構造的な出力として考え、出力空間(prediction map)でのDomain Adaptationを行う敵対的学習手法を提案。低次特徴は利用せず、高次特徴のみを複数のDiscriminatorにより異なる空間解像度ごとに適応させる(Multi-level Adversarial Learning)。実験ではsynthetic-to-realとcross-cityでの比較を行っている。

Learning_to_Adapt_Structured_Output_Space_for_Semantic_Segmentation.png

新規性・結果・なぜ通ったか？

画像分類タスクを中心に発展していたDomain Adaptationを画素単位の構造予測が必要なSemantic Segmentationに適用した点。

Semantic Segmentationに限らず構造予測をするタスクへも容易に拡張ができる。

画像分類と比較して、アノテーションの労力がかかるため実用性・将来性がある。

コメント・リンク集

[#761]

2018.5.17 20:28:45

Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics

Alex Kendall et al.,

CVPR 2018

Tomoyuki Suzuki

概要

学習時のタスクごとの重みによって精度がかなり変化する。そこでNNのマルチタスクモデルにおいて各出力を分布表現にし、その同時確率を最尤推定するように学習することで結果的にタスクごとの不確実性を考慮した重み付けを損失関数に課す。実験ではSemantic Segmentation, Instance Segmentation, Depth estimationのマルチタスク学習を行い、等しい重みや手動での重み設計時よりも良い結果となった。

Multi_Task_Learning_Using_Uncertainty_to_Weigh_Losses_for_Scene_Geometry_and_Semantics.png

手法・なぜ通ったか？

モデルから各タスクに対して不確実性を表す値を同時に出力させる。回帰タスクの場合はこれが分散を表し、最終的には回帰出力値を平均とするガウス分布として表現する。識別タスクについては不確実性が分布の温度パラメータとして扱われる。これらの同時確率を最尤推定すると、通常の損失に対してタスクごとに適応的に重み付けされた損失を最適化していることになる。理論的にも妥当であり、精度向上は大きくチューニングの手間が省けるという点でかなり便利である。

コメント・リンク集

簡単な実装でハイパーパラメータが減るという点でかなり有用に感じた。様々なマルチタスクで行った訳ではないのでこの手法の汎用性がきになる。結局、識別の場合は通常でも不確実性は考慮しているので、本質的に新しいのは回帰の場合である。

論文

[#762]

Compare and Contrast: Learning Prominent Visual Differences

S.Chen and K.Grauman

CVPR2018

arXiv:1804.00112

Kota Yoshida

概要

2つの画像間で最も顕著な違いは表せられるがその他の細かい違いは示されないことが多い．それに対して，より多くの違いによって画像を比較できるようなモデルの構築をした．また，そのモデルを使って，UT-Zap50K shoesとthe LFW10のデータセットを用いて評価したところSoTAであった．構築したモデルを画像記述と画像検索に導入し，拡張を図った．

新規性・結果・なぜ通ったか？

画像中から目立つ部分をアノーテーションで収集し，ランク付けすることでモデルの構築．
UT-Zap50K shoes（靴）とthe LFW10（顔）のデータセットを用いて評価．
画像記述と画像検索のタスクに応用し，拡張を図る

コメント・リンク集

画像説明文に応用できればキャプショニングの幅を広げられそう．

Paper

[#763]

2018.5.17 16:18:51

Learning Rich Features for Image Manipulation Detection

P. Zhou, X. Han, V.I. Morariu and L.S. Davis

CVPR2018

Ryota Suzuki

概要

画像修正検出．修正箇所をちゃんと注目すべきで，リッチな特徴の学習が必要．修正後画像から修正領域を検出するtwo-stream Faster R-CNNを提案． RGB stream：コントラスト差，不自然境界とかを捉える．Noise stream：ノイズの非一貫性を捉える．Steganalysis Rich Modelでとれたノイズ特徴に基づく．そして，両者のバイリニアプーリングで共起性を捉える．

新規性・結果・なぜ通ったか？

修正箇所のノイズ感の差を見るアイデアは昔にあったが，それを導入したという温故知新．
実験によりリサイズや圧縮に対するロバスト性におけるSOTAを確認．

コメント・リンク集

[#764]

2018.5.17 15:16:28

Real-Time Seamless Single Shot 6D Object Pose Prediction

Bugra Tekin et al.

CVPR 2018

Yoshihiro Fukuhara

概要

1枚のRGB画像から物体の6次元姿勢を推定する研究. CNN を用いた単一のネットワーク (YOLO v2 ベース) で RGB 画像から物体の 3D bounding box を直接推定する. post-process 無しで高精度な姿勢推定が可能なため, 実時間（従来手法の約５倍速）で従来手法と同程度の推定精度を達成した.

fukuhara-Real-Time-Seamless-Single-Shot-6D-Object-Pose-Prediction.png

新規性・結果・なぜ通ったか？

ネットワークはRGB画像1枚の入力に対して, 各物体の制御点（3D bounding box 8点と centroid 1点）の位置, カテゴリー, 推定の確信度を出力する.
推定された物体の9つの制御点の位置に対して PnP 問題を解くことで6次元姿勢を推定する.
物体の bounding box の情報から学習を行うので物体の詳細な3次元モデルが必要無い. また, テクスチャーが殆ど無い物体に対しても適用が可能.
物体が複数あった場合でも PnP 以外の部分の計算量は増えないので, 物体数に関わらず計算時間はほぼ一定.(従来手法の SSD-6D は線型に増加.)
LINEMOD や OCCLUSION データセットを用いた評価実験では従来手法 (BB8 や SSD-6D) と同等かそれ以上の精度を 50fps (SSD-6Dの約５倍) で達成.

コメント・リンク集

[#765]

2018.5.17 12:19:55

Video Captioning via Hierarchical Reinforcement Learning

Xin Wang et al.

CVPR 2018

Yoshihiro Fukuhara

概要

Video captioning のための階層型強化学習フレームワークを提案. Caption を複数のセグメントに分割し, High-level の Manager Module が各セグメントのコンテキストをデザインし, Low-level の Worker Modeule が単語を生成することで順次セグメントを作成する. 提案手法は MSR-VTT データセットを用いた評価実験で既存手法よりも複数の評価尺度で良い結果となった. また, video captioning のための新しい大規模データセットを公開.

fukuhara-Video-Captioning-via-Hierarchical Reinforcement-Learning.png

新規性・結果・なぜ通ったか？

Video captioning の問題を強化学習の問題として定式化し直し, 効率的に学習をすることができる階層型強化学習手法を提案した.
High-level の Manager Module が目標を達成するために必要なゴールを設定し, Low-level の Worker Modeule がゴールを達成するための基本行動を行う. また, Internal Critic がゴールが達成されたかどうかの評価を行う.
Action recognition や segmentation で主に用いられている Charades データセットをもとにvideo captioning のための新しい大規模データセットを作成. 既存の MSR-VTT データセットよりも詳細で長い caption が与えられている.
MSR-VTT データセットを用いた評価実験では, 既存手法（Mean-Pooling, Soft-Attention, S2VT等）と比較して複数の評価尺度で最も良い結果を得た.

コメント・リンク集

[#766]

2018.5.17 12:11:55

Multi-view Consistency as Supervisory Signal for Learning Shape and Pose Prediction

Shubham Tulsiani et al.

CVPR 2018

Yoshihiro Fukuhara

概要

１枚のRGB画像から物体の形状とカメラ姿勢の両方を推定する研究. 異なる視点から見たときの一貫性(具体的には物体の輪郭または深度情報の一貫性)を教師情報として用いるため, 従来手法と異なり学習時に物体の３次元形状と姿勢のいずれについても直接の教師データも必要としない.

fukuhara-Multi-view-Consistency-as-Supervisory-Signal-for-Learning-Shape-and-Pose-Prediction.png

新規性・結果・なぜ通ったか？

物体の形状とカメラ姿勢の両方を推定するタスクに置いて, 直接の教師データを用いずに学習する方法を提案した.
学習時の入力は同一の物体を異なる位置から撮影したRGB画像２枚と２枚目の画像の物体の Mask または Depth 画像.
１枚目の画像から３次元形状, ２枚目の画像からカメラ姿勢をそれぞれ推定し, 推定された形状を推定された姿勢から見た時に, 与えられたマスク画像と同じ結果が得られるように学習を行う.
ShapeNet データセットを用いた評価実験では, 直接の教師あり学習を行った手法とほぼ同等の結果であった.

コメント・リンク集

[#767]

2018.5.12 13:05:55

PAD-Net: Multi-Tasks Guided Prediction-and-Distillation Network for Simultaneous Depth Estimation and Scene Parsing

Dan Xu et al.,

CVPR 2018

Tomoyuki Suzuki

概要

CNNに対して中間的に法線方向推定と輪郭推定も加えることで最終的にdepth推定とscene parsingの精度を向上させる。法線方向と輪郭についてはdepthとscene parsingのラベルから計算可能であるので追加にアノテーションする必要はない。 NYUD-v2とCityscapesにおいてSoTA。

PAD_Net_Multi-Tasks_Guided_Prediction_and_Distillation_Network_for_Simultaneous_Depth_Estimation_and_Scene_Parsing.png

手法・なぜ通ったか？

中間的に推定した結果を元に最終的な目的タスクを出力するが、その中間出力として3つのパターンを考えた(タスクをに分けずconcat, タスクごとにconcat, attention機構を取り入れたconcat)。 attention機構を取り入れたconcatが最も良い結果となった。シンプルな手法だが、実験結果が良いので評価されたと考えられる。

コメント・リンク集

「distillation」という言葉を用いているが、生徒モデルと教師モデルがあるようなdistillation手法は使われておらず、単に複数の中間タスクからのMulti-modalな情報の統合に対してその言葉が使用されている。単に通常のマルチタスク推定に中間タスクを導入したのみでかなりシンプルな印象。

論文

2018.5.16 11:59:31

Cascaded Pyramid Network for Multi-Person Pose Estimation

Y. Chen, Z. Wang, Y. Peng, Z. Zhang, G. Yu and J. Sun

CVPR2018

Ryota Suzuki

概要

複数人ポーズ推定には，キーポイントの半／全遮蔽や，複雑な背景といった要素(hard keypoints)が問題になる．Cascaded Pyramid Networkを提案． hard keypointに対応するためのもの．2つの構造からなる．

GlobalNet
ピラミッド構造をしていて，遮蔽などの無いシンプルなキーポイントの検出として作用する．この時点ではhard性にはあまり対応していない．
RefineNet
hard keypointを考慮した層． GlobalNetのピラミッドな特徴を拾って，ResNetのBottleneckにかける．ここで，何もしないとシンプルキーポイントだけ見てしまうので，損失関数の計算時，online hard keypoints miningする．テスト時のロスを参考にオンラインでhard keypointを選択，選んだキーポイントのものだけバックプロパゲーションにまわすという作業．

新規性・結果・なぜ通ったか？

新規ネットワーク構造の提案
MS COCO keypoint benchmarkにてSOTA
実験を結構頑張っている様子．online hard keypoint miningの有無に関する議論などある．

コメント・リンク集

online hard keypoint miningについて実装可能なレベルでは詳しく書いてなかった．コード読めということか．

[#772]

2018.5.16 18:24:47

One-shot Action Localization by Learning Sequence Matching Network

H. Yang et al.,

CVPR 2018

Kensho Hara

概要

ある長い動画中から指定した対象動画と同じActionを探してくるOne-shot Action Localizationの研究． Matching Networkという手法がベースになっていて，それを動画のAction Localizationに応用．基本的には動画をEncoding (Video Encoder) して，類似度を計算 (Similarity Network) して，ラベリング (Labeling Network)．長い方の動画はSliding Windowで分割 (Proposals) して，Proposalsと指定動画の間で類似度を計算． Encoderは動画でよくやられるTwo-stream CNNとLSTMを利用．学習はMeta Learningの形式で定式化され，End-to-Endで学習可能．

One-shot_Action_Localization_by_Learning_Sequence_Matching_Network.png

新規性・結果・なぜ通ったか？

Deep時代になってからほとんどやられていなかったOne-shot Action Localization (Action search)
ProposalsのEncoding，類似度計算，ラベリングと3つすべてが微分可能でEnd-to-Endで学習可能
普通のTemporal Action LocalizationのSOTA手法よりもOne-shotの設定では高い性能を実現

コメント・リンク集

論文（著者ページ）
やっている事自体は至って普通のアプローチに感じる
End-to-End, Meta Learningと今風の形で実現できているのが評価されているのかな

[#777]

2018.5.15 11:20:15

Disentangling Features in 3D Face Shapes for Joint Face Reconstruction and Recognition

Feng Liu, Ronghang Zhu, Dan Zeng, Qijun Zhao, Xiaoming Liu

CVPR 2018 Poster

Kazuki Inoue

概要

顔画像からshapeの三次元復元を行う際に、画像から個人性(顔の形など)を反映した3Dモデルと、個人性以外(表情など)を反映した3Dモデルをencoderで別々に生成しdecoderで三次元復元を行う手法を提案。生成された顔のshapeは三次元復元におけるstate-of-the-artよりも高い精度を達成し、また生成されたshapeによる顔認証においても多くの既存手法より高い精度を達成した。

新規性・結果・なぜ通ったか？

従来の三次元復元の手法では顔のディティールは再現するものの、アラインメントなどの個人性の再現が完全ではなかった。提案手法では個人性を反映したモデルとそうでないモデルを分離して学習させることで、この問題を解決した。
様々なデータセットにおいて、生成された顔の3D shapeはstate-of-the-artに比べて最も低いaccuracyを達成。
生成された3D shapeにおけるランドマークなどのaccuracyにおいてももっとも低い値を獲得。
生成された3D shapeによる個人認証においても、多くの既存手法よリも高い精度となった。

コメント・リンク集

disentangleのファクターとして個人性を選んだのはあくまで人間であって、今後の発展ではもっと優秀なファクターを深層学習が導き出してくれるかもしれない。
論文

[#778]

Seeing Small Faces from Robust Anchor’s Perspective

Chenchen Zhu, Ran Tao, Khoa Luu, Marios Savvides

CVPR 2018 Poster

Kazuki Inoue

概要

アンカーベースで画像中の小さな顔に対する検出精度を向上させる手法を提案。アンカーベースの手法では画像中に等間隔で並べられた点(アンカー)を中心とした矩形によって物体を検出する。アンカーによる検出精度を評価する数値としてExpected Max Overlapping(EMO) scoreを提案し、 EMOを深層学習に学習させることで、小さな顔(16X16)に対する検出精度を向上した。

新規性・結果・なぜ通ったか？

従来のアンカーベースの手法ではIoUを学習させていたため、解像度が16x16などの小物体に対する学習が困難であったが、EOM scoreを学習させることで小物体の検出精度が大きく向上。
従来のアンカーベースの手法よりも検出精度が向上、特に小さな顔に対する検出精度が大きく向上したが、実行時におけるスピードは従来手法と同程度。

コメント・リンク集

論文

[#779]

Exploring Disentangled Feature Representation Beyond Face Identification

Yu Liu, Fangyin Wei, Jing Shao, Lu Sheng, Junjie Yan, Xiaogang Wang

CVPR 2018 Poster

Kazuki Inoue

概要

顔に関するタスクに汎用的な特徴量を得ることができるDistilling and Dispelling Autoencoder(D2AE)を提案。Encoderによって顔から個人性を表現する特徴量(性別など)と個人性を排除した特徴量(表情など)を抽出する。取得された特徴量により、個人識別、アトリビュートの識別、顔のアトリビュート編集、顔の生成を行うことができる。

新規性・結果・なぜ通ったか？

Encoderによって顔から個人性を表現する特徴量と個人性を排除した特徴量を抽出することで、これらの特徴量により様々な顔のタスクを行うことが可能となった。
LFWデータセットにおける個人識別でaccuracyが約99.0%、TPRが約98.0%であり、既存手法と同等の精度を達成。
LFWA、CelebAデータセットにおける顔のアトリビュート認識は83.16%となり、アトリビュートを学習していないにも関わらず、アトリビュートを学習した既存手法と同等の精度を達成した。
顔のアトリビュートの編集、アトリビュートを保ったアイデンティティーの転写といった編集が可能。

コメント・リンク集

このネットワークを用いて他の物質の個人性を抽出して何が出てくるのか興味がある。例えば顔の代わりに魚を学習させて、鯛ごとの個人性、マグロごとの個人性を抜き出してみるなど。
論文

[#780]

Robust Facial Landmark Detection via a Fully-Convolutional Local-Global Context Network

D. Merget, M. Rock and R. Gerhard

CVPR2018

Ryota Suzuki

概要

FCNの中にKernel convolutionを暗黙的に入れ込み，大域的特徴情報を残すというアイデアを提案．Conv層で局所特徴を取り，KernelConvでそれをブラーにかけ，DilatedConv層で大局的特徴をリファインするという構造．

特に解像度に独立・きっちりROIがとれない・要複数検出対応・要遮蔽対応な顔ランドマーク検出タスクに有効．KernelConvによって勾配平滑化と過学習抑制が働き収束しやすくなる．アウトライア弾きのために，事前処理ステップにおいて，ネットワーク出力をシンプルなPCAベース2D形状モデルにフィットしておく．

新規性・結果・なぜ通ったか？

従来は階層構造やプーリング，統計モデルへのフィッティングで対応していたところを，FCNに直に大域的特徴を入れ込むようにした．
構造単純化により，学習パラメータが少なくなる．
顔ランドマーク検出に適用してみて，いくつかのSOTAな手法より良い性能を出した．

コメント・リンク集

論文

[#781]

2018.5.15 13:31:33

Direction-aware Spatial Context Features for Shadow Detection

X.Hu, L.Zhu, C.W.Fu, J.Qin, and P.A.Heng

CVPR2018

arXiv:1712.04142

Kota Yoshida

概要

影の周りには様々な背景があり，セマンティクスを理解しなければならないため，影の検出は基本的のようで困難である．それに対して，方向認識の方法で画像のコンテキストを解析することで影検出手法を提案する．空間のRNN内のコンテキスト特徴が密集している箇所にアテンションを導入することで方向認識の手法を定式化する．97％の検出精度と38％のバランスエラー率の低減を実現．

新規性・結果・なぜ通ったか？

空間的なRNNに対してアテンション機構を設計しdirection-aware spatial context (DSC)モジュールを構築することで方向認識の方法で空間的なコンテキストを学習．
重み付き交差エントロピー損失が影と影でない領域における検出精度のバランスが取れるように設計．

コメント・リンク集

影の検出だけでなく，顕著性検出およびセマンティックセグメンテーションなどの他のアプリケーションで使用する事もできそう．

Paper

[#782]

2018.5.15 02:31:23

Learning to Act Properly: Predicting and Explaining Affordances from Images

Ching-Yao Chuang, Jiaman Li, Antonio Torralba and Sanja Fidler

CVPR2018

Kazuho Kito

概要

現実の多様な場面での環境の物体に対するアフォーダンスの推定する研究。ADE20kを基にしたADE-Affordanceというデータセットの提案。このデータセットはリビングなどの屋内から、道路や動物園などの屋外まで幅広いタイプの画像とそのannotationで構成。また、画像中の物体に対してアフォーダンスの推理を行うための，画像からcontextual informationを伝えるGraph Neural Networksの提案。

新規性・結果・なぜ通ったか？

・ある場面の状況下での適切でない行動の理由について身体的や社会的な観点から説明・画像上のある物体に対してだけでなくその場面を全体としてとらえてアフォーダンスの推論を行っている．・物体間の依存関係をモデル化することでアフォーダンスとその説明を生成

コメント・リンク集

[#783]

2018.5.14 19:28:40

Discriminability objective for training descriptive captions

R.Luo, B.Price, Scott Cohen and G.Shakhnarovich

CVPR2018

arXiv:1803.04376

Kota Yoshida

概要

現在のキャプショニング方法は，2つの異なる画像であるにも関わらず，同じキャプションを生成してしまうなどの弁別性にかけている．それに対して，学習の際に画像とキャプションの一致度を直接関連付けるLossを組み込むことによって他のキャプションよりも弁別性のあるキャプションを生成している．

新規性・結果・なぜ通ったか？

機械翻訳の評価指標であるBLEU，METEOR，ROUGE，CIDErやSPICEにおいても既存のキャプショニング手法よりも高いスコアを示している．

コメント・リンク集

これにより，同じような画像に対するバリエーションが増え，ユニークなイメージキャプショニングの幅が広がった!!

Paper

[#784]

2018.5.14 19:39:23

A Face-to-Face Neural Conversation Model

Hang Chu, Daiqing Li, Sanja Fidler

CVPR 2018 Poster

Kazuki Inoue

概要

入力された会話文に対して、その返答と適切な顔のジェスチャーを生成する手法。映画データセットを元にトレーニングデータセットを構築。 RNNに対してディスクリミネータの出力を報酬とした強化学習を行った。

新規性・結果・なぜ通ったか？

入力は会話文のみ、あるいは動画。動画が入力の場合には同じテキストでも発話者の表情によって出力される返答文が変化する。
出力が会話文だけの場合よりも、同時に顔のジェスチャを生成した方が生成された会話文がよりGTの会話文に近くなったことを主張。
データセットは250種類の映画データセットMovieQAにおいて単一人物が写っているシーンにおいて顔向、ジェスチャカテゴリ、タイムスタンプを取得することで構築した。
生成された返答文の妥当性を評価するためにamazon mechanical turkを実施。GANを導入したことで返答文の多様性、妥当性がstate-of-the-artの手法に勝った。
このモデルで学習したボットとリアルタイムで会話することも可能。

コメント・リンク集

デモを見るとまだ返答文自体には違和感があるが、顔のジェスチャがつくことで会話している気分になる。ボットのモデルが謎のおじさん。
論文
Project page

[#785]

CosFace: Large Margin Cosine Loss for Deep Face Recognition

Syed Zulqarnain Gilani, Ajamal Mian

CVPR 2018 Poster

Kazuki Inoue

概要

顔認識のための新たなロス関数としてソフトマックス関数をベースとしたLarge Margin Cosine Loss(LMCL)を提案した研究。LMCLはソフトマックス関数の指数部分を重みベクトルWと特徴量ベクトルxの内積においてWとxのノルムを1とし、定数mを引いた関数。認識タスクでは異なるクラスタ間の距離を遠く、同じクラスタ間の距離を近くする、という基本的な考えがある。 LMCLはこの考えを元に上記のようにL2正則化を施すことで、Wとxのノルムに左右されることなくWとxの角度空間においてクラスタの分離を行う。

新規性・結果・なぜ通ったか？

ソフトマックス関数において重みベクトルの大きさ、入力特徴量のノルムを除外することで、cosの影響を最大限に大きくしWとxの角度空間におけるマージンの最大化を提案。
face identification(この人はAさんであるか？)、face verification(この人は女性であるか？)の多くのタスクにおいて,ソフトマックス関数由来のロス関数、state-of-the-artの手法よりも良い精度となった。

コメント・リンク集

汎用的な認識タスクに使用できそうだが、顔認識に限定したのはデータセットや既存研究との比較のため？
論文

[#786]

Sparse Photometric 3D Face Reconstruction Guided by Morphable Models

Xuan Cao, Zhang Chen, Anpei Chen, Xin Chen, Cen Wang, jingyi Yu

CVPR 2018 Poster

Kazuki Inoue

概要

異なる位置の点光源１個によって照らされた５枚の正面顔画像から高品質な３次元顔形状を最適化によって復元する研究。被写体の正面に5つのLED点光源が配置されいている照明環境で撮影を行う。入力画像に対して3D morphable modelを適用することで簡易的な3次元顔形状を生成し、法線マップ組み合わせることで点光源の位置をピクセル単位で推定する。またセマンティックセグメンテーションを行うことで体毛が生えいてる領域とそうでない領域に分割し、体毛が生えている領域にはフィルタ処理を行うことでノイズを除去する。

新規性・結果・なぜ通ったか？

顔画像からいきなり光源位置を推定するのではなく、一度morphalbe モデルに生成することで推定精度が大きく向上。
3Dスキャンなどの大掛かりな装置を必要としない。
顔の小じわ、毛穴、まつ毛なども再現するほど高品質な3次元顔形状を復元。

コメント・リンク集

推定された光源位置自体の精度結果を見てみたかった。
配置する点光源の位置については特に言及がなかったが、配置による影響の比較結果がみてみたかった。
論文

[#787]

FSRNet: End-to-End Learning Face Super-Resolution with Facial Priors

Yu Chen, Ying Tai, Xiaoming Liu, Chunhua Shen, Jian Yang

CVPR 2018 Spotlight

Kazuki Inoue

概要

顔の超解像度化を学習させる際にランドマーク、パーツの位置推定を同時に行うネットワーク(FSR Net)を提案した研究。同ネットワークをベースにFSR GANも提案。また生成された高解像度画像に対する評価尺度として生成画像とGTにおけるランドマークのNRMSE、顔パーツに対するセマンティックセグメンテーション画像(parsing)に対するPSNR、SSIM、MSEを提案。 GANベースの手法では高精細な画像が生成されるがPSNR、SSIMが低くなり、MSEをロスとしたネットワークではPSNR、SSIMは高いがボケた画像になってしまう、というジレンマから上記の評価尺度を導入。

新規性・結果・なぜ通ったか？

入力画像は16x16の様々な顔むきの画像、出力は128x128に超解像度化された画像。
state-of-the-artの手法よりもSSIM、PSNRが高く、また新たな評価尺度として提案したランドマーク、face parsingの位置推定も既存手法よりも高い精度となった。
新たに提案した評価指標自体の妥当性は、FSR GANとFSR Netを比べた際に、FSR Netの方がボケた画像を生成したにも関わらずSSIM、PSNRが高く、一方でFSR GANの方がランドマーク、face parsingの推定精度が高かったことを根拠に主張している。

コメント・リンク集

比較画像において既存手法の画像があまりにもボケているため、既存手法のコントリビューションを確かめるという意味でも調査が必要と感じた。
論文
GitHub

[#788]

2D/3D Pose Estimation and Action Recognition using Multitask Deep Learning

Diogo C. Luvizon, David Picard, Hedi Tabia

CVPR 2018

概要

相互に関連性がある2D/3D姿勢推定+人物行動認識を多タスク学習（Multi-task Learning）により最適化した論文である。それぞれで学習を行ったときよりも高い精度を実現することを明らかにし、複数のデータセットにてState-of-the-artな性能を叩き出した。2Dと3Dの姿勢推定、人物行動の特徴量が相補的に補完し合い特徴学習をより高度にしている？

180514PoseActionMultiTask

新規性・結果・なぜ通ったか？

姿勢推定（しかも3D姿勢推定も含めて）や人物行動認識を単一の枠組みで解決、さらには多タスク学習により別々に学習したときよりも高い精度でふたつの問題を解決した。さらに複数のベンチマーク（姿勢推定：Human3.6M, MPII/行動認識：PennAction, NTU）にて最高精度も叩き出したことが採択の理由である。

コメント・リンク集

動画シーケンスから姿勢と行動を同時出力する、ありそうでなかった研究である。先にやったもの勝ちだが、高度な最適化を実施し特に最高精度を出すのは難しい。CVPRではState-of-the-artとなるかどうかがひとつの採点基準でもある（が、全てではない）ため、実装力をつけておくに越したことはない。

[#789]

2018.5.14 13:04:47

Maximum Classifier Discrepancy for Unsupervised Domain Adaptation

Kuniaki Saito et al.

CVPR 2018

Tomoyuki Suzuki

概要

目的のタスクに特化した２つの分離境界を利用したドメイン適応手法。従来の埋め込み空間においてドメイン間の分布を単に近づける方法に対して、あるタスクと解くための分離境界を考慮して適応を行う。この枠組みでの適応はtargetでの損失の上界を下げる埋め込み空間への写像を求める作業と類似している。さまざまなドメイン適応のベンチマークにおいてSoTA。

手法・なぜ通ったか？

Source(S)で学習を行った二つの識別境界を作成する。その識別器がTarget(T)で異なる判断を行ったサンプル(discrepancy)はSの分布とは乖離している領域であると考えられる。以下のような敵対的な適応を行う。(1) TにおけるDiscrepancyが増加するよう識別境界を学習。(2) Discrepancyが減少するように埋め込み空間を学習。(3)Sでの識別は常にうまくいくよう学習。識別境界を考慮した適応という新規性、理論的な背景、論文の明快さ、精度としての結果が揃っている。

コメント・リンク集

アイデアの面白さと同時に論文が非常にわかりやすかった。識別境界はあくまで埋め込み関数を適化するために得たものなので、この枠組みで得られる最終的なもの以外(得られた埋め込み空間上で新たに学習したもの)でもうまくいくのではないかと感じた。

論文

[#790]

Generative Non-Rigid Shape Completion with Graph Convolutional Autoencoders

Or Litany, Alex Bronstein, Michael Bronstein, Ameesh Makadia

CVPR2018

Naofumi Akimoto

概要

非剛体的な変形を伴う３Dオブジェクトの形状補完．部分的な形状補完のための学習ベースの手法としてgraph-convolutionを含むVAEを提案した．推論時には，既知の部分的な入力データに合う形状を生成できる変数を潜在空間で探すように最適化する．結果として人体と顔の合成データ，リアルなスキャンデータに対する補完が可能であることを示した．

従来手法よりも優れている点

訓練中に部分的な形状を見る必要なしに，任意スタイルで一部として切り出されたデータを扱えること
人間以外にも，任意の種類の３Dデータに適用できる手法であること
形状補完はデータに適合する解が複数ある問題であり，複数のもっともらしい解を生成し，この問題に対応できること

コメント・リンク集

arXiv

[#791]

2018.5.13 16:22:39

Eye In-Painting with Exemplar Generative Adversarial Networks

Brian Dolhansky, Cristian Canton Ferrer

CVPR2018

Naofumi Akimoto

概要，新規性

eye-Inpaintingを行う手法．顔のようなそれぞれ固有の特徴を持つ画像においてのInpaintingで，従来のDNNによる手法は新しい顔を生成するなどidentityを保たなかった．exemplar informationを利用するconditional GAN（ExGANs）を提案．参照画像やperceptual codeというidentifying information（exemplar information）をGANの複数の箇所で利用することで，perceptualに優れ，identityを反映した結果を生成することができた．identifying informationをGANの複数の箇所で利用することが新しい．さらに，将来の比較のためにEye-Inpaintingのタスクの新しいベンチマークとデータセットを用意した．

手法概要

cGANの一種．参照画像のIdentityを符号化するネットワークと，Generator，Discriminatorから成る．identifying informationを生成に利用するだけでなく，DiscriminatorやPerceptual lossの算出にも利用している．参照画像をベースにした場合と符号をベースにした場合にアプローチを分けている．

コメント・リンク集

arXiv

[#792]

2018.5.13 16:12:11

Logo Synthesis and Manipulation with Clustered Generative Adversarial Networks

Alexander Sage, Eirikur Agustsson, Radu Timofte, Luc Van Gool

CVPR2018

Naofumi Akimoto

概要

特徴ベクトルのクラスタリングでGANの入力ベクトルを作成する学習方法で，ロゴの生成と操作が可能とした．ロゴのデータは高マルチモーダルのデータであり，従来のSoTAではmode collapseを起こしてしまうが，提案する学習方法では多様なロゴを生成する．iWGANをCIFER-10で学習するとき，提案する学習方法によって，Inception scoreでSoTA達成．Contribution:

600k以上のロゴを収集してデータセットを構築
マルチモーダルなロゴデータでのGANの学習方法
潜在空間の探索によって，インタラクティブなロゴ生成

上段はデータセットから．下段が生成結果．

手法

Clustered GAN Trainingと読んでいる．GANのネットワークは，DCGANとimproved Wasserstein GAN with gradi- ent penalty (iWGAN)を利用．オートエンコーダーの中間特徴ベクトルもしくは，Resnetの特徴ベクトルをクラスタリングして，Generatorの入力ベクトルとする．このクラスタリングでセマンティックに意味のあるクラスタを形成し，GANの学習を向上させることが可能．

コメント・リンク集

データセット
ロゴ・ジェネレーター・インターフェースも用意されている．スライダーを動かして，生成結果を操作できる
arXiv

[#793]

2018.5.13 16:03:23

Multi-Agent Diverse Generative Adversarial Networks

Arnab Ghosh, Viveka Kulharia, et al.

CVPR2018

Naofumi Akimoto

概要

多様で意味のあるサンプルを生成可能な，複数のGeneratorと１つのDiscriminatorから成るGAN(MAD-GAN)を提案．一つのGeneratorが一つの構成要素を担当する混合モデルとしてはたらく．いくつかの従来のGAN手法と比較実験を行い，MAD-GANは多様なモードを獲得できることを確認．さらに，理論的な分析も行っている．

それぞれの行が異なるGeneratorによって生成した結果．行はそのGeneratorにランダムなノイズzを入力して生成した結果．マルチビューなデータセットから異なるモードを異なるGeneratorが学習していることを確認できる．

手法

Multi-agent GAN．複数のGeneratorと１つのDiscriminatorで構成．
Generator同士は，最終層以外は重みを共有している．
複数のGeneratorの生成サンプルと真のサンプルをDに入力し，Discriminatorは，FakeとRealの判別だけではなくて，そのFakeの生成サンプルを与えるGeneratorがどれであるかも予測する．これによって，複数のモードがある時，個別のモードに対してそれぞれのGeneratorを振り分けるようにDiscriminatorが学習する．

コメント・リンク集

image-to-image変換,multi-view生成， face generationなど多数の実験を行っている．
展望は，MAD-GANでは複数のGeneratorを使うことになるが，いくつのGeneratorが必要なのかを推定できるようにすること．
arXiv

[#794]

2018.5.13 15:50:21

SketchyGAN: Towards Diverse and Realistic Sketch to Image Synthesis

Wengling Chen, James Hays

CVPR2018

Naofumi Akimoto

概要

スケッチから写真を生成する手法の提案．50のカテゴリの写真を生成することができる．スケッチに対して，自動でデータ拡張をする方法を示し，その拡張方法がタスクに有効であることを示す．さらに追加の目的関数と新しいネットワーク構造も提案．マルチスケールの入力画像を入れることで情報の流れを向上させている．結果はまだphotorealisticとは言えないが，従来手法よりリアルでinception scoreの高い結果を得た．

手法

データ拡張の方法として，エッジ検出などのいくつかの処理を組み合わせている．
ネットワーク構造はU-net構造だが，各ブロックで入力画像で条件付けを行うのが特徴．以前の層で抽出された特徴マップと比べ新しい特徴量を入力画像から選択的に抽出するための内部マスクを学習するため，Masked Residual Unitというブロックモジュールを導入した．（DCGAN, CRN, ResNetとの比較がある）

コメント・リンク集

GeneratorにもDiscriminatorにも途中で画像やラベルの情報をinjectionする方法が増えている印象．
sketchから似ている写真を検索してくるという方法がこれまでよく研究されていた．今回は，スケッチから新しく写真を生成する（質はまだ低い）
arXiv

[#795]

2018.5.13 15:37:35

ScanComplete: Large-Scale Scene Completion and Semantic Segmentation for 3D Scans

Angela Dai, Daniel Ritchie, Martin Bokeloh, Scott Reed, Juergen Sturm, Matthias Nießner

CVPR 2018

584

Yue Qiu

概要

部分的なシーンの3Dデータからシーンの幾何及びボクセルごとのセマンティック情報をコンプリートする手法ScanCompleteを提案した．
従来，シーンの3次元情報を完全に収集するのが非常に困難，シーンの３次元のデータの膨大さや形状情報のバリエーションの多さは従来のシーン補完に対して困難な問題設定である．そういったため，シーンのコンプリートでは出力の質が低いという問題点がある(contentsとして応用するレベルではない)．こういった困難を解決するため，提案手法は①trainとtestデータの入力解像度を異なる値に設定し， testの場合シーンのサイズの変化を対応できるようにする．②coarse-to-fineなfully convolution 3DCNNを用いて，グローバルなシーンの構造特徴および精密な局所的補間をできるようにする．

scancomplete

新規性・結果・なぜ通ったか？

異なる入力シーンのサイズを自由に対応できる（最大70×60×3m くらいまでできる）
従来の手法：3D-EPN,SSCNetなどの従来手法と比べ，scene completion, semantic labeling両方精度がSOTA
出力結果が3D Contentsとして応用できるレベル

コメント・リンク集

論文

[#796]

2018.5.14 14:43:15

Learning from Millions of 3D Scans for Large-scale 3D Face Recognition

Syed Zulqarnain Gilani, Ajamal Mian

CVPR 2018 Poster

Kazuki Inoue

概要

大規模3D顔データセットを構築し、そのデータによってトレーニングされたCNNが高い3D顔認識精度を持つことを示した論文。従来の3D顔データセットはデータ数が少なく、最も多いND-2006でも888アイデンティティー・13540種類のみであったが、本論文で構築されたトレーニング用データセットはおよそ10万アイデンティティー・310万種類。このトレーニングデータを用いてCNNを学習させることで、認識精度は98.74%となりstate-of-the-artよりも優っていることを確認した。また既存の3D顔データセットをマージすることで、1853アイデンティティー・31K種類のテスト用3D顔データセットを構築した。

新規性・結果・なぜ通ったか？

トレーニング用の3D顔データは1000人の3Dスキャンデータに対して、変形に要するエネルギーがもっとまた商用ソフトを使用すること300種類の顔のうち顔の形状・表情が似ている顔を合成して生成。も高くなる顔のペアを合成して生成。また商用ソフトを使用すること300種類の顔のうち顔の形状・表情が似ている顔を合成して生成。前者は別の顔を識別するため、後者は似た顔を識別する目的で用意されたデータである。生成された顔に対して水平方向、垂直方向から15度ずつ撮影することで、計100,005アイデンティティー・3,169,275種類の3D顔データを生成。
既存の3D顔認識・2D顔認識手法に対してオープン・クローズドテスト両方における精度を比較したところ、提案モデルがもっとも良い精度となった。

コメント・リンク集

論文

[#797]

Learning to Generate Time-Lapse Videos Using Multi-Stage Dynamic Generative Adversarial Networks

Wei Xiong, Wenhan Luo, Lin Ma, Wei Liu, Jiebo Luo

CVPR2018

Naofumi Akimoto

概要

高解像(128x128)のリアルタイムなタイムラプス動画の生成をするGANを提案．最初のフレームを与えると，近未来のフレームを生成する．新規性としては，

タイムラプスデータセットを作成
タイムラプス向きの近未来予測ネットワークを提案（Multi-stage Dynamic Generative Adversarial Network (MD-GAN) ）
モーションのモデリングにGram matrixを導入し，実世界ビデオのモーションを模倣するためのadversarial ranking lossを提案

fig

手法

corse-to-fineの２ステージアプローチのGAN．ステージを分けた狙いとしては，１ステージ目でコンテンツの生成を行い，２ステージ目でモーションのモデリングを行うこと．１ステージ目のU-net風のネットワークでは3D convolutions と deconvolutions を含んでいる．

２ステージ目のDiscriminatorとして，モーションパターンをモデル化するためにGram matrix使って，adversarial ranking lossを算出する．1ステージの出力ビデオ，2ステージ目の出力ビデオ，真のビデオからランキングをとる．

コメント・リンク集

arXiv

タイムラプス用のGANが初めて提案されたことが評価されたのかなという印象．定量的な評価はメインがPreference Opinion Scoreで, 他はMSE, PSNR and SSIM．

[#798]

2018.5.13 12:45:36

Hyperparameter Optimization for Tracking with Continuous Deep Q-Learning

Xingping Dong et al.

CVPR 2018

Yoshihiro Fukuhara

概要

Object Tracking 手法において用いられる複数の Hyperparameter を強化学習によって各シークエンス毎に最適化する手法を提案. Hyperparameter の選択を Action, Tracking の精度の良さを Reward として, Normalized Advantage Functions (NAF) を用いた強化学習を行なっている. また, Heuristic を導入することで, 学習の遅さの問題を緩和した.

fukuhara-Hyperparameter-Optimization-for-Tracking-with-Continuous-Deep-Q-Learning.png

新規性・結果・なぜ通ったか？

Object Tracking における Hyperparameter の最適化問題を強化学習の問題として定式化した.
上記の問題を既存の強化学習手法である NAF　(連続な行動が取れるように拡張された Q 学習の手法) を用いて解いた.
強化学習を適用した際に, 状態空間の次元の多さなどに由来する学習速度の遅さを huristic を導入することで緩和した.
OTB-2013 や VOT-2015 などのデータセットを用いて既存研究(Siam-py等)と比較. 同程度の速度で, 正確性とロバスト性の両方に置いて既存手法を上回った.

コメント・リンク集

[#799]

2018.5.12 13:05:55

Tangent Convolutions for Dense Prediction in 3D

Maxim Tatarchenko et al.

CVPR 2018

Yoshihiro Fukuhara

概要

３次元データを扱う新しい convolutional の方法 "Tangent Convolution" を提案. 全ての点の近傍点を仮想的な接平面上に射影し, 接平面上で畳み込みを行う. 接平面は法線ベクトルが計算できれば構成する事ができるため, 複数のデータ形式に対して同様に適用が可能. また, 事前計算を行う事によって大規模なデータベースに対しても効率的に計算を行う事が可能となった.

fukuahra-Tangent-Convolutions-for-Dense-Prediction-in-3D.png

新規性・結果・なぜ通ったか？

入力データの形式は法線ベクトルを近似的に求められるもの (point clouds, meshes, dpolygon soup) であればなんでも良い.
事前計算を行う事によって大規模なデータ（数百万オーダーの点群）も効率的に扱う事ができる.
提案手法の有効性を示すために Tangent Convolution を用いたネットワークを Semantic 3D Scene Segmentation のタスクに置いて既存手法 (PointNet, ScanNet, OctNet) と比較し, 複数の評価尺度に置いて最も良い精度となった.

コメント・リンク集

[論文]

[#800]

2018.5.12 11:33:55

Im2Pano3D: Extrapolating 360° Structure and Semantics Beyond the Field of View

Shuran Song, Andy Zeng, Angel Chang, Manolis Savva, Silvio Savarese, Thomas Funkhouser

CVPR 2018

466

Yue Qiu

概要

・部分的に観測されたシーン(RGB-D)から，full sceneの構造及びセマンティックラベルを推定する新規な問題設定”semantic-structure view extrapolation”及びフレームワークを提案した．

・従来のview extrapolationは画像のboundryの色情報しか行わず，シーンのセマンティック構造に対してextrapolationを行う研究がない．そこで，この論文で，著者達がsemantic-structure view extrapolationを提案し，50%以下のシーンの観測データから構造及びセマンティックをextrapolation予測する．

・提案フレームワークは：①一枚のマルチチャンネルpanorama画像でシーンの情報(RGB，構造，セマンティック)を表示する；②3次元構造をデプスのような詳細な三次元情報を用いずに，3次元平面方程式で表示する．③マルチロス関数(ピクセルレベル，グローバルコンテキスト)を用いる．

・提案フレームワークの考え方は入力と出力を一枚のマルチチャンネルpanorama画像として表示し，encoder-decoderにより，欠損した入力からfullなpanorama画像を出力する．

Im2Pano3D

新規性・結果・なぜ通ったか？

・CG データセットSUNCG及びリアルシーンデータセットMatterport3Dを用いて従来手法よりシーンの構造及びセマンティックの予測が優位．

・一枚のマルチチャンネルpanorama画像でシーンの情報を表示し，シーンの情報を固定なサイズにできるので，2次元畳み込みを用いられる．

コメント・リンク集

・マルチチャンネルpanorama画像でシーンの情報を保存するところが賢い

・提案フレームワークは構造的に理解しやすい，実装してみたい

[#801]

2018.5.11 17:40:13

Deep Image Prior

Dmitry Ulyanov et al.

CVPR 2018

Tomoyuki Suzuki

概要

「CNNは理論上任意の関数を近似できるが、その構造自体に汎化性能をあげるようなPriorが含まれている」という考えのもと、ランダム初期化されたCNNを用いて高いレベルの画像復元、ノイズ除去などを行った。また、CNNのPrior をさらに裏付けるものとして、自然画像を復元するより、ノイズ画像を復元する学習の方がiteration数がかかることも示された。

手法・なぜ通ったか？

ノイズ画像ｚをencoder-decoderモデルに入力して、生成された画像を欠損画像にMSEで近づけるように学習するだけである。注意点として、完全に学習仕切ってしまうと欠損画像と同じものが出るだけなので、学習をある程度のiterationで止めると、復元されたような画像が得られる。また、CNNのPrior をさらに裏付けるものとして、自然画像を復元するより、ノイズ画像を復元する学習の方がiteration数がかかることも示された。着眼点や面白い実験方法に加え結果も伴っている研究

コメント・リンク集

畳み込み処理×SGDの異常なまでの汎化性能を実験的に裏付けていると思われ非常に面白い。逆にCNNのPriorの苦手なところとして、Adversarial exampleやGANのチェッカーボード現象も関係してそう。畳み込み処理の派生(Deformable convなど)でのpriorの検証も気になる。

論文

[#802]

Edit Probability for Scene Text Recognition

F. Bai, Z. Cheng, Y. Niu, S. Pu and S. Zhou

CVPR2018

Ryota Suzuki

概要

OCRのstate-of-the-artな手法として，encoder-decoderで文字カテゴリごとのAttentionを取ってからテキスト認識をするvisual attentionベーステキスト認識があるが，ある文字がよく見えなかったり1文字でも複数ピークが出てしまったりする問題はある． GTとの差を取るとして，エンコード後の文字列で比較する編集距離を取ることが考えらえるが，本稿ではVAで出る尤度分布で比較する，編集確率（Edit Probablity）を提案する．これにより，字抜けや余分な字を拾ってしまうような誤認識に強い文字認識を実現可能．

新規性・結果・なぜ通ったか？

Attentionベーステキスト認識においてstate-of-the-artな性能．
まさに正統進化といえる．

コメント・リンク集

正統進化を，他のラボが，1年未満に行ってしまっているあたり，CV分野の流れの早さがうかがえる．

arXiv
Visual attention models for scene text recognition（ICDAR2017）

[#803]

2018.5.10 18:29:27

iVQA: Inverse Visual Question Answering

Feng Liu, Tao Xiang, Timothy Hospedales, Wankou Yang, Changyin Sun

CVPR 2018

1199

Yue Qiu

概要

・VQA問題の逆問題iVQA設定及びモデルを提案し (画像及び回答文から，質問文を生成する)，更に iVQAもVQAと同じく“視覚-言語”の理解のベンチマック問題設定になれると指摘した．

・iVQAタスクに用いられるmulti-modal dynamic inferenceなフレームワークを提案した．提案フレームワークは回答文を生成する段階で，“回答文”，“生成した部分的な質問文”によって導かれ動的に画像attentionを調整できる．

・更に，回答文の従来の自然言語的評価に，ランキングベースなiVQAタスクの回答文を評価できる指標を提案した．その指標により，などの面を評価できる．

iVQA

新規性・結果・なぜ通ったか？

・近年，従来のVQAの成功がデータセットバイアス及び質問文からの情報理解，画像の内容に対する理解がまだVQAにおいて深く利用されていないことが指摘された．そこで，画像と回答文から質問文を予測する問題設定iVQAを提案した， iVQAタスクにおいてはVQAと比べ，①画像内容の理解の要求が高い，②また回答文が常に短いので，質問文と比べよりスパースな情報抽出しかできないため，回答文に頼りすぎることにならない．③モデルの推定及びreasoning能力が更に必要である．

・提案フレームワークの各パーツ(dynamic attention, multi-modal inferenceなど)の有効性に関してAblation　studyを詳しく行った. 説得力がある．

・Dynamic attention mapsの可視化分析により問題文を生成する段階で，動的に関連する画像領域にattentionすることを指摘した．

・実験を通して，iVQAをVQAとヒュージョンしたら， VQAの精度を挙げられることを証明した．

コメント・リンク集

・VQAの問題点を深く理解した上での新規問題設定．

・Dynamic attention mapsの可視化分析により問題文を生成する段階で，動的に関連する画像領域にattentionすることを指摘した．

・新奇な考え方・詳しい分析実験・論文の理解しやすさなどが非常に良い

論文

[#804]

2018.5.10 15:08:46

Sketch-a-Classifier: Sketch-based Photo Classifier Generation

C. Hu, D. Li, Y. Song, T. and T.M. Hospedales

CVPR2018

Ryota Suzuki

概要

手書き画像から，書いたものの判別をする画像分類器を出力するメタ学習の提案．学習していない手書きカテゴリでも，そのカテゴリの画像分類器が出力される．3つの枠組みが作れる． (1)スケッチ画像カテゴリ分類モデルを入力 (2)スケッチ画像を入力 (3)コースなリアル画像分類モデル＋スケッチ画像を入力

枠組みとしては，Model Regression Networkによる．論文では，SVMパラメータの学習を行っている．

新規性・結果・なぜ通ったか？

多様性がある．作ったモデルの性質がよく把握されている
知識転用の新しい形が見える

コメント・リンク集

[#805]

2018.5.10 13:49:15

ST-GAN: Spatial Transformer Generative Adversarial Networks for Image Compositing

C. Lin, E. Yumer, O. Wang, E. Shechtman and S. Lucey

CVPR2018

Ryota Suzuki

概要

画像合成の際に，背景に対して位置やサイズ感などが正しくなるように幾何的変換を求め，修正を加えてくれるGANを提案．たとえば，家具が適切な場所に置かれたり，メガネが適切に掛けられたりする．

構造的には複数のSpatial Transformer Networkをジェネレータとして組み込んでいることが特徴．複数のSTNにおける，反復画像ワーピング（画像変形方法の一つ）と逐次学習を導入している．

新規性・結果・なぜ通ったか？

画像変換が得られるので，間接的に高解像度画像に適用可能
ナイーブな単ジェネレータよりも高性能．
大きな差には弱い．奇抜なデザインのものや，大きな移動

コメント・リンク集

[#806]

2018.5.10 12:27:25

Two can play this Game: Visual Dialog with Discriminative Question Generation and Answering

Unnat Jain, Lana Lazebnik, Alex Schwing

CVPR 2018

705

Yue Qiu

概要

・Visual Dialogタスクに用いられる質問の回答文と質問文を両方予測できるネットワークを提案した．

・提案フレームワークは100個の回答文(質問文)から正解を予測する(discriminative). 提案フレームワークは質問文，画像，キャプション，QA履歴，選択などの情報をsimilarity+Fusionネットにより100次元のベクトルを生成し，正解ラベルとのcross-entropy誤差を求める．

・また，従来Visual Dialogの質問文を評価する指標がない，著者達が質問文を評価できる“VisDial-Q evaluation protocol”を提案した．提案protocolは質問文を100個に固定し，予測した質問文がどれくらい通常の人により提出される可能性が高いかにより評価を行っている．

VisualDialog_DVQG_DVQA

新規性・結果・なぜ通ったか？

・同じネットワークで質問文と回答文を両方予測できる．

・質問文を評価できる指標の提案．

・Discriminative VQAタスクにおいて， VisDial評価指標は従来手法(HRE, MN, HCIAE-D-NP-ATT)より良い性能を達成した．

・VQGタスクにおいて，提案した評価指標“VisDial-Q evaluation protocol”により55.17% recall@5 と 9.32 mean rankを達成した．

コメント・リンク集

論文

[#807]

2018.5.10 04:08:59

Social GAN: Socially Acceptable Trajectories with Generative Adversarial Networks

Agrim Gupta, Justin Johnson, Li Fei-Fei, Silvio Savarese and Alexandre Alahi

CVPR2018

234

Ryosuke Araki

概要

人や自律移動プラットフォームが，移動している人を避けるにはいくつかの経路が考えられる．本手法は，人間の経路予測にシーケンス予測とGANを組み合わせたツールを用いて，複数の経路予測を行う．Recurrent sequence-to-sequence modelは，複数の人の間で情報を集約するための新しいプーリング手法を用いて，観測者の行動を予測する．そして，GANを用いてもっともらしい行動をいくつか予測する．予測された経路はDiscriminatorへ入力され，Fake/Real判別をしGANを訓練していく．

新規性・結果・なぜ通ったか？

Generatorでは，複数の人が同時にどう動くか予測するために，Encoderの各LSTMの出力をまとめるプーリングモジュールを導入した．Discriminatorは，経路そのものがFake（人として社会的にあり得ない行動）またはReal（あり得る行動）を判断する．ETHやHOTELなどのデータセットを用いて評価実験を行った．12ステップ後のAverage Displacement Error（全ての時間での真値と予測値の誤差）は0.58（Social LSTM: 0.72），Final Displacement Error（最終目的とでの真値と予測値の誤差）1.18（Social LSTM: 1.54）となった．

コメント・リンク集

GANを使う手法は多く出てきているが，これは面白い応用方法だと思った．Discriminatorをどうやって学習していくかが肝になりそう．

arXiv

[#808]

2018.5.9 01:45:09

Neural Baby Talk

Jiasen Lu, et al.

CVPR 2018

Takumu Ikeya

概要

画像内で検出した物体から文章を生成するイメージキャプショニングタスクを行うための新たなフレームワークの構築を行った．単語が格納されるスロットを文章内に生成し，生成したスロットを満たすように検出した物体を当てはめていくことでキャプションを行う．

新規性・結果・なぜ通ったか？

検出された物体の名称が入るスロットを最初に生成し，生成したスロットを満たしていくことでキャプションを行う手法が新しい．

イメージキャプショニングタスクにおいてFlickr30KとCOCOデータセットでSOTAを達成した.

コメント・リンク集
論文
github

[#809]

Attentive Generative Adversarial Network for Raindrop Removal from a Single Image

Rui Qian, Robby T. Tan, Wenhan Yang, Jiajun Su, and Jiaying Liu

CVPR2018

Naofumi Akimoto

概要

写真から雨粒を除去する手法の提案
このタスクが難しいのは，
1. どの領域が，雨粒によって隠されているか不明なこと
2. 雨粒に隠された背景側の情報がないこと
GAN，LSTMを利用
Generatorは，Attentive-Reccurent networkとContextual Autoencoderから構成
はじめにAttentive-Reccurent networkでattention mapを生成　次にContextual Autoencoderで，mapと入力画像から雨粒除去後の画像を生成　attention mapは，Discriminatorの中間出力とMSE lossを取る際にも利用
visual attentionという情報によって，
1. Generatorでは雨粒の領域と，周辺の構造にアテンションをより向けることができる
2. Discriminatorは復元した領域をより局所的に評価を行える

Item2Image

新規性

GeneratorとDiscriminatorの両方でvisual attentionを利用するようにしたこと
自作の1119枚の雨粒ありと無しのペア画像を用意し学習に利用

コメント・リンク集

arxiv

[#810]

2018.5.8 21:05:34

Deformable GANs for Pose-based Human Image Generation

Aliaksandr Siarohin, Enver Sangineto, Ste ́phane Lathuilie`re, and Nicu Sebe

CVPR2018

Naofumi Akimoto

概要

与えられたポーズ情報を条件として人物画像を生成するタスクを扱う．任意ポーズへの変形タスクで発生する，（服などの）変換前のピクセルと変換後のピクセルの対応が不整列である問題に対応するために，deformable skip connectionを対案する．従来手法と比べ，条件画像の服の色・テクスチャを保存して別ポーズの画像を生成できている．人物画像の生成に限らず，キーポイントを与えることのできる不整列のオブジェクトであれば，この手法が適用できると著者らは考えている．

fig2 fig3

手法

U-net likeのEncoder-Decoder, GANdeformable skip connectionについて．変換前後の両方のポーズ情報が既知なので，キーポイント周辺のピクセルが変換前から変換後にどこへ移動するか知ることができる．したがって，キーポイントの座標からアフィン変換を求め，畳み込みから得た特徴マップをアフィン変換することで，服の色やテクスチャを変換前から変換後の画像に移して生成できる． Encoderの特徴量をアフィン変換し，Decoderの特徴量にskipするのがdeformable skip connectionである．

リンク集

[#811]

2018.5.8 15:39:41

VizWiz Grand Challenge: Answering Visual Questions from Blind People

Danna Gurari, Qing Li, Abigale Stangl, Anhong Guo, Chi Lin, Kristen Grauman, Jiebo Luo

CVPR 2018

491

Yue Qiu

概要

・盲人に集められたVQAタスクのデータセットVizWiz（画像と音声質問文）を提案した．VizWizが31,000枚の盲人が携帯により撮影し，画像ごとに画像を撮影した盲人が提出した音声質問文一つ付き．質問文ごとに，10個の回答文がアノテーションされている．

・従来のVQAデータセットほぼ人工設定により作成された方が多く，また現実環境の盲人ユーザを対象に“goal oriented”なVQAデータセット未だにない．そこで，盲人がカメラにより周囲環境を撮影し，環境を理解することを目的にして，盲人ユーザにより集められた画像及び質問文のデータセットを構築した．

・盲人ユーザにより撮影されたのでVizWizは画像の質が良くなく，又質問文が音声情報なので，はっきり発音が取れない場合などの問題点がある．提案データセットで現状のVQAモデルで検証した結果，性能が従来のデータセットで検証した性能より劣るので， VizWizが将来的の盲人のためのVQA応用に新たな挑戦を提出した．

VizWiz

新規性・結果

・初めての盲人により撮影及び質問したVQAデータセット．

・従来のVQAデータセットと比べ，もっと画像の周りの環境に関する質問文が多い．

・従来のVQAデータセットとの質問文の詳細的な特徴比べも行っている．

リンク集

・盲人のためのVQAシステム構築に有力なデータセット．

論文

[#812]

2018.5.8 14:33:52

Glimpse Clouds: Human Activity Recognition from Unstructured Feature Points

F. Baradel et al.,

CVPR 2018

Kensho Hara

概要

RNNベースの行動認識を提案．学習はRGB-Dを使うが，テスト時にはRGBのみを使うという設定．テスト時にRGB-Dが使えてPose情報が使えればそれを使えばいいが，それが使えないときもあるからそれに変わる手法を提案するという主張． Poseでの間接位置に代わって， Attentionベースでフレーム中から重要な局所要素 (Glimpse) を抽出＆トラッキング． Glimpseの集合に基いて行動を認識するというフレームワーク． Glimpseの抽出やトラッキングはそれぞれRNNベースで行う手法になっている．

Glimpse_Clouds_Human_Activity_Recognition_from_Unstructured_Feature_Points.png

新規性・結果・なぜ通ったか？

姿勢の代わりに別の局所要素を使うフレームワークを提案
Attention, External Memoryといった流行り?の要素が詰め込んである
RGB-D行動認識データセットにおいてRGBのみの利用でSOTAを達成

コメント・リンク集

論文（著者版）
論文 (Long-ver., arXiv)
動画 (YouTube)
姿勢ベースの行動認識を姿勢を使わずにやるような話に近い印象

[#813]

2018.5.8 12:00:18

High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Andrew Tao, Jan Kautz, Bryan Catanzaro

CVPR 2018 (oral)

概要

GANの枠組みにてセマンティックラベルからの高精細画像（HD-Image）生成に関する研究。意味ラベルからリアルな画像を生成するのみならず、インタラクティブな操作で画像生成をコントロールすることも可能。Residual blocksにより構成されるエンコーダ/デコーダ構造を（入力をスケールが異なる画像として）入れ子構造にしデコーダ直前の中間層で統合して画像生成を実行する。さらに、ラベルのみならずインスタンスレベルの特徴量を用いることで写実性が向上したと主張（論文中図4では物体境界面あたりに出ているボケが綺麗になっている）。

180508HDImageGAN

新規性・結果・なぜ通ったか？

従来法より、見た目の画像生成が明らかに良くなり、高画質の画像を対象にしても画像生成ができるようになった。従来手法（pix2pix（論文中文献21）, CRN（論文中文献5））さらに、インタラクティブな操作により生成画像を所望の結果に近づけることができる。動画像を見れば従来手法よりも鮮明になっていることは明らかであり、アーキテクチャや生成に関する知見も得ている。CVPRでoralになるための準備やプレゼンが論文中にも書かれていると感じた。やはりNVIDIAはずるいと言われるくらいの計算機環境が揃っているのではないか。

コメント・リンク集

これはもう、学習画像として使えるのでは？（すでにだれか使って精度検証しているのでは？）

[#814]

2018.5.8 12:46:17

Five-point Fundamental Matrix Estimation for Uncalibrated Cameras

D. Barath

CVPR2018

Ryota Suzuki

概要

2つの未キャリブレーションカメラにおいて，5点のみで基礎行列を推定する手法を提案．

回転不変な特徴点（SIFT等）を使う．3点は平面にあれば，他2点はどこでも可能．グラフカットRANSACのようなロバスト対応点推定と組み合わせれば，state-of-the-artな性能が出る．

新規性・結果・なぜ通ったか？

通常，7点や8点取るアルゴリズムが用いられるが，リーズナブルな制約で，少ない情報のみでキャリブレーションできるのはうれしい．例えば図のようにキャリブレーションボードを小さくできたりする．大変有用な研究成果．

コメント・リンク集

arXiv

[#815]

2018.5.8 12:37:50

Defense against Adversarial Attacks Using High-Level Representation Guided Denoiser

Fangzhou Liao, Ming Liang, Yinpeng Dong, Tianyu Pang, Jun Zhu and Xiaolin Hu

CVPR 2018

Kodai Nakashima

概要

画像分類におけるadrversarial attackの防御手法として, high-level representation guided denoiser (HGD) を提案.target model (メインの処理を担うネットワーク) への前処理段階で用いる. HGDは, マルチスケールインフォメーションを得るためU-netの構造を使い, トレーニングするための損失関数として, 元画像とノイズの乗った画像をそれぞれ入力したときの出力差を用いる. 右図に提案手法の詳細を示す.

defence_against_adversarial_attacks_using_high-level_representation_guided_denoiser.png

新規性・結果・なぜ通ったか？

pixel-levelの損失関数を課した従来のdenoiserと比べ, より良い結果が得られた.

state-of-the-artな防御手法であるensemble adversarial trainingと比べ, 3つのメリットがある.

target modelがwhite-boxとblack-boxの両方に対してよりロバスト.
大規模データセットでの学習が簡単.
他のtarget modelへ使い回すことが可能.

コメント・リンク集

論文URL

[#816]

2018.5.8 12:24:05

Customized Image Narrative Generation via Interactive Visual Question Generation and Answering

Andrew Shin, Yoshitaka Ushiku, Tatsuya Harada

CVPR 2018

1224

Yue Qiu

概要

・新規の“Customized画像説明文生成”タスクを提案した．また，インタラクティブにユーザに自動的に画像に関する質問をし，回答文を収集できるような仕組みを提案した．・従来の画像説明文生成タスクにおいて，異なるユーザの性質や画像の注目領域などにより，多様な説明文を生成できることが検討されていない．このような性質に応じて，多様な質問文を生成できる仕組み及びユーザとインターアクションしユーザの個性的な回答文を収集しユーザの特徴を学習することにより，Customizedで画像説明文を生成できる仕組みを提案した．・提案仕組みは具体的に：①画像から self Q&A modelにより，画像中のマルチリジョンを注目し(attention構造を利用した)質問文を生成し， VQAモデルにより回答する(マルチ回答がある質問文だけを保留)；②　①により生成できた質問文をユーザに提示し，回答させる；③画像リジョン・質問文・回答文の統合した画像説明文を生成する．・画像リジョン・質問文・ユーザ特有な回答文からchoice vectorを抽出し，このベクトルを利用してほかの画像が入力された場合，ユーザの個性的な画像説明文を生成できる．

Customized_Image_Narrative_Generation

新規性・結果

・新規な問題設定“Customized画像説明文生成”・提案手法により，画像からより多様でユーザの個性を含んだ説明文を生成できる．・ Automatic　Image　Narrative　Generationにおいて，従来のデータセットCOCO, SIND, DenseCapなどと比べ”diversity”,”interesting”,”naturalness”,”expressivity”などの指標に対しパフォーマンスが良い・ Interactive　Image　Narrative　Generationにおいて，ヒューマンテストで良い評価を達成した．

リンク集

・ユーザの個性を学習できる仕組みは応用場面が広そう

論文

[#817]

2018.5.8 12:19:18

First-Person Hand Action Benchmark with RGB-D Videos and 3D Hand Pose Annotations

G Garcia-Hernando et al.,

CVPR 2018

Kensho Hara

概要

一人称視点動画 (RGB-D) データセットの提供．手（21点の3D間接位置）と物体（6D姿勢）の情報に加えて，45クラスの行動ラベルが付けられている．データ数は1175シーケンス，10万フレーム．手の3D姿勢と行動ラベルが付いている一人称視点動画データセットはこれまでになかった．実験では従来手法やLSTMによるベースライン手法を合わせて18個を比較した結果が議論されており，手の姿勢情報を使う手法が高い性能を示す傾向があることが確認されている．

First-Person_Hand_Action_Benchmark_with_RGB-D_Videos_and_3D_Hand_Pose_Annotations.png

新規性・結果・なぜ通ったか？

手の3D姿勢を使った行動認識のためのデータセットを提供．
RGB, Depth, Poseといった様々な特徴を用いる各手法が詳細に議論されている．
一番良い手法で78%程度の認識率．

コメント・リンク集

[#818]

2018.5.8 12:00:18

PointFusion: Deep Sensor Fusion for 3D Bounding Box Estimation

Danfei Xu, dragomir Anguelov, Ashesh Jain

CVPR 2018

Yue Qiu

概要

・画像と点群情報を利用した3D物体検出のフレームワークPointFusionを提案した．・従来のマルチセンサーの情報を利用した3D物体検出は前処理が必要、マルチセンサーを異なるパイプラインで処理し，他のセンサーのコンテキストをうまく利用できないなどの問題点がある．PointFusionは①異なるネットワーク構造を用いて画像(CNN)と点群情報(PointNet)を直接処理し，②デンスフュージョンネットワーク構造を提案し，画像と点群の抽出情報を統合しより精密な3D物体検出を行う．・2種類のデンスフュージョンネットワークを提案した．①画像情報及びPointNetにより抽出したグローバル情報を統合し， 3Dボックスのコーナー位置を推定する．②画像情報及びPointNetにより抽出したグローバル情報、ポイントフィーチャーを統合し， 3Dボックスのオフセット及びconfidence scoresを予測する．最後の2つの結果を統合し，最終的な結果を予測する

PointFusion

新規性・結果

・点群データの前処理が必要無し．・対応できるデータの形式が広い，室外環境と室内環境両方対応できる．・多様な三次元センサーのデータを対応できる．(RGB-D, LiDar, Radar,…) ・KITTI, SUN-RGBDデータセットにおいてstate-of-the-artな結果

リンク集

・室内・外環境両方対応できるので、応用場面が広そう・将来的にend-to-endに実現できたら更に良い

論文

[#819]

2018.5.8 10:56:27

Path Aggregation Network for Instance Segmentation

Shu Liu, Lu Qi, Haifang Qin, Jianping Shi, Jiaya Jia

CVPR2018, arXive:1803.01534

912

Hiroshi Fukui

概要

Feature Pyramid Network(FPN)ベースのMask R-CNNに，下位層の特徴マップを上位層に伝播させるPath Aggregation Networkを提案．インスタンスセグメンテーションの傾向として，上位層では物体全体に強く反応するが，下位層では物体の局所的な領域に強く反応する．そのため，Path Aggregation Networkでは，上位層と下位層の特徴マップを用いることで，インスタンスセグメンテーションの精度を向上させている． Path Aggregation Networkは，COCOのベンチマークで2位の性能を達成しており，CityscapeとMVDでも高い性能を達成している．

新規性・結果・なぜ通ったか？

Path Aggregation Networkの構造は右図のようなシンプルな構造になっている．(a)の部分はFPNと同様の構造となっており，FPNの特徴マップから(b)で新しい特徴マップを作成する．ここで，(a)と(b)では，緑線と赤線のように短距離と長距離のショートカットを導入する．これにより，下位層の特徴を上位層に伝播することが可能である．

コメント・リンク集

論文リンク

[#820]

2018.5.8 02:54:08

StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation

Yunjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha, Sunghun Kim, Jaegul Choo

CVPR2018, arXive:1711.09020

872

Hiroshi Fukui

概要

1つのネットワークでマルチドメイン対応の画像変換が可能なStarGANを提案．pix2pixやCycleGANの場合，左上図のように特定の1つのドメイン変換しかできないため，複数のドメイン変換をする時には各ドメインを変換するネットワークをそれぞれ構築しなければいけない． StarGANでは，入力する条件とロス設計を適切に設計することで，シンプルなネットワークで多ドメインな画像変換を実現している．実験では，顔属性のCelebAと表情のRaFD Datasetを使用し，2つのデータセットでGANを学習して下図のような多様な顔画像変換を可能にしている．

新規性・結果・なぜ通ったか？

StarGANの構造は，右上図のようになっている．ここで，入力はそれぞれのドメインの画像がランダムに入力される．まず，real imageとfake imageでDiscriminatorを学習する．そして，次にGeneratorを学習する． Generatorは，生成したい顔画像の条件とreal imageを入力して，画像変換する．ここで，変換した画像はDiscriminatorに入力される．変換した顔画像はCycleGANのようにreal imageを再変換する．定義するロスは，一般的なAdversarial Loss，ドメインを認識するロス，real imageと再変換したimageのL1 Lossである．また，複数のデータセットを学習するために，各データセットのラベルとデータセットの情報が格納されたMask vectorを導入している．これにより，多ドメインかつ複数データセットに対応したGANを構築できている．

コメント・リンク集

多ドメインかつ複数データセットに対応したGAN．変換するドメインの数に依存しないので，非常に用途が広がりそう．

[#821]

2018.5.8 01:27:52

Semi-parametric Image Synthesis

Xiaojuan Qi, Qifeng Chen, Jiaya Jia, Vladlen Koltun

CVPR 2018 (oral)

概要

意味ラベル（Semantic Layout）から写真のようにリアルな画像をSemi-parametricな手法にて生成する。Semi-parametricはNon-parametricとParametricの強みを相補的に適用する手法である。セマンティックセグメンテーションのアノテーションとその対応する画像をペアとした外的なメモリにより対応関係を学習、Canvasとしてその順番や境界面を初期ステップとして出力する。次にCanvasと意味ラベルを入力としてConv-Deconv構造のネットワークにより写真のようにリアルな画像を出力とする。

180507SIMS

新規性・結果・なぜ通ったか？

Cityscapes, NYU, ADE20Kデータセットとセマンティックセグメンテーションに関するラベルが付与されていれば学習/テストが可能であり、同データセットにて従来法よりもさらにリアルな画像を生成するに至った。図には従来法（Chen and Koltun, ICCV 2017）との比較があり、従来法ではエッジ付近にボケが生じているが、提案法ではボケを相殺してさらに光の度合いまでもリアルに復元できている。

コメント・リンク集

意味ラベルから写真を復元することに成功した。今後、さらに生成するアピアランスや配置をコントロールする手法が登場すれば、学習データを無限に増やすことができたり、作りたい写真を再構成することが可能になる。

[#822]

2018.5.7 13:32:33

Hierarchical Novelty Detection for Visual Object Recognition

Kibok Lee, Kimin Lee, Kyle Min, Yuting Zhang, Jinwoo Shin, Honglak Lee

CVPR 2018

131

Yue Qiu

概要

・最も近いスーパークラスを予測することにより階層的新規(novelty)物体識別及び検出のフレームワークを提案した．・従来，新規なunseen物体識別は”known”と"unknown"に回帰する問題として対応されている．この論文で，物体のクラスを階層的に取り扱い，unseen物体の最も近いスーパークラスを求める．提案フレームワークによりgeneralized zero-shot learningタスクに用いられる階層的エンベディングを得られる．・2種類の階層的な新規(novelty)物体検出構造を提案した．①top-down構造ではconfidence-calibrated classifierにより物体を分布の一致性が高いスーパークラスに分類する．②flatten構造では階層的分類構造の全体を用いずに error aggregationを避ける単一的なclassifierを用いる．また，①と②を組み合わせすることにより，階層的検出精度を向上できることを示した．

hierarchical_detection

新規性・結果

・従来のクローズデータセットを用いた物体検出と比べ，提案手法はオープンデータセットを対応できる．・generalized zero-shot learningタスクで提案フレームワークを用いられる・ ImageNet, AwA2, CUBなどのデータセットで階層的新規(novelty)物体識別においてベースラインより高い精度を達成した．

リンク集

論文

[#823]

2018.5.7 13:08:17

Revisiting Salient Object Detection: Simultaneous Detection, Ranking, and Subitizing of Multiple Salient Objects

Md Amirul Islam, Mahmoud Kalash, Neil D. B. Bruce

CVPR 2018

892

Yue Qiu

概要

・マルチsalientオブジェクトおよびそれぞれのsalientランキングを同時に検出するネットワークを提案した．・従来のsalientオブジェクトタスクに，salientランキングは観測者によって異なる結果が出る性質があるため，オブジェクトのsalientランキングについてまだ検討されていない．この文章でsalientランキングを有効的に得られるネットワークを提案した．またsalientランキング手法の評価方法も提案した．・具体的なネットワーク構造はまずencoderネットワークにより粗末な相対salientスタックを生成し，そしてStacked Convolutional Module (SCM)により粗末なsaliency mapを生成する．またrank-awareでstage-wiseなネットワークによりsalientスタックをリファインする．ヒュージョンレイヤーにより各stageのsaliency mapを統合する．

Revisiting-Salient-Object-Detection

新規性・結果

・saliency ランキングの提案・AUC, max　F-measure, median F-measure, average F-measure,MAE, and SORなどの評価方法により，state-of-the-artなsalientオブジェクト検出性能を達成した．

リンク集

論文

[#824]

2018.5.7 12:45:59

Rethinking the Faster R-CNN Architecture for Temporal Action Localization

Y. Chao et al.,

CVPR 2018

Kensho Hara

概要

動画中の行動のラベル，開始・終了時刻を推定するTemporal Action Localizationの研究． Faster R-CNNによる物体検出をベースにLocalizationをする．ここで，スケールのバリエーションが非常に大きい，前後の行動などのコンテキストが重要， RGBとFlowをどう統合するか，といった3点の検討が重要としてこれらに取り組んでいる．提案手法であるTAL-Netのポイントとしては，アンカーごとに適切なスケールの受容野を持つ異なるCNNを組み合わせて利用している点．各問題に対する設計がそれぞれ精度向上に寄与している点を実験から確認し， THUMOS'14でのSOTAを達成．

Rethinking_the_Faster_R-CNN_Architecture_for_Temporal_Action_Localization.png

新規性・結果・なぜ通ったか？

行動の時間スケールについての検討をちゃんと行った点は新規性がある
提案手法の各要素についての実験がされていて，それぞれによる精度向上を確認できている

コメント・リンク集

論文 (arXiv)
目新しいアイデアはないように思うが，問題点に対する解法を検討してかっちりと評価している
この辺りのスケールの話は大事そうなのにこれまで意外とちゃんとやられてきてなかったところ

[#825]

2018.5.7 12:44:45

PWC-Net: CNNs for Optical Flow Using Pyramid, Warping, and Cost Volume

Deqing Sun, Xiaodong Yang, Ming-Yu Liu, Jan Kautz

CVPR 2018 (oral)

概要

コンパクトかつ効果的なオプティカルフロー推定を実現するPWC-Netを提案する。ピラミッド構造かつ学習可能な階層的処理、射影（Warping）、コストボリュームにより設計され、軽量化しながら高精度なフロー推定を実現している。図は従来法（左図）と提案法（右図）のアーキテクチャの概略を示している。従来は画像のピラミッド構造により全てのサイズを階層的にオプティカルフローの射影や最適化を行い、最後に後処理をしていたが、提案法のPWCNetではあるひとつの階層内で後処理を行い、コンテキストを考慮したネットワーク（ContextNetwork; Dilated Convによる、各階層のオプティカルフローを入力するとそれらを総合的に解釈して最良のオプティカルフローを出力する）を通り抜けることで出力する。間には{Warping, Cont Volume, Optical flow}を行う層により構成される。

180507PWCNet

新規性・結果・なぜ通ったか？

従来法であるFlowNet2よりも17分の1の軽量化モデルでありながら、MPI Sintel final pass/KITTI 2015 BenchmarkにてState-of-the-art、Sintel 1024x436の解像度にて35fpsで動作する。

コメント・リンク集

オプティカルフロー/距離画像の推定など、RGBの入力から異なるチャンネルを出力する課題が登場して本論文のように精度向上やコンパクト化、処理速度向上が著しい。ただし、出力したオプティカルフローや距離画像の出力自体の正当性を保証するような評価方法が必要？特に、異なるドメイン（ドイツの道路データで学習して日本の道路データでテストするなど）での適応とその性能保証は欲しいところ。
（さすがNVIDIA！？）実験量がとても多く見える。Table1~7までびっしり実験結果が埋められている。
論文
Project
GitHub

[#826]

2018.5.7 12:26:54

LEGO: Learning Edge with Geometry all at Once by Watching Videos

Z. Yang et al.,

CVPR 2018

Kensho Hara

概要

ラベルなし動画からの3次元幾何 (Depth, Normal) の推定．従来研究のものだと画素ごとの誤差で最適化していたのでボケた幾何構造推定になっていたのが問題と主張．提案手法はエッジと3次元幾何を同時に推定して最適化することで，左図 (f) のような正確な幾何構造を推定可能にした．ベースは従来手法同様で，カメラ姿勢を推定し，それに基づくWarping結果と元のフレームとの間の誤差をとって最適化．これに，エッジ推定と3D-ASAP (as smooth as possible in 3D) Priorを導入したところがポイント． 3D-ASAPはある2点間の間にエッジがなければその2点は同一平面上にあるという仮定に基づく提案手法．

LEGO_Learning_Edge_with_Geometry_all_at_Once_by_Watching_Videos.png

新規性・結果・なぜ通ったか？

3次元幾何とエッジ推定を同時にする手法の提案
3D-ASAP Priorの定式化とそれによる精度向上を実現
KITTIやCityScapesでのSOTAを達成

コメント・リンク集

[#827]

2018.5.7 11:15:05

DA-GAN: Instance-Level Image Translation by Deep Attention Generative Adversarial Networks

Shuang Ma, Jianlong Fu, Chang Chen, Tao Mei

CVPR 2018

695

Yue Qiu

概要

・無監督インスタンスレベルのattentionを用いたImage Translationフレームワークを提案した．・従来の無監督Image Translationではセットレベルで実現され，物体パーツレベルの対応ができないため，従来手法より生成した物体画像が幾何や意味的な情報のリアル性が低い場合がある．それと比べ，提案フレームワークは①物体をはattentionを用いた高構造化latent空間に変換し，このlatent空間によりインスタンスレベルなImage Translationを可能にした．②さらに，source samplesとtranslated samplesをセマンティック的に対応させるconsistency lossを提案した．

DA-GAN

新規性・結果

・初めてattentionをGANに導入したと宣言・MNIST , CUB-200-2011, SVHN , FaceScrub and AnimePlanet 1などのデータセットを用いて実験を行い，ドメンadaption，テキスト-画像合成，ポーズモーフィング，顔‐アニメーション化などのタスクにおいて，state-of-the-artな精度を達成した．

リンク集

・attentionをGANに導入し，さらに精密で構造化した画像生成ができるので，様々なアプリで応用できそう

論文

[#828]

2018.5.7 10:19:19

PhaseNet for Video Frame Interpolation

Simone Meyer, et al.

1804.00884

Munetaka Minoguchi

概要

様々なシーンに頑健かつ、大きな動きにも対処しながらビデオフレームの補間を行うPhaseNetの提案。中間のフレームにおける位相と階層構造を推定するnnのデコーダを搭載。これにより、既存の位相ベースの手法よりも広範囲に渡る動きに対応。

新規性

既存のビデオフレーム補間アプローチは、フレーム間において密な対応付けが必要であり、照明変化や被写体ブレに頑健でない。カーネルに依存した深層学習ベースの手法でもある程度緩和することはできるが不十分。ピクセル単位の位相ベースの手法ならば上手くいくことが実装されている。位相ベースでnnを用いた手法を提案。

結果・リンク集

位相のlossとノルムを組み合わせることで、チャレンジングなシーンでも視覚的に綺麗な画像を生成できる。

論文

[#829]

Multi-scale Location-aware Kernel Representation for Object Detection

Hao Wang, Qilong Wang, Mingqi Gao, Peihua Li and Wangmeng Zuo

CVPR2018

153

Ryosuke Araki

概要

物体検出時に特徴量の高次の統計量（high-order statistics）を獲得するためのMulti-scale Location-aware Kernel Representation（MLKP)を提案する．MLKPはSSDで用いるような，複数解像度の特徴マップを結合したマルチスケール特徴マップを用いて効果的に計算できる．マルチスケール特徴マップをMLKPに入力すると，畳み込みと要素ごとの積算を行いr次の表現Z^rを得る．このとき，location-weight networkは各位置の寄与度を学習する．その後，各次の表現を重みつき結合し，RoI Poolingへ入力する．

新規性・結果・なぜ通ったか？

最近の分類メソッドでよく用いられる高次統計量を物体検出器の高精度化に用いる手法である．Faster R-CNNにMLKPを統合することで，Faster R-CNNよりも精度が4.9%(mAP, VOC2007），4.7%（mAP, VOC2012），5.0%（MSCOCO）向上した．DSSDやR-FCNと比較しても同等もしくはそれ以上の性能である．

コメント・リンク集

流行りのマルチスケール手法をR-CNNに昇華した感じ．R-CNNベースの手法もまだまだ煮詰める余地は十分ある．

arXiv
コードpy-faster-rcnnをベースにされている．マルチGPU版もあり

[#830]

2018.5.7 01:24:41

Self-supervised Learning of Geometrically Stable Features Through Probabilistic Introspection

David Novotny et al.

CVPR 2018

Tomoyuki Suzuki

概要

幾何学変換を利用したGeometrically Stable な特徴表現の獲得手法。オリジナル画像とそれに幾何学変換を施した画像を同じCNNに学習し、中間特徴マップ上で対応するpixelでの特徴量の類似度が高くなるように学習する。キーポイントマッチングなどの問題設定で教師あり学習以上の効果を発揮。Pixelによってはマッチングが困難ば場合も存在するため、不確実性を考慮した学習を提案。

手法・新規性

ペアとなる画像を同じNNに入力し、各pixel ペアの類似度と、不確実性を表す値を算出。不確実性を考慮した損失関数を定義することで、結果的にNNはマッチング可能かつ対応するpixelに関しては高い類似度と低い不確実性を、マッチングが困難なものに関しては高い不確実性を算出するように学習される。

メモ・リンク

定義された距離尺度において対象に直接近づける枠組みが多い通常の類似度学習と異なり、連続値である類似度を確率変数とすることで、不確実性を考慮するのは興味深い。しかし、定式化としては論文内のものよりも、不確実性利用してモデルが類似度の分布を算出しているという定式化にした方がわかりやすいのではないかと思った。

論文

[#831]

Squeeze-and-Excitation Networks

Jie Hu, Li Shen, Gang Sun

CVPR2018, arXive:1709.01507

891

Hiroshi Fukui

概要

Residualモジュール, Inceptionモジュールに対してAttention機構を導入したネットワーク．Squeeze-and-Excitation Networks(SENet)では，生成される特徴マップのチャンネルに対してAttentionを導入している． SENetは，ImageNetでstate-of-the-artな性能を達成している．(現在1位) また，Place Datasetでも高い性能を達成している．

新規性・結果・なぜ通ったか？

SENetには，右図のように2つのモジュールが提案されている．SE Inception moduleは，VGGやAlexNet等の順伝播ネットワークで使われるSEモジュール． SE Residual moduleは，ResNet系のネットワークに使われるSEモジュールである．基本的には，Global Average Poolingを施した後に，全結合層を何層か通してチャンネル毎のAttentionを生成する．この構造は，ResNet等の様々なネットワークモデルにも適応できる．

コメント・リンク集

コメント・リンク集

やはり既存の手法では精度を出すのは難しそう。このデータセットで精度を出すチャレンジングな研究をするのはアリ。

論文

[#835]

Between-class Learning for Image Classification

Yuji Tokozume, Yoshitaka Ushiku and Tatsuya Harada

1711.10284

Munetaka Minoguchi

概要

Between-Class learning(BC learn)という画像分類タスクにおける新学習方法の提案。まず、異なるクラスの2枚の画像をランダムな比率で混合したbetween-class imageを作成。そして、画像を波形として扱うためにミキシングを行う。混合画像をモデルに入力し、学習することで混合した比率を出力する。これにより、特徴分布の形状に制約をかけることができるため、汎化性能が向上する。

新規性

もともとは、混合できるデジタル音声のために開発された手法。CNNは“画像を波形として扱っている”という説から、本手法を提案。2つの画像を混合する意味に疑問はあるが、実際にパフォーマンスが向上している。

結果・リンク集

混合とミキシングの提案手法によって分類精度が向上。画像の混合にどんな意味があるのかを解明してほしい。

論文

[#836]

CleanNet: Transfer Learning for Scalable Image Classifier Training with Label Noise

Kuang-Huei Lee, Xiaodong He, Lei Zhang and Linjun Yang

CVPR 2018

Munetaka Minoguchi

概要

ラベルノイズを使って、画像分類モデルを学習するCleanNetの提案。人間による“ラベルノイズの低減”という作業を低減する。事前知識として人の手で分類されたクラスの一部の情報だけを使い、ラベルノイズを他のクラスに移すことができる。また、CleanNetとCNNによるクラス分類ネットワークを1つのフレームワークとして統合。ラベルノイズ検出タスクと、統合した画像分類タスクの両方で、ノイジーなデータセットを使って精度検証。

新規性

人間がラベルのアノテーションをすると時間がかかり、学習はスケーラブルじゃない。逆に人間に頼らない手法はスケーラブルだが、有効性が低い。少し人間に頼って、あとは自動的にノイズ除去をするというハイブリットな手法。

結果・リンク集

弱教師付き学習と比較して、ノイズを41%低減。画像分類タスクにおいて、47%パフォーマンスが向上。

論文

[#837]

Super-Resolving Very Low-Resolution Face Images with Supplementary Attributes

Xin Yu, Basura Fernando, Richard Hartley, Faith Porikli

CVPR 2018 Poster

Kazuki Inoue

概要

顔画像のアトリビュートを使用することでGTとなる高解像度画像(HR)を使用せずに低解像度画像(LR)を超解像度化する研究。LRとともに顔のアトリビュートも入力として使用することで超解像化における曖昧さを解決。ネットワークの大枠はGANを採用。ジェネレータにおいてLRをauto encoderに噛ませる際にエンコードされた特徴量にアトリビュートを付け足してでコードを行う。ディスクリミネータはGTのHR画像なら1を、ジェネレータによる画像or画像にアトリビュートが含まれていないと判断した際には0を返す。

新規性・結果・なぜ通ったか？

入力は16x16画像、出力は入力画像が128x128に超解像度化された画像。
PSNR、SSIMを評価指標として既存手法と比べたところもっとも良い精度を得た。
既存手法で入力されたLRに対して一意的なHRのみしか出力することができなかった。一方提案手法では入力するアトリビュートに伴って出力するHRの見た目を変更することが可能。

コメント・リンク集

トレーニングで使用したデータセットはCelebAであり、使用したアトリビュートはCelebAに付属する40種類のうちからgender, ageなど18種類。
論文

[#838]

Single-Shot Object Detection with Enriched Semantics

Z.Zhang, S.Qiao, C.Xie, W.Shen, B.Wang and A.L.Yuille

CVPR2018

arXiv:1712.00433

Kota Yoshida

概要

Detection with Enriched Semantics (DES)というシングルショットオブジェクト検出器を提案．セマンティックセグメンテーションブランチとオブジェクト検出ブランチで構成. セマンティックセグメンテーションブランチとグローバルアクティベーションモジュールによってオブジェクト検出の特徴であるセマンティクスを向上．既存のSSDなどのシングルショット検出器よりも速度と精度が向上．

新規性・結果・なぜ通ったか？

セマンティックセグメンテーションブランチに高レベルのオブジェクト特徴のためのオブジェクト検出特徴チャンネルとオブジェクトクラスとの意味的関係を学習するためのグローバルアクティベーションブロックを加える．
一般的なシングルショット検出器と比較して大幅に検出精度が向上，
Titan Xp GPU1台で、31.7 FPSを達成し、R-FCNやResNetベースのSSDよりも高速.

コメント・リンク集

Paper

[#839]

2018.5.6 01:42:36

Revisiting Deep Intrinsic Image Decompositions

Qingnan Fan, Jiaolong Yang, Gang Hua, Baoquan Chen, David Wipf

CVPR 2018 oral

概要

光の反射やシェーディングなどを再計算することで自然画像の分解と再構成（Image Decomposition）を行う問題設定である。従来型の事前情報を陽に与えるフィルタリング手法とは異なり、深層学習による提案手法では（十分なラベル付きデータが存在すれば）画像の内的な情報を効果的に捉えて画像の再構成をより自然に行うことができると主張。この問題を解決するために、２種類のカテゴリに関する問いー（１）詳細なラベル付きデータ（２）弱教師付き学習により比較的多様なラベル付きデータを学習ーを解決することができる。これにより学習データには詳細なラベル付けを行わず弱い事前知識（Loose Prior Knowledge）のみで大量のサンプルを準備することができる。手法面において、最初は荒く光の反射（Albedo）やシェーディングを推定し、次いでエッジやテクスチャ等を推定できるようにフィルタリングを学習する。

180505DeepIntrinsic

新規性・結果・なぜ通ったか？

主要な画像再構成のベンチマークにおいて全てState-of-the-artの（最先端の）結果を達成した。さらに、従来まではデータセットに対してアドホックである（と思われる）が、本論文にて提供するデータや手法はよりオープンかつリアルな問題に対して汎用的に使用できる。弱い事前知識のみでリアルデータを学習できるようにしたことも新規性として挙げられる。CVPRの査読を突破できた理由として、State-of-the-artな精度を全てのデータにて達成したことや、その学習法/アーキテクチャの提案にあると考える。

コメント・リンク集

光の反射（Albedo）や陰影（shading）を同時に推定できる技術はよりリアルな画像の生成には重要技術なのでどんどん進んで欲しい。

[#840]

2018.5.5 17:36:29

Self-supervised Multi-level Face Model Learning for Monocular Reconstruction at over 250 Hz

Ayush Tewari, Michael Zollhöfer, Pablo Garrido, Florian Bernard, Hyeongwoo Kim, Patrick Perez, Christian Theobalt

CVPR 2018 Oral

Kazuki Inoue

概要

単眼顔画像からリフレクタンス、ジオメトリー、照明情報を推定する研究。トレーニングデータには上記の情報のアノテーションを必要とせず、3D Morpahlbe Modelを使用することで高品質な3Dパラメトリックモデルを生成。 3D Morpahlbe Modelを使用することで高品質な3Dパラメトリックモデルを生成。テスト時には250Hz以上で実行することができる。

新規性・結果・なぜ通ったか？

大量のアノテーションが必要という既存手法の問題点を解決
様々な表情に対応することができ、口髭や化粧も再現することが可能。
既存のラーニングベースの手法と比較した結果、同等の実行時間でより精度の高いリコンストラクションが可能となった。最適化ベースの手法と比較すると10%ほど精度は落ちるものの、最適化ベースの手法では実行時間が120secかかるが提案手法では4msで実行可能。

コメント・リンク集

目元やおでこの皺の再現には至っていない
論文
Project page

[#841]

TextureGAN: Controlling Deep Image Synthesis with Texture Patches

W.Xian, P.Sangkloy, V. Agrawal, A.Raj, J.Lu, C.Fang, F.Yu and J.Hays

CVPR2018

arXiv:1706.02823

Kota Yoshida

概要

ユーザが色，スケッチ，テクスチャから深層画像合成を行うTextureGANを提案．既存手法では，カラーやスケッチによる制御を行っているが今回の手法ではユーザがテクスチャパチをスケッチ上に配置することによってテクスチャによる制御を実現．

新規性・結果・なぜ通ったか？

深層画像合成における細かいテクスチャ制御の妥当性を初めて実証
ユーザが特定のテクスチャをスケッチの境界に「ドラック＆ドロップ」するテクスチャインタフェースの提案.
生成ネットワークで既存のオブジェクトに見られないテキスチャであった場合でも扱うようにする局所テクスチャロスを定義．

結果・リンク集

TextureGANをローカルテクスチャで制約することにより，テクスチャとスケッチベースの画像合成の効果を実証．
別のテクスチャデータベースから抽出されたテクスチャから生成されたスケッチを用いて実験を行い、提案アルゴリズムがユーザコントロールに忠実な妥当な画像を生成されることを確認．
Paper

[#842]

2018.5.5 01:54:38

Learning Deep Models for Face Anti-Spoofing: Binary or Auxiliary Supervision

Yaojie Liu, Amin Jourabloo, Xiaoming Liu

CVPR2018 SPOTLIGHT

Kazuki Inoue

概要

入力された動画が生身の人間によるものか、あるいはそれ以外のspoofing（撮影された動画や顔のプリントなど）を判定する研究。空間的な情報として顔のデプスマップ、時間的な情報としてrPPG（信号のパルス信号）。 CNN-RNNモデルを使用しCNNでデプスマップと顔の特徴量マップを、RNNは各時刻でCNNによって推定された顔の特徴量マップを入力としてrPPGを推定する。既存研究では様々なパターンのspoofingがあるにも関わらずCNNによるバイナリの識別問題として捉えていたため、CNNの広すぎる空間を学習してしまい結果的に過学習をしてしまっていた。提案手法では補助的な情報としてデプスマップ、rPPGを使用することで識別精度を向上した。更に165の被写体に対して様々な照明環境、ポーズ、表情、顔むきごとの動画を収集し、anti-spoofingのためのSiWデータベースを構築した。

新規性・結果・なぜCVPRに通ったか？

提案手法では既存研究のようにバイナリの識別問題とはとらえず、デプスマップとrPPGを使用することで学習したパターンのspoofingを確実に検出できることを目的とした。
既存研究とAPCER、BPCER、ACER、HTER値における比較を行なった結果、提案手法優位な結果となった。識別精度は約72%、state-of-the-artの研究では約34%。
165の被写体に対して様々な照明環境、ポーズ、表情、顔むきごとの動画を収集し、anti-spoofingのためのSiWデータベースを構築。

コメント・リンク集

論文

[#843]

Adversarially Learned One-Class Classifier for Novelty Detection

M.Sabokrou, M.Khalooei, M.Fathy and E.Adeli

CVPR2018

arXiv:1802.09088

Kota Yoshida

概要

1クラス分類の際のノベリティ検出のために2段階のネットワークを構築．1つのネットワークはノベリティの検出をし，もう1つでは，inlierを強化しoutlierを歪ませる．画像と動画で検証．

概要図

新規性・結果・なぜ通ったか？

1クラス分類のためのend to endネットワークを導入したもの
GANを用いた手法では学習後に片方のモデルのみが使われるが，今回の手法ではテストの際に両方のモデルを掛け合わせることで効率化を図る

結果・リンク集

inlierとoutlierの分類は元のクラスのサンプルの決定よりも優れている．
ノベリティクラスのサンプルが無くても学習し，動画や画像の異常を検知でき，様々なアプリケーションで高いパフォーマンスを示す．
Paper

[#844]

2018.5.4 03:50:34

Feature Space Transfer for Data Augmentation

Bo Liu, Mandar Dixit, Roland Kwitt, Nuno Vasconcelos

CVPR 2018

概要

画像空間上ではなく、特徴空間上でデータ拡張（Data Augmentation）を行う研究である。この課題に対して著者らは特徴空間上で物体姿勢/見え方のバリエーションを多様体として考慮するFeature Transfer Network (FATTEN)を提案。従来の特徴空間上でのデータ拡張とは異なり、提案法であるFATTENはEnd-to-Endでの学習が可能であり、より効果的にデータ拡張を実行可能である。同ネットワークは姿勢やカテゴリの多タスク学習により学習を行う。図は直感的な特徴空間上での挙動を示したもので、Pose/Appearanceにおける特徴空間の動線を把握した上でデータ拡張を行うことができる。One-/Few-shot学習でも効果を発揮し、特にOne-shotでは他を大きく離して優れていることを示した。

180504FATTEN

新規性・結果・なぜ通ったか？

新規性としては複数の属性（ここでは姿勢・アピアランス）を同時に考慮しながら特徴空間上でデータ拡張を行える点が新規性としてあげられ、さらに関連研究と異なるのはEnd-to-Endで学習できる点も優れている。直感的にはビューポイントの違いとそれに対応するアピアランスを拡張する形で特徴学習ができていると言える。FATTENを適用しModelNet/SUN-RGBDのデータセットにてデータ拡張を行った結果、はっきりとした精度向上を確認した。

コメント・リンク集

RotationNetとの比較や統合（RotationNet+FATTEN）が気になる。もともとこの論文で扱っている問題に対して精度が高いRotationNetに本論文のデータ拡張手法を使用するとさらに大きく精度向上するのでは？

[#845]

2018.5.4 00:21:12

Deep Extreme Cut: From Extreme Points to Object Segmentation

Kevis-Kokitsi Maninis, Sergi Caelles, Jordi Pont-Tuset, Luc Van Gool

CVPR2018, arXiv:1711.09081

Hiroshi Fukui

概要

Extreme pointを用いた物体セマンティックセグメンテーション法．このExtreme pointは，セグメンテーションの上端，下端，右端，左端を使用している． 4つのExtreme pointは，物体の大まかな形状の情報を取り込みながらCNNを学習することができる． Pascal VOC, COCO, DAVIS2016, DAVIS2017, Grabcutで評価し，どのベンチマークにおいても高い性能を示している．また，セマンティックセグメンテーションのアノテーションツールとして応用できることも示している．

新規性・結果・なぜ通ったか？

使用するネットワークは，ResNet101をBackboneにしたDeepLab-v2である．提案手法のDeep Extreme Cutでは，Extreme pointを有効的に学習するために，点にガウシガウシアンを施してヒートマップを作成し，そのヒートマップを入力画像のチャンネルに追加している．この学習方法は，様々なタスクのセグメンテーションに有効であり，セマンティックセグメンテーション，動画のセグメンテーション，インスタンスセグメンテーション，インタラクションセグメンテーションに応用することができる．また，セグメンテーションのアノテーションツールにも応用でき，従来のアノテーションコストを10分の1まで削減できていることを示している．

コメント・リンク集

[#846]

2018.5.3 23:45:06

Detail-Preserving Pooling in Deep Networks

Faraz Saeedan, Nicolas Weber, Michael Goesele, Stefan Roth

CVPR 2018

概要

徐々にダウンサイジングしながらも詳細な情報は保持するという問題設定を解決するDNN、特に微分可能なプーリング手法であるDetail-Preserving Pooling（DPP）を提案する。同ネットワークでは隠れ層にて徐々にダウンスケールを行う。図にはフローチャートが示されている。このように線形ダウンスケーリングを施した画像に対して、出力が情報量をできる限り失わないように学習できるプーリングを提案することで任意の畳み込みネットに対して性能向上を見込める手法とした。

180503DPP

新規性・結果・なぜ通ったか？

データセットにより最良なプーリングの手法が異なるという欠点を解決するべくDPPを提案した。また、グラフィクスの分野にて提案されているDPID（文献31）を参考にして微分可能（学習可能）なプーリング手法を提案した。このようにして作成されたプーリングはあらゆるネットワークに対し有効にフィットし、（max/average poolingなどより）精度向上を保証すると主張した。例として単純にResNet-101のアーキテクチャのプーリングを置き換えてもCIFAR10にてエラー率が下がっている。このように学習可能であり、汎用的に使用できて高精度が期待できるプーリング手法を提案したことが採択された理由であると考える。

コメント・リンク集

本手法が汎用的に使用できるのであれば、早い段階でDLフレームワーク（e.g. PyTorch, TensorFlow）などに実装されて使用されるかも？実装面の難しさがどの程度あるか次第か。

[#847]

2018.5.3 23:36:27

Learning a Single Convolutional Super-Resolution Network for Multiple Degradations

Kai Zhang, Wangmeng Zuo and Lei Zhang

CVPR2018

kodai nakashima

概要

従来の単一画像の超解像手法では，低解像度の画像は，高解像度の画像からのバイキュービック的にダウンサンプリングされたものであるという仮定を置いている．そのため，この仮定に従わない場合，性能が低下する．さらに，複数の劣化に対処するスケーラビリティーも欠けている．本論文ではこれらの問題に対処するため，畳み込み超解像ネットーワークに低解像度画像とdegradation map（ブラーカーネルとノイズレベルから作成）を入力する方法を提案している．

Learning_a_Single_Convolutional_Super-Resolution_Network_for_Multiple_Degradations.PNG

Learning_a_Single_Convolutional_Super-Resolution_Network_for_Multiple_Degradations_1.PNG

新規性・結果

畳み込み超解像ネットワークにブラーカーネルやノイズレベルも入力しようとすると，低解像度画像とのサイズの違いによりネットワークの設計が困難になる．本論文では，dimensionality stretcing strategyを導入することによりこの問題を解決した点が新しい．

劣化されたSet5などのデータセットに対して，従来法や提案手法を適用し，PSNRとSSIMにより評価した結果，提案手法が最も良い結果を示した．

リンク集

論文URL

[#848]

2018.5.3 15:51:30

Super-FAN: Integrated facial landmark localization and super-resolution of real-world low resolution faces in arbitrary poses with GANs

Adrian Bulat, Georgios Tzimiropoulos

CVPR2018 SPOTLIGHT

Kazuki Inoue

概要

任意の向きの低解像度顔画像に対して超解像度化する研究。生成された超解像度画像に対してランドマーク推定を同時に行うことで画像の精度が良くなることを主張。顔画像の高解像度化の際にランドマークを特定することは有用であることはすでに示されていたが、低解像度かつ任意の顔向きの際にはランドマークを使用して高解像度化することが難しかった。提案手法ではGANによって低解像度顔画像から超解像度化された顔画像を生成し、生成された顔画像に対してランドマークのヒートマップを推定を推定することでネットワークの学習を行う。

新規性・結果・なぜCVPRに通ったか？

解像度はそれぞれ入力画像が16x16、出力画像が64x64
生成された顔画像の評価指標としてPSNR、SSIMを、ランドマーク推定の評価指標としてAUCを使用し、顔向きが30・60・90度の顔画像に対してどちらも既存研究より良い顔画像を生成することが可能となった。
トレーニングの際に複数のロス関数を提案しているが、各ロス関数ごとの結果に関しても議論を行っている。

コメント・リンク集

論文

[#849]

Image Correction via Deep Reciprocating HDR Transfromation

Xin Yang, Ke Xu, Yibing Song, Qiang Zhang, Xiaopeng Wei, Rynson W.H.Lau

CVPR 2018

Kazuki Inoue

概要

入力されたLDR画像に対する露光量の調節をend-to-endに行う研究。２つのU-Netを使用し、LDR画像からHDR画像の推定と、推定されたHDR画像からLDRドメインへの変換、という２つ学習によって実現する。LDR画像に内包されている問題として、露光量が少ない箇所ではピクセルが黒く塗りつぶされてしまい、実際のシーンにおける色の推定が難しいという問題がある。そこで、LDR画像から一度HDR画像を生成することで、塗りつぶされた領域を修復する。

新規性・結果・なぜCVPRに通ったか？

入力LDR画像の露光量が多い部分や少ない部分に対しても適切な画像修復が可能となった。
同様の問題を扱う最新手法と比較した結果、提案手法優位な結果となった。主な理由としてはHDR画像からLDR画像へ変換する際に画像の局所的な詳細情報を保てていることをあげている。
定量評価として画像の質を表す数値であるPSNR、SSIM、FSIM、Q-scoeによる評価を行った。

コメント・リンク集

[#850]

Visual Question Answering with Memory-Augmented Networks

Chao Ma, Chunhua Shen, Anthony Dick, Qi Wu, Peng Wang, Anton van den Hengel, Ian Reid

CVPR2018, arXive: 1707.04968

875

Hiroshi Fukui

概要

学習サンプルに少ないような質問に対しても回答ができるような手法を提案．ベースはMemory-Augmented Network (One-shot learningを導入したMemory Network)であり，記憶ブロックとAttentionの機能により，稀に発生する質問に対しても正確に回答をすることができる． VQA benchmark datasetとCOCOのVQAタスクで評価し，高い性能を示している．

新規性・結果・なぜ通ったか？

この手法の大まかな構造はMemory-Augmented Networkになっており，特徴抽出部分が質問文と画像特徴である．画像特徴はVGGやResNetの特徴マップを使用しており，質問文はLSTMの特徴ベクトルを使用している．この2つの特徴ベクトルは結合され，質問と画像特徴の2つのAttentionがそれぞれ与えられてAugmented memoryに格納される．そして，Augmented memoryを用いて最終的な回答が出力される．提案手法では，右下図のように，稀に存在する困難な質問に対しても正確な回答を得ることができる．

コメント・リンク集

論文リンク

[#851]

2018.5.2 14:29:29

Deep Layer Aggregation

Fisher Yu, Dequan Wang, Evan Shelhamer, Trevor Darrell

CVPR2018, arXive: 1707.06484

272

Hiroshi Fukui

概要

Deep Neural Networkにおける，層間の結合に関して様々な検討を行った論文．従来のネットワーク(ResNet, DenseNet, FCN, U-Net等)のスキップ結合は，”浅い”結合しか適用されていなかった．この論文では，より”深い” 結合をネットワークに取り入れ，少パラメータかつ高精度なネットワークモデルを構築している．画像分類をはじめ，様々な認識タスクで実験を行い，高精度化を実現している．

新規性・結果・なぜ通ったか？

この論文では，右図のような4つのモデルを検討している(c~f)．(c)のようにシンプルに特定の層を集約して連鎖的に入力していくモデルから，(d~f)のように様々な層を集約して連鎖的に集約していくモデルを検討しており，上位層と下位層の層を効率的に伝播することで，認識精度を向上させている．また，(c)と(f)のモデルを組み合わせることで，より性能を向上させることも可能である．画像分類，Fine-grained Recognition，物体検出，セマンティックセグメンテーションで実験を行っており，全ての認識タスクにおいて高い性能を示している．

コメント・リンク集

Deep CNNの次期モデルを検討しているような論文．結局，画像分類，検出，セグメンテーションではスキップ結合が重要であることを再確認できる．

論文リンク

[#852]

2018.5.2 14:05:11

Data Distillation: Towards Omni-Supervised Learning

Ilija Radosavovic, Piotr Dollár, Ross Girshick, Georgia Gkioxari, Kaiming He

CVPR2018, arXive: 1712.04440

536

Hiroshi Fukui

概要

ラベル付きとラベルなしデータを用いることで画像認識の精度を向上させるData Distillationを提案．この手法では，self-trainingとHinton先生のKnowledge distributionをベースに提案されている．この手法は，インターネット上のラベルなしデータを大量に学習できる．この論文では，Mask R-CNNによる人のKeypoint検出と，FPNをbackboneにしたFaster R-CNNによる物体検出で高精度化を実現している． (COCOをラベル付き，Sports-1M statistic framesとCOCO2017unlabel imagesをラベルなしデータとして使用．)

新規性・結果・なぜ通ったか？

一般的なラベルなしデータを扱うModel Distillationとは異なり，Data Distillationは1つのteacher modelとstudent modelを用いる．構造としては，1つの画像を複数の単純な変形を加え，それぞれの認識結果を得る．そして，それぞれの認識結果を統合し，統合した認識結果をラベルとしてstudent modelを学習する．ここで，学習に使用するラベルは”soft”なラベルではなく，”hard”なラベル．COCOをベースに実験をしており，ラベルなしデータを併用することで人のKeypoint検出と物体検出で高精度化を実現している．

コメント・リンク集

シンプルかつ少量データの学習にも応用できるできるので，今後これをベースにした手法が増えそう．

論文リンク

[#853]

2018.5.2 14:10:01

Actor and Observer: Joint Modeling of First and Third-Person Videos

Gunnar A. Sigurdsson, Abhinav Gupta, Cordelia Schmid, Ali Farhadi, Karteek Alahari

CVPR 2018 (spotlight)

概要

一人称（First Person View; 頭部にカメラを装着して撮影）かつ三人称（Third Person View; 環境に設置したカメラから撮影）の視点から人物行動や操作している物体を撮影したデータセットCharades-Egoを提供する。一人称/三人称視点は互いに対応付けされており、実に157の行動カテゴリ、112人の実演、4,000の動画ペア、全8,000動画を保有するデータベースの構築に成功した。手法の側面ではTripletによる弱教師付き学習（Weakly-supervised Learning）により一人称/三人称から抽出した複数の特徴量を評価する枠組みActorObserverNetを提案する。さらには、三人称から一人称視点への知識転換（Transferring Knowledge）をZero-shot行動認識の枠組みで実行する。

180503CharadesEgo

新規性・結果・なぜ通ったか？

一人称/三人称は従来独立に撮影されて、それぞれのデータベースを構築して来たが、ここでは同時解析することにより行動に関するより詳細な考察（e.g. 間接的に行動を観察した方が良い vs. 操作している物体で行動を認識する方が良い）を行えるようにした。また、弱教師付き学習により特徴学習できるActorObserverNetを提案した。CVPRに通った理由はなんといってもデータベース（とそのベンチマーキング）、弱教師付き学習によるものである。

コメント・リンク集

Hollywood in HomesのようにAMT（クラウドソーシング）にてユーザがフリーで使用を許可した動画を収集するのはアリにしている。公開してフリーにしても良い人だけの動画を効率良く集める仕組みが今後流行ってくるか？（ただ日本だと難しいかも？）データベースに対するベンチマーキングは若干少ない印象を受けるが、データベースの意義自体が優れているため査読を突破したと思われる。

[#854]

2018.5.3 02:45:18

The Best of Both Worlds: Combining CNNs and Geometric Constraints for Hierarchical Motion Segmentation

Pia Bideau et al.

CVPR 2018

概要

モーションセグメンテーションの問題を扱う。従来のモーションセグメンテーションは幾何的制約を設けることで効果的に動作をセグメントして来たが、高次なセグメントに失敗していた。一方でCNNについては従来方とは逆の特性があった。この両者の特性を活かして、両者にとって良いところどり（The Best of Both Worlds）することでモーションセグメンテーションの性能を向上させた。手法は図に示すようにオプティカルフローを用いた剛体の動き推定（Perspective Projection Constraints）、変形可能でより複雑な物体形状を推定できるようCNNによるセマンティックセグメンテーションを実行。物体のモーションモデルを形成するために、SharpMask（論文中文献35）による物体候補も導入し物体に関する知識を導入した。

180503MotionSegmentation

新規性・結果・なぜ通ったか？

クラシカルなフローによる剛体モーション推定とCNNによる物体セグメンテーションを統合、両者の良い部分を引き出しているところが評価に値した。アブストラクト/図１が非常にわかりやすくこの２つで問題設定を把握できるところもグッド。

コメント・リンク集

[#855]

2018.5.3 01:36:43

Regularizing RNNs for Caption Generation by Reconstructing The Past with The Present

Xi.Cheny, L.Mazx, W.Jiangzx, J.Yaoy and W.Liuz

CVPR2018

arXiv:1803.11439

Kota Yoshida

概要

encorder/decorderモデルにhiden stateと過去のhiden stateを再構成することによって隣接するhiden stateの接続を強化するためのARNetを導入．

概要図

従来手法問題点

従来のRNNのtrainとinferenceの間にはexposure biasと呼ばれる相違が存在する．
decorderはの入力に依存する演算子を用いて，キャプション生成する．

結果・リンク集

RNNにおけるtransition dynamicsの正則化を助け，シーケンス予測の不一致の緩和が見られた．
ソースコードキャプション，イメージキャプションの両方で精度の向上が見られた．
Paper
github

[#856]

2018.5.2 23:09:07

Repulsion Loss: Detecting Pedestrians in a Crowd

Xinlong Wang, Tete Xiau, Yuning Jiang, Shuai Shao, Jian Sun and Chunhua Shen

CVPR2018, arXive:1711.07752

1005

Hiroshi Fukui

概要

群衆に頑健な歩行者検出法を提案．Faster R-CNNで群衆を検出したとき，歩行者同士の間にBounding Boxが出現しやすい．これは，Bounding Box回帰の誤差を算出する時に誤差を最小にしようとして歩行者同士の間にBounding Boxが発生してしまう．この現象を解決するために，新たにRepulsion Lossを導入し，群衆に対しても高精度な歩行者検出を実現している．

新規性・結果・なぜ通ったか？

Repulsion Lossの中身は， L1 smooth lossをベースにしたL_RepGTとL_RepBoxから構成されている．L_RepGTは，targetの歩行者付近から最も近いGTとの誤差を示しており，targetと最も近いGTにBounding Boxが検出されると誤差が大きくなるように誤差が設計されている． L_RepBoxは，複数のBounding Boxが特定の箇所に集中するように誤差を設定している． L_RepBoxの目的は，NMSの割合の影響を減らすためである．歩行者検出のCaltech, CityPerson(Cityscape)でstate-of-the-artな性能を出しており，Pascal VOCにおいても有効であることを示している．

コメント・リンク集

歩行者検出のベンチマークにおいて非常に高い性能を示しており，ResNetベースのFaster R-CNNに対してDilated Conv.を導入する等のちょっとしたテクニックも色々導入されている．

論文リンク

[#857]

2018.5.2 12:15:00

PackNet: Adding Multiple Tasks to a Single Network by Iterative Pruning

Arun Mallya, Svetlana Lazebnik

CVPR2018, arXive:1711.05769

1004

Hiroshi Fukui

概要

複数のデータセットを1つのネットワークで学習する場合，通常は過去に学習したデータセットは段々と精度が低下していく．これは，全てのパラメータに対して更新するため，過去に学習したデータセットの特徴を抽出できなくなっていくのが原因である．この論文で着目していることは，大規模なネットワークは特定のパラメータは学習をサボる傾向があるところであり，このサボっているパラメータを使って効率よく学習させて複数のデータセットを学習させている．

新規性・結果・なぜ通ったか？

手法自体は非常にシンプルであり，特定のパラメータをプルーリング(右上図の白領域)して再学習する．そして，プルーリングしたパラメータのプルーリングを解放してパラメータをアップデートする．特定のタスク(データセット)を学習した後は同じ要領でまたプルーリングと再学習を行う．特定のパラメータを特定のタスクに割り当てるような学習をすることで，複数タスクに対応している．結果としては，右図のようにタスクが追加されても性能がほとんど低下していない．

コメント・リンク集

単純な手法でありながら，非常に強力な手法．図2のインパクトがすごかった．様々な応用にも繋げれそう(Transfer Learning, Domain Adaptation等)

[#858]

2018.5.2 13:23:59

Tell Me Where To Look: Guided Attention Inference Network

Kunpeng Li, Ziyan Wu, Kuan-Chuan Peng, Jan Ernst, Yun Fu

CVPR2018, arXive: 1802.10171

1247

Hiroshi Fukui

概要

弱教師あり学習で得られる物体のローカライゼーションを高精度にする研究．方法としては2つ提案しており，

GAPのローカライゼーションを用いて物体の領域と背景の領域を明示的に学習させる方法と，
セマンティックセグメンテーションのラベルを用いて物体の詳細な領域を学習させる方法がある．セマンティックセグメンテーションと視覚的解釈に対する評価をしており，どちらのタスクも高い性能を示している．

新規性・結果・なぜ通ったか？

1)の方法では，2streamなCNNをベースにしており，入力はそれぞれ通常の画像と，GAPのローカライゼーションから物体領域を排除した画像を入力する．この処理により，物体と背景を明示的に学習できる．そして，セマンティックセグメンテーションでは， 1)のネットワークに加えて，セマンティックセグメンテーションのラベルと出力したAttention mapとの誤差を算出させることで，Attention mapを最適化させる． Pascal VOCのweakly-supervisedによるセマンティックセグメンテーションのタスクで評価し，高い性能を示している．また，発生するAttention mapの領域に対してオリジナルのデータセットを作成して評価している．

コメント・リンク集

論文リンク

[#859]

2018.5.2 13:37:25

Beyond Trade-off: Accelerate FCN-based Face Detector with Higher Accuracy

Kunpeng Li, Ziyan Wu, Kuan-Chuan Peng, Jan Ernst, Yun Fu

CVPR2018, arXive: 1802.10171

1003

Hiroshi Fukui

概要

一般的な顔(物体)検出法(Faster R-CNN, FPN, SSD, YOLO等)は，Backboneな部分がFCNベースで構築されているため，各ピクセルを密に畳み込んで検出結果を出力する．しかし，顔検出では背景領域を大量に含んでおり，検出に必要な領域はごく僅かである．本論文では，顔検出を効率化するために，2つのAttentionを適応して高速化を試みており，左上図のように高い性能を維持しつつ，4倍以上の高速化を実現している．

新規性・結果・なぜ通ったか？

本手法で適応しているAttentionは，右上図のようなspatial attentionとscale attentionである．spatial attentionは2次元上における顔の位置を示しており，scale attentionは出力されたスケールピラミッドから最適な特徴マップをAttentionで表現している． spatial attentionは2次元の位置のattentionから探索する領域を制限するために使用し，scale attentionは探索するスケールピラミッドを制限するために使用する．ネットワークは下図のようになっており，2つのAttentionにより背景と判定された領域は，マスクされた状態で後段のMask FCNに入力される． AFW, FDDB, MALFでstate-of-the-artな性能かつ，高速な検出が可能(最速で14.2ms)．

コメント・リンク集

Attentionを計算コスト削減に適応した物体検出法．顔検出や車載系の物体検出等の背景領域を多く含む問題設定では非常に効果的に使えそうな手法． (COCO, VOCではあまりコストに対しては言及していない)

論文リンク

[#860]

2018.5.2 13:55:50

Deep Marching Cubes: Learning Explicit Surface Representations

Y. Liao, S. Donné and A. Geiger

CVPR2018

Ryota Suzuki

概要

既存の学習ベースの3D面推定方法は，End-to-Endでの学習ができないが，本研究では，end-to-endでの学習を可能にした．3D面推定手法の一つのマーチングキューブは微分不可．そこで，代替の微分可能定式化を行い，これを3DNNの最終層として追加する．また，疎な点群で学習が行えるようにロス関数群を提案．サブボクセル精度での3D形状を推定可能であることを確認した．本モデルは形状エンコーダ・推論と組み合わせられる柔軟さがある．

新規性・結果・なぜ通ったか？

End-to-endで行われたものはない．適用範囲が広そう．

コメント・リンク集

論文

[#861]

2018.5.2 14:41:51

Convolutional Image Captioning

J.Aneja, A.Deshpande and A.Schwing

CVPR2018

arXiv:1711.09151v1

Kota Yoshida

概要

近年，条件付き画像生成や機械翻訳において畳み込みニューラルネットの功績は大きい，これを画像キャプションに応用してみた．ベースラインであるLSTMモデルと同等の精度を示し，パラメータ数ごとの学習時間の短縮をすることができた．

概要図

従来手法の問題提起

RNNは学習プロセスが逐次的
LSTM，RNNは画像の分類精度が低い

結果・リンク集

RNNとCNNのアプローチを分析し，CNNを用いたアプローチは出力確率分布のエントロピーの増大，単語予測精度の向上，消失勾配の影響の低下を示すことができた．
論文
github

[#862]

2018.5.1 18:06:38

Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning

Qi Wu, Peng Wang, Chunhua Shen, Ian Reid, Anton Van den Hengel

CVPR 2018

741

Yue Qiu

概要

・強化学習とGANを用いたVisual Dialog回答文を自動生成する手法の提案．・従来のVisual Dialogシステムは画像とDialog履歴に基づきMLEにより回答文の予測を行う．こういった手法では回答文が短い，バリエーションが少ないなどの問題点がある．そこで， co-attentionを利用したジョイントで画像， Dialog履歴をreasonできる回答文生成器を提案した．提案モデルはsequential co-attention生成器と回答文が“human”からか“生成された”かを弁別できる弁別で構成される．

Generate_visual_dialog

新規性・結果

・GANを用いた提案手法はVisual Dialogタスク従来の学習データの不足，簡潔な回答しか生成できないなどの問題点を改善した．・attentionをGANと組み合わせ，生成回答文のinterpretabilityを向上した・ VisDial データセットにおいて,従来の手法より高い精度を達成した．

リンク集

・interactive環境でVisual Dialog回答文の生成ができたら更に様々な場面で応用できる

論文

[#863]

2018.5.2 13:13:20

Density Adaptive Point Set Registration

Felix Järemo Lawin, Martin Danelljan, Fahad Khan, Per-Erik Forssen, Michael Felsberg

CVPR 2018

464

Yue Qiu

概要

・三次元センサーにより取得したPoint Set の密度の変動を対応できるPoint Set Registrationの手法を提案した．・従来の三次元センサー(例Lidar)により取得できるPoint Setの密度が均一ではない，一方，従来の確率的Point Set Registrationの手法は高密度の部分を対応させ，低密度の箇所の対応が重視されない問題点がある．提案手法はシーン構造の確率分布をモデリングすることにより，密度の変化にロバストに対応できる．・提案手法は3次元シーンの構造及びフレーム間のカメラ移動量を同時にモデリングし， EMベースなフレームワークに基づきKL divergenceを最小化によりパラメータの最適化を行う．

Density-Adaptive-Point-Set-Registration

新規性・結果

・Lidarを用いたregistrationシステムのPoint Setの密度変化をロバストで対応できた．・ DAR-ideal、 VPS and TLS ETH datasetsなどのLidarデータセットで従来の確率的マルチビューRegistration手法より良い性能を達成した．

リンク集

・deep learningを用いていない手法

論文

[#864]

2018.5.2 10:39:57

pOSE: Pseudo Object Space Error for Initialization-Free Bundle Adjustment

J. Hong and C. Zach

CVPR2018

Ryota Suzuki

概要

カメラ姿勢推定，3次元復元に使われるバンドル調整では，適した初期値を与える必要があるが，初期値を与える必要を無くす提案をする．

アフィンバンドル調整問題においては，任意の初期化から到達可能な使いやすいminimaがあることが知られているが，その主な要因は，収束のワイドな領域を持つことで知られているVariable Projection（VarPro）法の導入によるものである．本研究ではPseudo Object Space Error（pOSE）を提案する．これは，アフィンと射影のモデルのハイブリッドで表現される複数カメラにおける目的関数である．この定式化で，VarPro法に適したバイリニア問題構造となり，真の射影復元と近い3D復元結果を得られる．実験では，ランダムな初期化から高い成功率で正しい3D復元を得られることを確認した．

新規性・結果・なぜ通ったか？

ランダム初期値でもメトリックの正しい3D復元が行える．

コメント・リンク集

論文

[#865]

2018.5.2 10:31:48

Finding Tiny Faces in the Wild with Generative Adversarial Network

Yancheng Bai, Yongqiang Zhang, Mingli Ding, Bernard Ghanem

CVPR 2018

Kazuki Inoue

概要

GANを用いて画像中の顔を検出する研究。検出が難しい顔として小さくかつボケている顔が挙げられるが、これらの顔をGANによって高解像度かつはっきりとした顔にすることで検出精度を向上させる手法を提案。 generatorは高解像度にするsuper resolution network(SRN)と顔の詳細な情報を復元するrefinment network(RN)を結合したネットワークである。 discriminatorはVGG19であり、ロスとしてデータセットの顔/generatorによる顔、顔/顔ではないモノを同時に行うロスを導入。またよりはっきりとした顔を生成するために、generatorのロスとして物体識別のロスを導入。

新規性・結果・なぜCVPRに通ったか？

GANによって画像中の顔から高解像度かつはっきりとした顔を生成することで高精度な顔検出手法を提案。
GANの導入による精度の向上、導入したロスの有効性を確認している。
state-of-the-artと比較して、最も高い検出精度を達成

コメント・リンク集

検出精度が非常に高く、データセットではアノテーションし忘れている顔すらも検出してしまい、これによって精度が悪いように見えてしまうと主張している。
テスト時も学習時と同様に画像全体ではなくROIを与えているため、実行時間はそれなりにかかりそう。
論文
Project page

[#866]

Context Encoding for Semantic Segmentation

Hang Zhang, Kristin Dana, Jianping Shi, Zhongyue Zhang, Xiaogang Wang, Ambrish Tyagi, Amit Agrawal

CVPR 2018

893

Yue Qiu

概要

・コンテキスト情報の抽出を利用したセマンティックセグメンテーションの効率を上げられるContext Encoding Moduleを提案した．・従来の階層式シーンの高レベルから低レベル特徴の抽出を行うネットワーク(eg. PSPNet)にはシーンのコンテキスト情報の抽出がexplicitではない問題点があり，従来のグローバル特徴抽出ネットワークの知識から，シーンのコンテキスト情報を抽出することにより，セマンティックセグメンテーションの効率を上げられるモジュールを提案した．・具体的には：Encodingによりシーンのコンテキスト情報をキャプチャーし，クラス依存の特徴マップを選択的に強調表示できるContext Encoding Moduleを提案した； Semantic Encoding Loss (SE-loss)を提案した； Context Encoding Moduleを利用したセマンティックセグメンテーションネットワークEncNetを提案した

Context-Encoding-for-Semantic-Segmentation

新規性・結果・なぜ通ったか？

・ PASCAL VOC 2012において85.9% mIoUを達成した・提案ネットワークをCIFAR-10 datasetに応用し，14層だけのネットワークで100層超えのネットワークと同じレベルの精度を実現した

コメント・リンク集

・シンプルなネットワークでstate-of-the-artな精度を実現したので，将来的に広く用いられそう

論文

[#867]

2018.5.1 17:39:13

Video Based Reconstruction of 3D People Models

Thiemo Alldieck, Marcus Magnor, Weipeng Xu, Christian Theobalt, Gerard Pons-Moll

CVPR 2018

Shusuke Shigenaka

概要

人間が動いている単眼のRGB映像から、正確な3次元物体モデルと任意の人物テクスチャを得る研究。仮想現実や拡張現実、監視やゲームなどの人間の追跡にはアニメーション可能な人間行動の3Dモデルが必要である。この研究では、動的な人間のシルエットに対応するシルエット形状を見つけ出し、テクスチャや骨格を推定して、アニメーション可能なデジタルダブルを作成することができる。

1803.04758_1 1803.04758_2

手法・新規性・結果

(a). SMPLモデルを用いてポーズを計算(b). シルエットの赤で描かれていないシルエットを取り除く (c). 正規のTポーズで被写体の形状を最適化 (d). ティクスチャを計算しパーソナライズされた好みの形状を生成・単眼のRGBビデオから髪や衣服を含む現実的なアバターを抽出・被服を含む4.5mmの精度で人体形状を再構成

リンク集

link

[#868]

2018.5.1 16:26:45

Relation Networks for Object Detection

Han Hu, Jiayuan Gu, Zheng Zhang, Jifeng Dai, Yichen Wei

CVPR 2018

439

Yue Qiu

概要

・マルチオブジェクトのアピアランス特徴及び幾何情報間の関係を取り扱える，様々なタスク（物体検出，VQAなど）に用いられるObject Relation Moduleを提案した．・最近attentionに関する研究が発展し，著者たちがattentionモジュールがelement間の依頼性を学習できる面から，物体検出に応用できるアテンションモジュールを提案した．・提案モジュールを物体検出の2つの段階に応用できる：インスタンス認識段階で提案モジュールによりオブジェクト間の関係を習得でき，精度を上げられる；duplicate removal段階で提案モジュールにより有効的に物体領域を抽出できる．

Relation-Networks-for-Object-Detection

新規性・結果・なぜ通ったか？

・従来の物体検出手法は物体ごとに推定を行い，物体間の関係を利用しない．提案手法はObject Relation Moduleを提案し，物体間の関係を学習することで，物体検出の精度を更に向上した．

コメント・リンク集

・提案モジュールが付加の監督信号不要，既存なネットワークに追加しやすい特徴があるため，様々なタスクでの応用が期待される

論文

[#869]

2018.5.1 16:37:43

PPFNet: Global Context Aware Local Features for Robust 3D Point Matching

Haowen Deng, Tolga Birdal, Slobodan Ilic

CVPR2018

Shuichi Akizuki

概要

点群データから直接3Dの局所特徴量を抽出するネットワークを提案．N-Tuple loss(Triplet lossの拡張)によって，対応点間の特徴量が近く，それ以外の特徴量間の距離が遠くなるような変換を学習する． PPFNetの入力は局所パッチ内の点の座標，法線，Point Pair Featureをまとめたデータ．ネットワークの内部ではPointNetを利用する．大域的な情報を得るために，各パッチから取得した局所特徴量を Max poolingによって大域特徴量化し，局所特徴と結合する工夫も入れている．

新規性・結果

局所特徴量を生成するネットワークを構築した点，N-Tuple lossによる学習法を提案した点が新しい．キーポイントマッチングのベンチマークでRecall rateが向上．オーバーラップが少ないシーンでのレジストレーションも可能になっている．

コメント・リンク集

Paper

[#870]

2018.5.1 15:53:31

GAGAN: Geometry-Aware Generative Adversarial Networks

Jean Kossaifi, Linh Tran, Yannis Panagakis and Maja Pantic

CVPR2018

Yuta Matsuzaki

概要

既存のGANでは考慮されていなかった形状や位置といった幾何学的情報をGANの生成プロセスに組み込んだGeometry-Aware Generative Adversarial Networks (GAGAN) を提案．具体的にGAGANでは，ジェネレータで統計的情報な形状モデルの確率空間から潜在関数をサンプリングする．次にジェネレータの出力値を微分可能な幾何学変換を介して標準座標系にマッピングすることで，物体の形状や位置といった情報を強制し，生成を行う．

Item3Image Item4Image

新規性・結果・なぜ通ったか？

GAGANのような幾何学的情報を考慮した生成モデルはなく，GAGANが初
入力画像の属性の形状に合わせて，画像を生成することが可能

コメント・リンク集

今後は，(i)より大きな画像の生成，(ii)アフィン変換によって起こりうる変形を緩和するより複雑な幾何学的変換の探索およびそれによるGAGANの拡張，(iii)顔のランドマーク検出のための従来CNNアーキテクチャの拡張に取り組む予定

論文

[#871]

2018.5.1 14:41:53

IQA: Visual Question Answering in Interactive Environments

Daniel Gordon, Ali Farhadi, Aniruddha Kembhavi, Dieter Fox, Mohammad Rastegari, Joe Redmon

CVPR2018

533

Yue Qiu

概要

・新たな問題設定ー動的環境とインターアクトしながら視覚質問に答える(IQA)を提案した．・具体的には， IQAには4つの設定がある：環境でナビゲートする能力；環境中のオブジェクト，アクション及びアフォーダンスの理解；環境中のオブジェクトとインターアクトする能力；質問文に応じで環境での行動を計画する能力．・提案の問題設定を解決するために，階層的マルチレベルで行動計画及びコントロールするネットワークHIMN及び空間的かつセマンティックなメモリを実現できる新たなrecurrent layer形式Egocentric Spatial GRUを提案した．・更に，75000質問及びCGシーンを含んだデータセットIQUAD V1を提案した．

Visual-Question-Answering-in-Interactive-Environments

新規性・結果・なぜ通ったか？

・従来のVQAタスクをCGシーンでの自己ナビゲーションと組み合わせた新たな問題設定を提案した．・IQUAD V1で従来の手法よりstate-of-the-artな精度

コメント・リンク集

・従来のVQAタスクに更に環境での探索および環境中オブジェクトとのインターアクトを取り入れ，従来の問題設定より一層現実に近づいている．・質問文の自動生成にも応用できそう・特に色々なタスクを取り扱えているので，技術の面では向上する空間がありそう

論文

[#872]

2018.5.1 15:29:03

On the Robustness of Semantic Segmentation Models to Adversarial Attacks

Anurag Arnab, Ondrej Miksik and Philip H.S. Torr

CVPR 2018

kodai nakashima

概要

adversarial attackに対するロバスト性の評価を, semantic segmentationにおいてstate-of-the-artな性能を持つネットワークを用いて実験した.Pascal VOCとCityscapesのデータセットに対して, FGSM, Interative FGSM, FGSM II, Interative FGSM IIで攻撃したときのIoU Ratioによりロバスト性を評価した.

On_the_Robustness_of_Semantic_Segmentation_Models_to_Adversarial_Attacks.PNG

新規性・結果

ResNetをバックボーンに持つネットワークがロバストであることがわかった. 中でもDeeplab v2が最もロバスト.
multi-scale processingやmean field CRFによりロバストになる.
画像分類の分野で一般的なロバスト性やモデルサイズについての知識がsemantic segmentationでも有用とは限らない.

リンク集

論文URL

[#873]

2018.5.1 14:32:41

CodeSLAM — Learning a Compact, Optimisable Representation for Dense Visual SLAM

Michael Bloesch, Jan Czarnowski, Ronald Clark, Stefan Leutenegger, Andrew Davison

CVPR 2018

288

Yue Qiu

概要

・RGB画像の強度データと少数のパラメータを条件に，ほぼリアルタイムで行えるデンスなシーン幾何を推定手法を提案した．・提案手法UNet構造により強度画像の特徴抽出を行い，更に抽出特徴をauto-encoder構造を用いたデプス情報推定ネットワークに入力することで階層的にデプス情報推定を行う．また，カメラ移動中得られるマルチフレームに対し，フレームごとのデプス推定及びフレーム間のカメラモーションをジョイントで最適化を行う．

codeSLAM

新規性・結果・なぜ通ったか？

・デンスなデプス情報推定を行うことでSLAMシステムの更なる精度向上できると宣言した．・初めてのほぼリアルタイムで行えるカメラモーションとシーンのデンス幾何をジョイントで推定する研究である．

コメント・リンク集

・著者たちは将来のワークとして，提案手法をリアルタイムでデンスなSLAMシステムの構築に拡張すると指摘し,将来的な研究を期待している．

論文

[#874]

2018.5.1 14:08:56

Learning by asking questions

Ishan Misra, Ross Girshick, Rob Fergus, Martial Hebert, Abhinav Gupta, Laurens van der Maaten

CVPR 2018

Yue Qiu

概要

・VQAタスクに用いられる新たなインターアクティブ学習フレームワークを提案した．・提案フレームワークは入力画像から，question proposal moduleにより問題集を生成し，画像との相関性を基準に問題集をフィルタリングし，残った問題をVQAにより解く．予測した答え，自己の知識及び過去の知識から質問を1つ選び，oracleにより答える．・提案フレームワークにより，効率高い学習サンプルを得られる．また，従来のVQAネットワークで用いられるstate-of-the-artな問題集を生成できる．

learning_by_asking_questions

新規性・結果・なぜ通ったか？

・従来のあらゆるフレームワークは学習データから学習を行う．この論文で，質問文の自動生成できる及び質問を選択する構造を導入し，自動的でインターアクティブで環境から情報を獲得することを可能にした．・実験を通し，提案手法により質問を選択する規制がsampleの効率を高められる．（従来と同じ精度の場合，学習データ量を40％減らせる）

コメント・リンク集

real-worldバージョンのLBAシステムが実現されたら，機械で学習することは更に人の学習システムに近づく．

論文

[#875]

2018.5.1 12:10:26

Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking

Feng Li, Cheng Tian, Wangmeng Zuo, Lei Zhang, Ming-Hsuan Yang

CVPR 2018

1353

Takahiro Itazuri

概要

Spatially Regularized Discriminative Correlation Filters (SRDCF)に空間正則化を導入した一般物体追跡手法Spatial-Temporal Regularized Correlation Filters (STRCF)を提案. SRDCFは複数学習画像を利用するため, 計算量が大きくなってしまうことに着目し, 単一学習画像に対するSRDCFにonline Passive-Aggresive learningの考えに基づいて時間正則化を導入. STRCFはADMMで直接解くことができるため, DCFの高速性を保持したまま高い精度で追跡が可能となっている.

STRCF

新規性・結果

単一学習画像に対するSRDCFに時間正則化を導入することで, 複数学習画像に対するSRDCFを近似したSRTCFを定式化
online Passive-Aggresive learningを拡張することで, STRCFは大きな見た目の変化に対して頑健である
SRTCFはADMMを用いて, 3つの部分問題に帰着させ, Eckstein-Bertsekas条件を満たし, 大域的最適解への収束性を保証している
OTB-2015, Temple-Color, VOT-2016データセットにおいてSRDCFより精度も計算速度も向上させた

コメント・リンク集

[#876]

Learning Spatial-Aware Regressions for Visual Tracking

Chong Sun, Huchuan Lu, Ming-Hsuan Yang

CVPR 2018

1676

Takahiro Itazuri

概要

一般物体追跡手法の二大手法であるカーネルリッジ回帰（相関フィルタを含む）とCNNのハイブリッドな手法を提案した.カーネルリッジ回帰は全体的な情報に,CNNは局所的な情報に注目するように設計している.それぞれの導入がどの精度向上に結びついているかも検討している.

LSART

新規性・結果

cross-patch similarityを用いたカーネルリッジ回帰モデルを提案し,それをニューラルネットに再定式化.
spatially reguralized kernelとdistance transform pool layerを用いて,出力の各チャンネルが特定の領域に反応するようなCNN提案.
提案したカーネルリッジ回帰とCNNを相補的に用いることで,OTB-2013,OTB-2015,VOT-2016データセットでstate-of-the-artな精度を達成.

リンク集

[#877]

Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for Visual Question Answering

Nguyen Duy Kien, Takayuki Okatani

CVPR 2018

739

Yue Qiu

概要

VQAタスクに用いられるattentionメカニズム“Dense Co-attention Network”(DCN)を提案した．DCNはfully対称的で，階層的にスタックできるため，マルチステップで視覚及び言語特徴のインターアクションを可能にする．具体的には，まず言語から画像の注目マップ及び画像から言語の注目マップを生成し，そして連結によりマルチモデルの特徴を融合する（dense co-attention layer)．そして階層的にdense co-attention layerをスタックにより，さらにマルチモデル特徴を深く探る．

Co-attention_VQA

新規性・結果

・従来のattention for VQAタスクより，有効的でデンスな視覚と言語モデルの特徴の融合メカニズムDCN（構造的にも簡潔で拡張しやすい）を提案し，将来の様々なVQAタスクに用いられる．・VQA, VQA2.0データセットで2017 VQA優勝したモデルより良い精度を達成した．・定性的な実験により，提案モデルが有効的にattentionを抽出できることを証明した

リンク集

論文

[#878]

DeepVoting: A Robust and Explainable Deep Network for Semantic Part Detection under Partial Occlusion

Z. Zhang et al.

CVPR 2018

Kensho Hara

概要

画像中から物体のパーツ（車のタイヤなど）を検出するための新しい手法を提案．投票ベースの手法でオクルージョンへの頑健性を持つ． Visual ConceptというMid-levelな特徴をベースにして，個々のMid-level特徴から推定されるパーツの位置推定結果を積み重ねていくことでパーツを検出する． Visual Conceptの検出とそれに基づく投票処理はConvolutionによって実装されており， End-to-Endでの学習が可能になっているところがポイント． Faster-RCNNといった物体検出アプローチよりもオクルージョンに頑健なことが実験的に確認できている．

DeepVoting_A_Robust_and_Explainable_Deep_Network_for_Semantic_Part_Detection_under_Partial_Occlusion..png

新規性・結果

CNNベースのVotingによるオクルージョンに頑健なパーツ検出手法を提案
Visual Conceptの検出から投票までConvolutionで実装
人工的なオクルージョン環境下での有効性を確認

コメント・リンク

投票処理までConvolutionで表現されているのが面白い
論文
Supplementary Material

[#879]

2018.4.23 06:07:59

Feature Mapping for Learning Fast and Accurate 3D Pose Inference from Synthetic Images

Mahdi Rad et al.

CVPR 2018

Tomoyuki Suzuki

概要

合成データを利用した、6D pose estimationとdepth based 3D hand pose estimationの研究。

埋め込み空間内で、合成データから実データへのマッピング関数を学習する。その関数の学習のためには実データに対応する(grand truthが同じ)合成データが必要であるので、教師あり実データがある程度あることが前提としてある。

手法

残差構造を持つmapping netを対応するペアを用いて学習する。従来のドメイン適応手法と比較しても提案手法の精度が良く、適応の有無による性能の差も非常に大きい。

メモ・リンク

手法としてはかなりstraight forwardな印象。実データの量を変化させた時の精度変化の結果はあったが、合成データの量を変化させた時の精度変化が気になる。

論文

[#880]

Embodied Question Answering

Abhishek Das et al.

CVPR 2018

概要

3次元空間において、エージェントに質問の答え（例：車の色は？）を探させる研究。初期位置における視覚情報だけでは答えに行きつかないためにエージェントは移動しながら答えを探していく。エージェントの移動には、どの方向（forward, rightなど)に進むかを決定するplannerとどこまで進むかを決定するcontrolerによって行う。目的地(正解が分かる場所)にたどり着いた時点で、最後の5フレームを用いて172の選択肢から正解を出力する。

Item3Image

新規性・結果

LSTMを使った場合の方が目的地により近付けるという結果が得られた。強化学習なしのものは目的地により近づいている一方、ファインチューニング＋強化学習の方が正解率は高いという結果となった。また、最短経路を与えてVQAによって答えさせる場合でも精度が悪く、答えを導くにあたってどの方向から目的地に近づくかも重要であるということが分かった。

リンク集

プロジェクトページ

[#881]

2018.4.23 12:59:26

Learning from Synthetic Data: Addressing Domain Shift for Semantic Segmentation

Sankaranarayanan et al.

CVPR 2018

Tomoyuki Suzuki

概要

GANによる画像生成の枠組みを中間的に取り入れることでSemantic segmentationにおけるドメイン適応を行う研究。

従来の特徴ベクトルに対する敵対的学習によって埋め込み空間におけるdomain gapを縮める手法に対して、この研究では特徴ベクトルから画像を復元し、その画像が識別器によってどのドメインからの復元か識別できないように埋め込み関数を学習させる。合成データからのドメイン適応で最も良い精度を達成。

手法

Source(S)は教師ありデータ、Target(T)は教師なしデータ。学習のフローは以下である: (1)識別器(D)は入力画像に対してpixel-wiseにsource real(SR), source fake(SF), target real(TR), target fake(TF)の4値分類を学習。(2)生成器(G)は入力特徴ベクトルからDによってSからの特徴はSRに、 Sからの特徴はTRに分類されるよう学習。 (+入力との担保を取るL2Loss)(3)埋め込み関数(F)はSからの入力はTRに、Tからの入力はSRに分類されるように学習。さらにSからのサンプルに対してはFからの特徴マップを入力としてsegmentation taskを解くCNNを学習。

メモ・リンク

論文内にこの手法がうまくいく理由の裏付け的実験や考察が詳細にはなかったが、特徴量から画像再生成を行うことによる入力情報の保存とS/T間の敵対的学習による分布の混合が一つのフローで行えていることが効いているように思えた。実際特徴量に対するS/T間の敵対的学習のみの場合よりも大きく精度が向上している。

論文

[#882]

Natural and Effective Obfuscation by Head Inpainting

Qianru Sun, Liqian Ma, Seong Joon Oh, Luc Van Gool, Bernt Schiele, Mario Fritz

CVPR 2018

概要

SNSなどで共有された画像には、プライバシー保護の問題が生じる。プライバシー保護のために顔領域にぼかしや黒塗りなどの処理がされることが多いが、画像としては不自然さが残ってしまう。そこで、塗りつぶされた領域に顔を挿入することで自然な画像ではあるが別人のためプライバシーを保護できる画像を生成する。提案手法は、特徴点検出（生成）と顔の挿入の2つのステップに分かれる。特徴点検出（生成）では、オリジナルの顔画像が存在する場合は既存の特徴点検出によって特徴点を検出する。対称の画像が既に黒塗りされているなどで特徴点検出ができない場合は、GANによって特徴点を生成する。次のステップでは、黒塗りされている顔画像と特徴点を入力し、黒塗りされた領域に顔の挿入を行う。

Item3Image

新規性・結果

特徴点生成器は、GANによって生成することで正解値とのノルム最小化よりも高い精度で生成することを可能にした。画像に対する処理としてぼかしと黒塗りを比較したところ、ぼかしは顔の情報が一部残るため高い精度での生成が可能である一方、元の人物の情報は黒塗りよりも多く残ることが分かった。また、顔の形状にも個人性が含まれるためオリジナル画像から検出した特徴点よりもGANによって生成した特徴点を使用した方が個人性は損なわれることが分かった。

リンク集

論文

[#883]

2018.4.18 15:45:44

Augmenting Crowd-Sourced 3D Reconstructions using Semantic Detections

T. Price, J. L. Schonberger, Z. Wei, M. Pollefeys and J.M. Frahm

CVPR2018

Ryota Suzuki

概要

SfMにおいて，一つの撮影にしか映らないような移動物体を考慮することで，そのシーンの絶対スケールが推定可能になるし，人混みだと見えにくい地平面の復元も成しうる．個々の撮影画像において検出された人を3次元空間に投影し，さらに物体の意味情報（本稿では背の高さの分布）から絶対スケールを推定する．また，人検出結果を用いて地平面推定も行う．ランダムなインターネット画像で手法をデモンストレーションし，量的評価を行う．

人検出はトルソモデルのフィッティングに基づく．画像における肩，腰の位置が推定でき，おおよその立ち位置も分かるということ．

評価点

若干SIGGRAPH的な気風のある，面白い視点を提供する論文．過去の知見に基づく高品質な人検出などを用いて成し得た，正統なアプリケーションに感じる．動画のインパクトも大きいので，一度視聴を勧める．

リンク集

[#884]

2018.4.16 17:07:53

Single View Stereo Matching

Yue Luo, Jimmy Ren, Mude Lin, Jiahao Pang, Wenxiu Sun, Hongsheng Li and Liang Lin

CVPR 2018

kodai nakashima

概要

従来の単眼奥行き推定法では, 推論の際に幾何的な制約を明示的に課していないことや多くのground truth labeled dataが必要といった問題があった.この研究では単眼奥行き推定問題をview synthesis問題とstereo matching問題に分けて考えることにより, 従来法の問題を解決する. view synthesis問題では, 入力を左画像として捉え, view synthesis networkにより右画像を生成する. stereo matching問題では, 左画像を右画像を用いstereo matching networkにより奥行きを推定する.

新規性・結果

単眼奥行き推定問題をview synthesis問題とstereo matching問題に分けて考えた.
従来法の問題を解決.
従来のどの方法よりも精度が高い.

リンク集

論文URL

[#885]

2018.4.30 18:04:11

Learning Face Age Progression: A Pyramid Architecture of GANs

Hongyu Yang, Di Huang, Yunhong Wang and Anil K. Jain

CVPR 2018

概要

入力画像中の人物の老化顔をGANによって生成する手法の提案。Discriminatorには生成した画像が合成画像であるか及び目標年代の特徴を保持しているかを判定させ、それに加え元の画像とのL2ノルム及び元の顔画像と同一人物であるかをロスに加えることで、同一人物性を保持している。その際、Discriminatorの中間層の各出力を途中で取り出すことにより（ピラミッド型ネットワーク），様々な解像度からの年齢特徴の抽出を行う。

Item3Image

新規性・結果

年齢推定及び個人認証タスクによって有効性を確認した。従来手法では髪や額領域は変化できなかったが、提案手法によってこれらの要素を変化させることを可能とした。 Discriminatorをピラミッド型にすることにより、従来手法に比べてより詳細な老化特徴を取り出すことに成功。

リンク集

論文

[#886]

2018.4.16 16:14:24

Image Generation from Scene Graphs

Justin Johnson et al.

CVPR 2018

概要

物体同士の関係を表すScene Graphsから画像を生成する手法の提案。従来のテキストから画像を生成する手法よりも物体の数が多く複雑なシーンの画像を生成することができる。初めに、Scene Graphsを処理するネットワークによってScene Graphsを表現するベクトルを取得し、そこから画像のレイアウトを作成する。次にレイアウトからCRN(参考文献)を用いて画像を作成する。作成された画像は、画像全体のリアルさと各物体のリアルさを評価するDiscriminatorによってリアルな画像であるかを評価する。

Item3Image

新規性・結果

ユーザースタディの結果、StackGANと比較して合成結果が良いと答えた人が68%、認識可能な物体を生成できてると答えた人が59%という結果が得られた。

リンク集

[#887]

2018.4.11 15:58:22

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

Peter Anderson, Xiaodong He, Chris Buehler,Damien Teney, Mark Johnson, Stephen Gould, Lei Zhang

CVPR 2018

738

Yue Qiu

概要

Image captioningとVQAタスクに用いられるBottom-upとtop-down attentionをコンバインするメカニズムを提案した．従来のオブジェクトレベルの領域の抽出のほか，salient 領域の抽出も行う．Faster R-CNNを利用したbottom-up的にsalient 領域を特徴ベクトルを抽出し， top-downにより特徴のウェットを決めることをベースに， Image captioningとVQAのアーキテクチャを提案し（右図），両方ともstate-of-artな性能を得られた．

Bottom_up_Top_down_VQA

新規性・結果

・従来のVQAとImage captioningは主にタスクスペシフィックなtop-downタイプのattentionを用いる．この論文で，人の視覚attentionメカニズムから，タスクスペシフィックなtop-downタイプのattentionを及びsalient 領域に注目するBottom-upのattentionを用いることと主張した．・2017 VQA Challengeにおいて優勝した．VQA v2.0 test-standardにおいて70.3%の精度を達成した．また， Image captioning タスクに対しMSCOCO Karpathy testで従来の手法より良い性能を達成した．

リンク集

論文

[#888]

2018.4.27 10:27:30

Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge

Damien Teney, Peter Anderson, Xiaodong He, Anton Van den Hengel

CVPR 2018

547

Yue Qiu

概要

2017 VQA Challengeに優勝したモデルのモデル詳細を紹介し，さらにいかにVQAモデルの精度を上げられるかのコツとテクニックを紹介した．モデルのコアなところは視覚と質問文の意味特徴をジョイントでエンベディングし，さらにマルチ-ラベル予測を行う．

Tip_Tricks_VQA

新規性・結果

論文により，VQAの性能上げるために，以下のテクニックがある：1.sigmoid outputsを用いて，マルチアンサーをできるようにする．2．Soft scoresを用いて，分類ではなく回帰を行う．3．Bottom-up attentionから注目領域の画像特徴を用いる．4．Gated tanhを活性化関数に用いる．5．Pre-trainedウェットで初期化する．6．ミニバッチサイズを大きく設定し，training-dataにシャッフリングを用いる

リンク集

論文

[#889]

2018.4.26 16:58:02

What Makes a Video a Video: Analyzing Temporal Information in Video Understanding Models and Datasets

Xiaolong Wang et al.

CVPR 2018

Tomoyuki Suzuki

概要

「3DCNNが実は動き特徴を捉えられていないのではないか」という考えのもと、3DCNNにおける動き特徴の影響の上界を実験的に求める。提案する工夫により、この影響のかなり低い上界を得ることができ、動き特徴を捉えているのではない(例えば実は複数フレーム入力から「重要なフレーム選択」を行っているなど)ことを示唆した。

検証方法

通常の16frames入力で学習したC3Dにおいてtest時にsub-samplingした(動き情報を無くした)設定下でできるだけ精度を上げることで結果的に動き特徴の上界を得る。Naïveにsub-samplingを行うと入力のデータ分布の明らかな違いから動き以外の精度低下への影響をもたらすと考えられるため、 sub-samplingされたclipから元clipを生成するgeneratorを構築。学習はC3Dの中間層の値をMSEで近づける。またsampling方法によっても精度は変わるという考えから、識別confidenceが最大となるframesをsamplingする。注意として、この際動きに関しては全く考慮せずにsamplingしてきている。

コメント・リンク

結果として、かなりきつい上界を求められ、論文内では3DCNNが2Dよりも精度が良いのは動き特徴ではなく、複数フレーム入力の中で最も識別しやすいフレームを選択可能になるからではと述べられている。

フレーム選択をしているという仮説は面白いし、select frameによって精度が上昇したり、動きが大きい動画はフレーム単位での推定結果の分散が大きいなどから十分ありえそう。これが本当なら、optical flowを3dCNNに導入して大きく精度が向上することともつじつまが合いそう。

論文

[#890]

Surface Networks

Ilya Kostrikov, Joan Bruna, Daniele Panozzo, Denis Zorin

CVPR 2018

Yue Qiu

概要

3D triangleメッシュから有用的な三次元幾何情報を抽出するネットワークSurface Networkを提案した．従来のLaplace operatorがintrinsic三次元幾何情報しか抽出できない．しかし，様々な応用場面でextrinsic情報が必要となる．この文章で主要なcurvature方向を抽出できるDirac operator を提案し，従来のLaplace operatorより幅広い場面で応用できる．

SurfaceNetwork_result

新規性・結果

・定性的および定性的な結果によりspatial-temporal predictionsタスクにおいて，従来手法より良い結果を得られている．・variationalエンコーダーを用いたメッシュ合成手法を提案し，有効的に3次元メッシュを生成できる．

リンク集

論文

[#891]

2018.4.13 11:16:55

SPLATNet: Sparse Lattice Networks for Point Cloud Processing

Hang Su, University of Massachusetts, Amherst; Varun Jampani, NVIDIA Research; Deqing Sun, NVIDIA; Evangelos Kalogerakis, UMass; Subhransu Maji, ; Ming-Hsuan Yang, UC Merced; Jan Kautz, NVIDIA

CVPR2018

Yue Qiu

概要

点群情報を直接処理できるSPLATNet（右図）を提案した．SPLATNetは直接点群から階層的な空間情報を抽出可能．また，2D情報と3D情報のマッピングも行えるので，点群とマルチ画像の両方をSPLATNetで処理可能．従来の直接点群情報を処理するネットワークはより局所的な空間情報を損失してしまう問題点がある．提案手法はこの問題を解決するために，BCLs層を用いた． BCLs層は点群をスパースなlatticeにマッピングし，さらにそのスパースなlatticeを畳み込みできる．それにより， unordered点群情報を処理できる上に点群のより局所的な情報も抽出可能にした．

SPLATNET

新規性・結果

Façade segmentationタスクにおいて，点群とマルチ画像のラベリングに良い処理スピードと従来手法手法より優れた精度を得られた．ShapeNet part segmentationにおいて従来手法より優れた精度（クラスmIoU：83.7%）を得られた．

リンク集

論文

[#892]

2018.4.13 10:29:26

From Lifestyle Vlogs to Everyday Interactions

Fouhey et al.

CVPR 2018.

arXiv ID: 1712.02310

概要

従来のデータ取集手法（collection-by-acting）では難しいかった, バイアスの少ない, 多様で大規模な日常生活におけるインタラクションのデータベース Lifestyle VLOG dataset を公開した.

新規性・結果

従来のデータセットが想定している陽的なデータ収集とは対照的に隠的なデータ収集方法を行うことで, バイアスを小さくすることに成功した.
ビデオに対してインタラクションのラベル, フレームに対してインタラクション時の手の状態のラベル付けられている.
従来のデータセットのBiasを分析するために, 従来のデータセットで訓練した手法が Lifestyle VLOG データセットに対しても上手く動作するか検証した.

リンク集

[#893]

Yoshihiro Fukuhara

2018.4.12.00:00:00

Seeing Voices and Hearing Faces: Cross-modal biometric matching

A. Nagrani et al.

CVPR 2018

Kensho Hara

概要

ある音声と2人分の顔画像から，どちらの人物の声かを推定する課題と，ある顔画像と2人分の音声から，どちらの音声がその人物の声かを推定する課題の2つを解くという問題設定の研究．異なるモダリティ間でのマッチングという課題ということ．ある入力に対応するのがどちらの人物かという2クラス識別の問題設定として定式化．この問題を解くために，3入力を扱う3-streamのネットワーク構造を持つモデルを提案．音声もスペクトログラムの形式で画像のように扱い，顔画像，音声ともにConvolutionしていくモデル．実験では80%程度の識別率を達成し，人と同等の結果が出ている．二人分の選択肢の性別，国籍，年齢などが同じという設定にすると，60%程度の正答率になるが，こちらでは人 (57%) を上回る結果となっている．

Seeing_Voices_and_Hearing_Faces_Cross-modal_biometric_matching.png

新規性・結果

人物の顔画像と音声の対応付けという新しい問題設定
人間レベルの高い精度を実現

リンク集

論文 (arXiv)

[#894]

2018.4.12 15:48:11

Actor and Action Video Segmentation from a Sentence

Kirill Gavrilyuk, Amir Ghodrati, Zhenyang Li, Cees G.M. Snoek

CVPR 2018 (oral)

概要

センテンスの入力から、行動者と行動（Actor and Action）を同時に特定する研究である。複数の同様の物体から特定の人物など、詳細な分類が必要になる。ここではFully-Convolutional（構造の全てが畳み込みで構成される）モデルを適用してセグメンテーションベースで出力を行うモデルを提案。図は提案モデルを示す。I3Dにより動画像のエンコーディング、自然言語側はWord2Vecの特徴をさらにCNNによりエンコーディング。その後、動画像・言語特徴を統合してDeconvを繰り返しセグメントを獲得していく。

1803ActorAction

新規性・結果

文章（と動画像）の入力から行動者と行動の位置を特定すべくセグメンテーションを実行するという問題を提起した。また、二つの有名なデータセット（A2D/J-HMDB）を拡張して7,500を超える自然言語表現を含むデータとした。同問題に対してはSoTA。

コメント・リンク集

CVxNLPの問題はここにも進出して来た。画像キャプションに限らず、この手の統合は進められるはず。

論文

[#895]

2018.3.24 12:47:10

Alive Caricature from 2D to 3D

Qianyi Wu, et al.

CVPR 2018

Munetaka Minoguchi

概要

2Dの似顔絵画像から3Dの似顔絵を作成するためのアルゴリズムの提案。似顔絵画像のテストデータとしてはカリカチュアを使用し、カリカチュア画像の3Dモデルとテクスチャ化された画像を生成する。データは、標準の3D顔の変形を座標系に配置(下図、 xは口の開き具合)し、金のオリジナルデータから線形結合によって白い顔を生成する。

新規性・結果・リンク集

カリカチュアを集めたデータセットを作って学習するのではなく、標準の3D顔のデータセットから実装でき、アプリケーションの柔軟さを推している。

3DMMやFaceWareHouseなどの従来手法と比較して、形の歪みが少なく、従来のものよりも綺麗な3D顔の出力が可能。顔以外にも、概形の予測が可能なオブジェクトなら応用できる？

論文

[#896]

A Minimalist Approach to Type-Agnostic Detection of Quadrics in Point Clouds

Tolga Birdal, Benjamin Busam, Nassir Navab, Slobodan Ilic, Peter Sturm

CVPR 2018

概要

オクルージョンが発生している場合/複雑な環境下でも簡単な形状がポイントクラウドから検出できる枠組みを提案する。手法は3D楕円形状のフィッティング、3次元空間操作、4点取得により構成。

180324Quadrics

新規性・結果

タイプに依存しない3次元の二次曲面（楕円球形状）検出を点群の入力から行う手法を考案した。さらに、4点探索問題を3点探索にしてRANSACベースの手法で解を求めた。モデルベースのアプローチよりはフィッティングの性能がよいが、キーポイントベースの手法よりは劣る。

コメント・リンク集

曖昧な教示のみで3次元形状探索問題が解決できるようになる？

論文

[#897]

2018.3.24 13:04:44

COCO-Stuff: Thing and Stuff Classes in Context

Holger Caesar, Jasper Uijlings, Vittorio Ferrari

CVPR 2018

概要

MSCOCOデータセットに対してThing（もの）やStuff（材質）に関する追加アノテーションを行い、さらにコンテキスト情報も追加したCOCO-Stuffを提案した。このデータセットには主にシーンタイプ、そのものがどこに現れそうかという場所、物理的/材質的な属性などをアノテーションとして付与する。COCO2017をベースにして164Kに対して91カテゴリを付与し、スーパーピクセルを用いた効率的なアノテーションについてもトライした。

180329COCOStuff

新規性・結果

材質的なアノテーションは画像キャプションに対して重要であることを確認、相対的な位置関係などデータセットのリッチなアノテーションが重要であること、セマンティックセグメンテーションベースの方法により今回のアノテーションを簡易的に行えたこと、などを示した。

コメント・リンク集

さらにリッチなアノテーションは今後重要になる。この論文ではスーパーピクセルという弱い知識を用い、人間のアノテーションと組み合わせることでボトムアップ・トップダウンを効果的かつ効率的に組み合わせてアノテーションを行っている点が素晴らしい。ラストオーサのVittorio Ferrariは機械と人の協調によるアノテーションが得意（なので、既存データセットへのよりリッチなアノテーションを早いペースで提案できる）。

[#898]

2018.3.29 13:59:43

Context-aware Synthesis for Video Frame Interpolation

Simon Niklaus, Feng Liu

CVPR 2018

Munetaka Minoguchi

概要

入力フレームだけでなく、ピクセル単位の文脈情報を用いて、高品質の中間フレームを補間するためのコンテキスト認識手法の提案。まず、プレトレインモデルを使用して、入力フレームのピクセルごとのコンテキスト情報を抽出。オプティカルフローを使用して、双方向フローを推定し、入力フレームとそのコンテキストマップの両方をワープする。最後にコンテキストマップをsynthesis networkに入力し、補間フレームを生成。

新規性

従来のビデオフレーム補間アルゴリズムは、オプティカルフローまたはその変動を推定し、それを用いて2つのフレーム間の中間フレームを生成する。本手法では、 2つの入力フレーム間の双方向フローを推定し、コンテキスト認識という方式をとることで精度向上を図る。

結果・リンク集

高品質のビデオフレーム補間実験において、従来を上回る性能。

論文

[#899]

Deep Depth Completion of a Single RGB-D Image

Yinda Zhang, Thomas Funkhouser

CVPR 2018

Munetaka Minoguchi

概要

RGB画像から表面の法線とオクルージョン境界を予測し、 RGB-D画像と組み合わせて、欠けている奥行き情報を補完するDeep Depth Completionの提案。また、奥行き画像と対になったRGB-D画像のデータセットであるcompletion benchmark datasetを作成し、性能を評価。これは、低コストのRGB-Dカメラでキャプチャした画像と、高コストの深度センサで同時にキャプチャした画像で構成されている。

新規性

深度カメラは、光沢があり、明るく、透明で、遠い表面の深さを感知しないことが多い。このような問題を解決するために、本手法ではRGB画像から得た情報と組み合わせて、 RGB-D画像の深度チャネルを完全なものにする。

結果・リンク集

深さ修復および推定において従来よりも優れた性能。

[#900]

Detecting and Recognizing Human-Object Interactions

Georgia Gkioxari, Ross Girshick, Piotr Dollár, Kaiming He

CVPR 2018 (spotlight)

概要

人物検出と同時に人物行動やその物体とのインタラクションも含めて学習を行うモデルを提案する。本論文では物体候補の中でも特にインタラクションに関係ありそうな物体に特化して認識ができるようにする。さらに、検出されたのペアを用いて学習する（図の場合には）。さらに、その他の行動（図の場合にはstand）を同時に推定することもできる。モデルはFaster R-CNNをベースとするが、物体検出（box, class）、行動推定（action, target）、インタラクション（action）を推定して誤差を計算する。さらに、推定した人物位置に対する対象物体の方向も確率的に計算することが可能。

180322HOI

新規性・結果

人間に特化した検出と行動推定の枠組みを提案した。V-COCO（Verbs in COCO）にて、相対的に26%精度が向上（31.8=>40.0）、HICO-DETデータセットにて27%相対的な精度向上が見られた。計算速度は135ms/imageであり、高速に計算が可能である。

コメント・リンク集

単純な多タスク学習ではなく、人物に特化して対象物体の位置も確率的に推定しているところがGood。

[#901]

2018.3.22 19:55:34

Discriminative Learning of Latent Features for Zero-Shot Recognition

Minghui Yan Li, et al

CVPR 2018

Munetaka Minoguchi

概要

Zero-shot learning(ZSL)における、視覚的および意味的インスタンスを別々に表現し学習するLatent Discriminative Features Learning(LDF)の提案。 (1)ズームネットワークにより差別的な領域を自動的に発見することができるネットワークの提案。(2)ユーザによって定義された属性と潜在属性の両方について、拡張空間における弁別的意味表現の学習。

新規性

ZSLは、画像表現と意味表現の間の空間を学習することによって、見えない画像カテゴリを認識する。既存の手法では、視覚と意味空間を合わせたマッピングマトリックスを学習することが中心的課題。提案手法では、差別的に学習するとうアプローチで識別精度向上を図る。

結果・リンク集

2つのコンポーネントによって、互いに支援しながら学習することで最先端の精度に。

論文

[#902]

Domain Adaptive Faster R-CNN for Object Detection in the Wild

Yuhua Chen, Wen Li, Christos Sakaridis, Dengxin Dai, Luc Van Gool

CVPR 2018

概要

ドメイン変換について、ゲームなどのCG映像から実際の交通シーンに対応して物体検出を行うための学習方法を提案する。本論文では(i) 画像レベルのドメイン変換、(ii) インスタンス（ある物体）に対してのドメイン変換、の二種類の方法を提案し、整合性をとるように正規化する（図のConsistency Regularization; Global/Localな特徴変換を考慮）。ここで、物体検出はFaster R-CNNをベースとしてドメイン変換の手法も二種類（H-divergence、敵対的学習）用意する。

180314DomainFRCNN

新規性・結果

CGで学習し実環境における自動運転などで使えるドメイン変換の手法を提案した。実験はCityscapes, KITTI, SIM10Kなどで行い、ロバストな物体検出を実行することができた。例えばCityscapesとKITTIの相互ドメイン変換でベースラインのFaster R-CNNが30.2 (K->C)、53.5 (C->K)のところ、Domain Adaptive Faster R-CNNでは38.5 (K->C)、64.1 (C->K)であった。

コメント・リンク集

データ収集は手動から自動の時代になって来た？データを手作業で集める時代からアルゴリズムを駆使して収集する時代へ移行。

[#903]

2018.3.14 08:43:53

Efficient Interactive Annotation of Segmentation Datasets with Polygon-RNN++

David Acuna, Huan Ling, Amlan Kar, Sanja Fidler

CVPR 2018

Munetaka Minoguchi

概要

Polygon-RNNのアイデアを踏襲し、ヒューマン・イン・ザ・ループを使って対話的にオブジェクトのポリゴンアノテーションの生成。また、新しいCNNエンコーダアーキテクチャの設計、強化学習によるモデルの効果的な学習、 Graph Neural Networkを使用した出力解像度の向上を行う。これらのアーキテクチャをPolygon-RNN ++と呼ぶ。

新規性・結果・リンク集

アノテーション作成時の負担を軽減。より正確にアノテーションを付加できるため、雑音の多いアノテーターに対しても頑健である。

高い汎化能力となり、既存のピクセルワイズメソッドよりも大幅に改善。ドメイン外のデータセットにも適応可能。

論文

[#904]

Egocentric Basketball Motion Planning from a Single First-Person Image

Gedas Bertasius, Aaron Chan, Jianbo Shi

CVPR 2018

概要

一人称視点の画像からゴールリングに到達するまでのバスケットボール選手の動線を生成する。本論文では3D位置や頭部方向も記録する。同タスクを実行するため、まずは画像空間から12Dのカメラ空間に投影を行うEgoCam CNNを学習。次に予測を行うCNN（Future CNN）を構築、さらに予測位置やゴールまでの位置が正確かどうかを検証するGoal Verifier CNNを用いることでより正確な推定を行うことができる。

180307EgoBasketball

新規性・結果

複数のネットワークの出力（ここではEgoCamCNNとFutureCNN）を検証するVerification Networkという考え方は面白い。他のネットワークの出力を、検証用のネットワークにより正すというのはあらゆる場面で用いることができる。RNN/LSTM/GANsなどよりも高度な推定ができることが判明した。

コメント・リンク集

結果例は動画像を参照。未来予測・３次元投影などコンポーネントがDNNにより高度にできるようになってきたからできた研究。さらに検証用のネットワークを構築することで出力自体を操作している。

[#905]

2018.3.7 09:04:15

Fast and Accurate Single Image Super-Resolution via Information Distillation Network

Zheng Hui, Xiumei Wang, Xinbo Gao

CVPR 2018

Munetaka Minoguchi

概要

元の低解像度画像から高解像度画像を再構築するための、深くてコンパクトなCNNを提案。提案モデルは、特徴抽出ブロック、積み重ね情報蒸留ブロック、再構成ブロックの3部構成。これにより、情報量が豊富かつ効率的に特徴を徐々に抽出できる。

新規性

CNNが超解像殿画像を扱うようになってきたが、ネットワークが増大するにつれて、計算上の複雑さとメモリ消費という問題が生じる。これらの問題を解決するためのコンパクトなCNN。

結果・リンク集

PSNR、SSIM、IFCの4つのデータセットで検証し、精度向上を確認。デシジョンおよび圧縮アーチファクト低減などの他の画像修復問題にも応用可能？

論文

[#906]

Future Frame Prediction for Anomaly Detection – A New Baseline

Wen Liu, Weixin Luo, Dongze Lian, Shenghua Gao

CVPR 2018

概要

先の（未来の）フレーム予測と異常検知を同時に行う手法を提案する論文。予測したフレームと異常検知の正解値により誤差を計算して最適化を行う。図に本論文で提案するネットワークアーキテクチャの図を示す。U-Netにより画像予測やさらにオプティカルフロー推定を行い、RGB空間、オプティカルフロー空間にて誤差を計算しGANの枠組みでそれらがリアルかフェイクかを判定する。同フレームを用いて異常検知を実施する。

180315PredictionAnomaly

新規性・結果

従来は現在フレームを入力として異常検知を行う手法は存在したが、未来フレームを予測して異常検知を行う枠組みは本論文による初めての試みである。異常値の正解値を与えることで画像予測にもフィードバックされるため、画像予測と異常検知の相互学習に良い影響を与える。オープンデータベースにてベンチマークした結果、何れもState-of-the-artな精度を達成。

コメント・リンク集

生成ベースで画像予測+X（Xは任意タスク）というものはSoTAが出せるくらいにはなってきた。

[#907]

2018.3.15 09:04:03

Guided Labeling using Convolutional Neural Networks

Sebastian Stabinger, et al.

CVPR 2018

Munetaka Minoguchi

概要

ラベルの付いていないデータに対して、どの画像にラベルを付けてデータセットを構成すればよいかを判断するguided labelingの提案。ラベル付けを行う必要があるサンプルを見定めることで、データセットの量を大幅に減らすことができる。

新規性

大規模データセットにおいて、手動でのラベル付けは大変。選別してラベル付けを行えば、作業を最小限に抑えられる。また、ある意味良いデータを選別できるため、場合によっては精度も向上。

MNISTは、データセットのサイズを1/16に、CIFAR10は1/2に減らすことが可能に。また、MNISTの場合は、全部使った時よりも識別精度が向上した。普遍性を妨げる不必要なデータを取り除けたことが精度向上につながった？

論文

[#908]

HATS: Histograms of Averaged Time Surfaces for Robust Event-based Object Classification

Amos Sironi, et al.

CVPR 2018

Munetaka Minoguchi

概要

イベントベースカメラにおける、識別アルゴリズムの提案。本研究では、(1)イベントベースのオブジェクト分類のための低レベル表現とアーキテクチャの欠如、(2)実世界における大きなイベントベースのデータセットの欠如、の2つの問題に取り組む。新しい機械学習アーキテクチャ、イベントベースの特徴表現(Histograms of Averaged Time Surfaces)、データセット(N-CARS)を提案。

新規性

イベントベースのカメラは、従来のフレームベースのカメラと比較して、高時間分解能、低消費電力、高ダイナミックレンジという点で優れており、様々なシーンで応用が利く。しかし、イベントベースのオブジェクト分類アルゴリズムの精度は未だ低い。特徴表現には過去時間の情報を使用。

結果・リンク集

過去の情報を使うことで、既存のイベントベースカメラによる認識手法よりも優れた結果となった。

[#909]

Improving Object Localization with Fitness NMS and Bounded IoU Loss

Lachlan Tychsen-Smith, et al.

CVPR 2018

Munetaka Minoguchi

概要

既存のNon-Max Supressionを改良したFitness NMSの提案。Soft NMSも同時に使用するとより効果的。

勾配降下法の収束特性(滑らかさ、堅牢性など)を維持しつつ、IoUを最大化するという目標により適した損失関数であるBounded IoU Loss の提案。これをRoIクラスタリングと組み合わせることで精度が向上する。

新規性

バウンディングボックスのスコアを算出する関数を拡張する。具体的には、グランドトゥルースとのIoUと、クラスの期待値を追加する。これにより、IoUの重なり推定値と、クラス確率の両方が高いバウンディングボックスを優先して学習することができる。

結果・リンク集

MSCOCO、Titan X(Maxwell)使用時では、精度33.6％-79Hzまたは41.8％-5Hz。本論文ではDeNetでテストしたが、別の手法でも精度向上が望めるよう。

[#910]

Independently Recurrent Neural Network (IndRNN): Building A Longer and Deeper RNN

Shuai Li, et al.

CVPR 2018

Munetaka Minoguchi

概要

新しいRNN手法であるindependently recurrent neural network (IndRNN)の提案。一枚のレイヤ内のニューロンが独立しており、レイヤ間で接続されている。これにより、勾配消失問題や爆発問題を防ぎ、より長期的なデータを学習することができる。また、IndRNNは複数積み重ねることができるため、既存のRNNよりも深いネットワークを構築できる。

新規性

本手法によって下記の従来手法の問題を解決。

RNNは、勾配の消失や爆発の問題、長期パターンの学習が困難である。LSTMやGRUは、上記のRNNの問題を解決すべく開発されたが、層の勾配が減衰してしまう問題がある。また、RNNは全てのニューロンが接続されているため、挙動の解釈が困難。

結果・リンク集

かなり長いシーケンス(5000回以上の時間ステップ)を処理でき、かなり深いネットワーク（実験では21レイヤー）を構築できる。

論文

[#911]

Iterative Visual Reasoning Beyond Convolutions

Xinlei Chen, Li-Jia Li, Li Fei-Fei, Abhinav Gupta

CVPR 2018

Munetaka Minoguchi

概要

CNNのような理由を突き止める能力がない認識システムを超えた、反復的なvisual reasoningのための新しいフレームワークの提案。畳み込みベースのローカルモジュールとグラフベースのグローバルモジュールの2コアで構成。2つのモジュールのを繰返し展開し、予測結果を相互にクロスフィードして絞り込む。最後に、両方のモジュールの最高値をアテンションベースのモジュールと組み合わせてプレディクト。

新規性・結果・リンク集

ただ畳み込むだけでなく、Spatial(空間的)およびSemanticの空間を探索することができる。下図のように、「人」は「車」を運転するというSpatialとSemanticの双方を兼ね備えた認識を行うことで精度向上を図る。

通常のCNNと比較して、ADEで8.4％、COCOで3.7％の精度向上。

論文

[#912]

LayoutNet: Reconstructing the 3D Room Layout from a Single RGB Image

Chuhang Zou, Alex Colburn, Qi Shan, Derek Hoiem

CVPR 2018

Munetaka Minoguchi

概要

単一のパースペクティブまたはパノラマ画像から屋内3Dルームレイアウトを推定するLayoutNetの提案。最初に、消失点を分析し、水平になるように画像を整列。これにより、壁と壁の境界が垂直になり、ノイズ低減。画像からコーナー(レイアウト接合点)と境界を、エンコーダ/デコーダ構造のCNNで出力。最後に、3D Layoutパラメータを、予測したコーナーと境界に適合するように最適化する。

新規性

アーキテクチャはRoomNetと似ているが、消失点に基づいて画像を整列させ、複数のレイアウト要素（コーナー、境界線、サイズ、平行移動）を予測し、 “L”形の部屋のような非直方体のマンハッタンレイアウトに対しても適応できる。

プロジェクトページ

[#916]

2018.4.8 01:45:44

Motion-Appearance Co-Memory Networks for Video Question Answering

Jiyang Gao, Runzhou Ge, Kan Chen, Ram Nevatia

CVPR 2018

Munetaka Minoguchi

概要

ビデオQAのための、 Dynamic Memory Network(DMN) のコンセプトに基づいたmotion-appearance comemory networkの提案。本研究の特徴は次の3つである。(1)アテンションを生成するために動きと外観情報の両方を手がかりとして利用する共メモリアテンションメカニズム。(2) multi-level contextual factを生成するための時間的conv-deconv network。(3)異なる質問に対して動的な時間表現を構成するdynamic fact ensemble method。

新規性

本手法は、次のようなvideo QA特有の属性に基づいている。(1)豊富な情報を含む長い画像シーケンスを扱う。(2)動き情報と出現情報を相互に関連付け、アテンションキューを他の情報に応用できる。(3)答えを推論するために必要なフレーム数は質問によって異なる。

結果・リンク集

TGIF-QAの4つのタスクすべてにおいて、最先端技術よりも優れている。

論文

[#917]

Multi-Frame Quality Enhancement for Compressed Video

Ren Yang, Mai Xu, Zulin Wang, Tianyi Li

CVPR 2018

概要

圧縮した動画像に対して画質を向上させる研究。Peak Quality Frames (PQFs)を用いたSVMベースの手法やMulti-Frame CNN (MF-CNN)を提案。提案法により、圧縮動画における連続フレームからアーティファクトを補正するような働きが見られた。

180324PQF

新規性・結果

動画の画質改善手法においてState-of-the-art。動画に対する画質改善の結果は図を参照。

リンク集

[#918]

2018.3.24 15:14:35

Multi-Level Factorisation Net for Person Re-Identification

Xiaobin Chang, Timothy M. Hospedales, Tao Xiang

CVPR 2018

Munetaka Minoguchi

概要

人間の視覚的外観を、人の手によるアノテーションなしかつ、複数のセマンティックレベルで識別因子に分解する Multi-Level Factorisation Net(MLFN)の提案。 MLFNは、複数のブロックで構成されており、各ブロックには、複数の因子モジュールと、各入力画像の内容を解釈するための因子選択モジュールが含まれている。

新規性

効果的なRe-IDを目指すには、高低のセマンティックレベルでの人の差別化かつ視界不変性をモデル化することである。近年(2018)のdeep Re-IDモデルは、セマンティックレベルの特徴表現を学習するか、アノテーション付きデータが必要となる。MLFNではこれらを改善する。

結果・リンク集

3つのRe-IDと、CIFAR-100の結果で最先端。

論文

[#919]

Non-local Neural Networks

Xiaolong Wang et al.

CVPR 2018

概要

NLPなどで効果を発揮しているself-attentionを多次元に一般化し、2D/3DCNNに導入することで新たな「non-local block」を形成し、画像や動画での実験を行った。行動認識＠Kineticsでは非常に高い精度を達成。Instance segmentationやkey point detectionなどのタスクでも汎用的に効果を発揮。

手法

位置jと位置iに依存してアテンションを出力する関数f(.)とjのみに依存する関数g(.)の積を入力位置jに関して和をとることによって位置iの出力値を決定する。位置情報の保存、可変入力サイズ、などの性質を持ち、全結合、畳み込みを特殊な形として含む。またf(.)の定義の仕方によってはself-attentionと一致する。 f(.)は様々な形が提案されているが、種類によらず効果を発揮している。実際に使用する場合は図のような残差構造を使用している。

コメント・リンク

効果のインパクトがすごい。学習曲線からもうまくいっていることが明らか。C2Dに対してspace-timeにnon-local blockを適用すると3Dconvよりも時系列方向への拡大として効果があったのが興味深い。結局残差を用いたnon-local blockを使用していたので、単純にnon-local layerのみでの性能もきになる。位置情報の保存は重要でも、局所性はあまり重要ではなかったのかと感じられる。

論文

[#920]

Tomoyuki Suzuki

Pose-Robust Face Recognition via Deep Residual Equivariant Mapping

Kaidi Cao, Yu Rong, Cheng Li, Xiaoou Tang, Chen Change Loy

CVPR 2018

Munetaka Minoguchi

概要

横顔の認識精度を高めるためにDeep Residual EquivAriant Mapping (DREAM)の提案。正面と側面の顔間のマッピングを行うことで特徴空間を対応付ける。これにより、横顔を正面の姿勢に変換して認識を単純化。

新規性・手法・リンク集

正面と側面のトレーニング数の不均衡から、現代の顔認識モデルの多くは、正面と比べて横顔を処理するのが比較的貧弱。本手法は姿勢変動を伴う顔認識に限定されない顔認識が可能で、横顔のデータを増やさなくても精度向上。

上図より、DREAMをCNNに追加し、入力に残差を動的に追加。下図はマッピングによる姿勢変換の例。

[#921]

Pyramid Stereo Matching Network

Jia-Ren Chang, Yong-Sheng Chen

CVPR 2018

Munetaka Minoguchi

概要

空間ピラミッドプーリングと3D CNNの2つのモジュールから構成された、ステレオ画像対からの奥行き推定を行うPyramid Stereo Matching Network(PSMNet)の提案。空間ピラミッドプーリングは、異なるスケールおよび位置でコンテキストを集約し、コストボリュームを形成する。 3D CNNは、複数のhourglass networksを重ねて、コストボリュームを規則化することを学習。

新規性

現在(2018)ではステレオ画像からの奥行き推定を、CNNの教師あり学習で解決されてきている。コンテキスト情報を利用することで精度向上を図る。

結果・リンク集

最先端の手法よりも優れている結果。

[#922]

Referring Relationships

Ranjay Krishna, Ines Chami, Michael Bernstein, Li Fei-Fei

CVPR 2018

Munetaka Minoguchi

概要

referring relationshipsを利用して同カテゴリのエンティティ間の曖昧さを解消するタスクの提案。特徴抽出後、アテンションを生成。述語を使用することで、アテンションをシフトさせる。この述語シフトモジュールを介して、subjectとobjectの間でメッセージを反復的に渡すことで、2つのエンティティをローカライズ。

新規性

画像中のエンティティ間の関係にはそれぞれ意味があり、画像の理解に役立つ。例えば、図のサッカーの試合の画像では、複数の人写っているが、それぞれは異なる関係を持っている。一人はボールを蹴っており、もう一人はゴールを守っている。に着目すると、述語の”kick”を理解することにより、画像内のどの人物が”ball”を蹴っているのかを正しく識別する。

[#923]

Rethinking Feature Distribution for Loss Functions in Image Classification

Weitao Wan, Yuanyi Zhong, Tianpeng Li, Jiansheng Chen

CVPR 2018 (spotlight)

概要

本論文ではLarge-margin Gaussian Mixture (L-GM) Lossを提案して画像識別タスクに応用する。Softmax Lossとの違いは、学習セットにおけるディープ特徴の混合ガウス分布をフォローしつつ仮説を設定するところである。識別境界や尤度正則化においてL-GM Lossは非常に高いパフォーマンスを実現している。

180314LGM

新規性・結果

L-GM Lossは画像識別においてSoftmax Lossよりも精度が高いことはもちろん、特徴分布を考慮するため例えばAdversarial Examples（摂動ノイズ）などにおいても対応できる。MNIST, CIFAR, ImageNet, LFWにおける識別や摂動ノイズを加えた実験においても良好な性能を確かめた。

コメント・リンク集

Softmax Lossよりも有意に精度向上が見られている。導入が簡単なら取り入れて精度向上したい。

論文

[#924]

2018.3.14 11:04:45

Robust Depth Estimation from Auto Bracketed Images

Sunghoon Im, Hae-Gon Jeon, In So Kweon

CVPR 2018

概要

HDRの画像の明るさを補正するためのブラケット撮影からの距離画像やカメラ姿勢を同時推定する手法を提案する論文。ブラケット撮影とは通常の露出撮影以外に意図的に「少し明るめの写真」と「少し暗めの写真」を同時に撮影。距離画像推定は幾何変換をResidual-flow Networkに統合したモデルにより行う。ここでは学習ベースのMulti-view stereo手法（Deep Multi-View Stereo; DMVS）を幾何推定（Structure-from-Small-Motion; SfSM）と組み合わせる。

180323BracketedImages

新規性・結果

距離画像推定において、スマートフォンやDSLRカメラなど種々のデータセットにてSoTAな精度を達成。モバイル環境でも動作するような小さなネットワークと処理速度についても同時に実現した。

リンク集

[#925]

2018.3.23 19:11:04

Rotation-Sensitive Regression for Oriented Scene Text Detection

Minghui Liao, et al.

CVPR 2018

Munetaka Minoguchi

概要

自然画像から文字を検出する。単なる検出ではなく、文字の方向を考慮したバウンディングボックスによる検出手法であるRotation-sensitive Regression Detector (RRD)の提案。回帰ブランチによって、畳み込みフィルタを回転させて回転感知特徴を抽出。分類ブランチによって、回転感性特徴をプーリングすることによって回転不変特徴を抽出。

新規性

文字をテーマにした研究では(1)テキストの向きを無視した分類方法と，(2)向きを考慮したバウンディングボックスによる回帰がある。従来研究では、両方のタスクの共有の特徴を使用していたが、互換性がなかったためにパフォーマンスが低下(図b)。そこで、異なる2つのネットワークから抽出した、異なる特性の特徴を分類および回帰することを提案(図d,e)。

結果・リンク集

ICDAR 2015、MSRA-TD500、RCTW-17およびCOCO-Textを含む3つのシーンテキストのデータセットで最先端のパフォーマンスを達成。向きがある一般物体検出にも応用可能？

論文

[#926]

SketchMate: Deep Hashing for Million-Scale Human Sketch Retrieval

Peng Xu, et al.

CVPR 2018

Munetaka Minoguchi

概要

スケッチ検索のためのディープハッシングフレームワークの提案。3.8mの大規模スケッチデータセットを構築。CNNでスケッチの特徴抽出。RNNでペンストロークの時間情報をモデル化。CNN-RNNでエンコードすることで、スケッチ性質に対応した新しいhashing lossを導入。

新規性・差分

従来のスケッチ認識タスクに従う代わりに、より困難な問題のスケッチハッシュ検索を行う。ネットワークをスケッチ認識のために再利用することもでき、どちらも高パフォーマンス。大規模なデータセットを利用することで、従来の文献ではあまり研究されていなかった、スケッチのユニークな特性を見出す。

リンク集

[#927]

Style Aggregated Network for Facial Landmark Detection

Xuanyi Dong, Yan Yan, Wanli Ouyang, Yi Yang, University of Technology Sydney, The University of Sydney

CVPR 2018

Munetaka Minoguchi

概要

顔のランドマーク検出。顔そのもののばらつきの他に、グレースケールやカラー画像、明暗などの画像スタイルが変わっても同様に検出できるStyle Aggregated Network(SAN)の提案。まず、(1)入力画像をさまざまなスタイルに変換し、スタイルを集約し、(2)顔のランドマーク予測する。(2)は、元画像とスタイルを集約した特徴の両方を入力し、融合してカスケード式のヒートマップ予測を生成する。

結果・リンク集

Flickr8kとFlickr30kを使った実験において、最先端モデルと同等かそれ以上の結果。より正確で、より多様なキャプション生成。

[#928]

The Unreasonable Effectiveness of Deep Features as a Perceptual Metric

Richard Zhang et al.

CVPR 2018

概要

2枚の画像の類似度を表す指標は数多く提案されているが、その類似度は必ずしも人間の知覚と一致していない。近年はDNNにより高次の特徴を得ることが可能となっており、人間の知覚に近づいている。そこで、既存の類似度の評価尺度とDNNベースの類似度判定を比較することでDNNベースの手法がより人間の知覚に近い類似度を表現できることを確認した。具体的には、ある画像を異なる方法で加工したもの2つを用意し、どちらが元の画像に近いかを人間とコンピュータ両方に判定させることで検証を行った。

Item3Image

新規性・結果

データセットとして、画像に様々な加工を施したデータを人間に類似度を評価してもらったものを作成。加工の例としては、ノイズの付与やオートエンコーダによる画像の復元などが挙げられる。検証の結果、ＤＮＮベースの類似度の方が既存の尺度より人間の知覚に乗っ取ってることを示した。また、DNNのネットワーク構造そのものは重要ではないことが分かった。

リンク集

プロジェクトページ

[#929]

2018.4.8 01:36:55

TOM-Net: Learning Transparent Object Matting from a Single Image

Guanying Chen, Kai Han, Kwan-Yee K. Wong

CVPR 2018 (spotlight)

概要

透明物体の切り抜き（Transparent Object Matting; TOM）と反射特性を推定することが可能なネットワークTOM-Netを提案する。TOM-Netにより、物体の反射特性を保存しながら他の画像にレンダリングして、同画像のテクスチャを反映させることができる。同問題を反射フローの推定問題と捉えてDNNのモデルを構築することで解決した。荒い部分は多階層のEncoder-Decorderで推定し、詳細な部分はResidualNetで調整する。この問題を解決するために、データセットを構築した。

180324TOMNet

新規性・結果

178Kの画像を含むデータセットを構築した。同DBには876サンプル、14の透明物体、60種の背景を含む。透明物体の推定と反射特性のレンダリングはGitHubページを参照。

コメント・リンク集

[#930]

2018.3.24 18:05:46

Towards Human-Machine Cooperation: Self-supervised Sample Mining for Object Detection (2)

Keze Wang, et al.

CVPR 2018

Munetaka Minoguchi

概要

物体検出の課題を考慮し、既存のActive Learning(AL)の欠点を改善することを目的とした、Self-Supervised Sample Mining(SSM)の提案。ラベルなし、もしくは一部ラベルのないデータを使って学習することができる。交差検証後のスコアによってサンプルを選別。低い場合にはユーザによってアノテーション、高い場合にはそのままラベルとして採用。

新規性

既存のAL法では主に、単一の画像コンテクスト内でサンプル選択基準を定義し、大規模な物体検出において最適ではなく、頑強性および非実用的である。SSMによって、ユーザが必要な部分にだけ介入し、アノテーションの作業を軽減。

結果・リンク集

アノテーションが少ないデータセットにおいても最先端の精度。

論文

[#931]

Towards Open-Set Identity Preserving Face Synthesis

Jianmin Bao, et al.

CVPR 2018

Munetaka Minoguchi

概要

顔画像からidentityとattributesを別々に再構成する、GANに基づいたOpen-Set Identity Generating Adversarial Networkの提案。 face synthesis networkは、ポーズや感情、照明、背景などをキャプチャする属性ベクトルを抽出することができる。図中の2つの入力画像AおよびBから抽出された識別を再結合することによって、A0およびB0を生成することができる。

新規性・結果・リンク集

顔の正面化、顔属性モーフィング、 face adversarial example detectionなど、より広範なアプリケーションに応用可能。

論文

[#932]

Towards Universal Representation for Unseen Action Recognition

Yi Zhu, Yang Long, Yu Guan, Shawn Newsam, Ling Shao

CVPR 2018

概要

学習画像がなくても行動認識を実現する「Unseen Action Recognition (UAR)」についての研究。UARの問題をMIL（Multiple Instance Learning）の一般化（GMIL）として扱い、ActivityNetなど大規模動画データから分布推定して表現を獲得。図は提案手法であるCross-Domain UAR (CD-UAR)である。ビデオから抽出したDeep特徴はGMILによりカーネル化される。Word2Vecとの投稿によりURを獲得し、ドメイン変換により新しい概念を獲得する。

180323UAR

新規性・結果

従来法では見た/見てないの対応関係をデータセット中に含ませていたが、本論文での提案はUniversal Representation（ユニバーサル表現）を獲得して同タスクを解決する。

リンク集

論文

[#933]

2018.3.23 19:40:06

Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatial-Temporal Patterns

Jianming Lv, et al.

CVPR 2018

Munetaka Minoguchi

概要

歩行者の時空間パターンを用いた、教師なし学習の人物再同定アルゴリズムであるTFusionを提案。既存の人物再同定アルゴリズムのほとんどは、小サイズのラベル付きデータセットを用いた教師付き学習手法である。そのため、大規模な実世界のカメラネットワークに適応することは困難である。また、そこで、ラベルなしデータセットも用いたクロスデータセット手法によって精度向上を図る。

手法

まず、歩行者の空間的-時間的パターンを学習するために、ラベル付きデータセットを用いて学習した視覚的分類器を、ラベルなしデータセットに転送。次に、Bayesian fusion modelによって、学習された時空間パターンを視覚的特徴と組み合わせて、分類器を改善。最後に、ラベルのないデータを用いて分類器を段階的に最適化。

結果・リンク集

人物再同定のための、教師なしクロスデータセット学習手法の中では最先端。

論文

[#934]

Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatial-Temporal Patterns (2)

Jianming, Lv and Weihang, Chen and Qing, Li and Can, Yang

CVPR 2018

概要

ラベルなし、ドメインが異なる環境に対して人物再同定を行う手法を提案する。モデルであるTFusionは４ステップにより構築（１）教師あり学習により識別器を構築（２）ターゲットであるラベルなしデータにより時空間特徴パターン（Spatio-temporal Pattern）を学習（３）統合モデルFを学習（４）ラベルなしのターゲットデータにて徐々に識別器を学習する（１〜４は図に示されている）。Bayesian Fusionを提案して、時空間特徴パターンと人物のアピアランス特徴を統合してドメイン変換を行う。

180323CDReID

新規性・結果

従来の人物再同定の設定では比較的小さいデータセットであり、完全に教師ありの環境を想定していたが、本論文ではラベルなし、ドメインが異なる環境に対して人物再同定を実行するため、非常に難しい問題となる。

コメント・リンク集

[#935]

2018.3.23 20:37:22

Unsupervised Textual Grounding: Linking Words to Image Concepts

Raymond A. Yeh, Minh N. Do, Alexander G. Schwing

CVPR 2018

Munetaka Minoguchi

概要

単語を検出された画像の概念に関連付けるための、仮説検定を用いた教師なしTextual grounding手法の提案。ネットワークにはVGG-16を採用し、画像内のオブジェクト/単語の空間情報やクラス情報、およびクラス外の新しい概念を学習できる。

新規性

Textual grounding、すなわち画像内のオブジェクトと単語をリンクさせる既存の技法は、教師付きのディープラーニングとして定式化されており、大規模なデータセットを用いてバウンディングボックスを推定する。しかし、データセットの構築には時間やコストがかかるので教師なしの手法を提案。

結果・リンク集

ReferIt GameとFlickr30kを用いたベンチマークでそれぞれ7.98％と6.96％以上の精度。

論文

[#936]

Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments

Peter Anderson, et al.

CVPR 2018

概要

自然言語のナビゲーションを入力として、実空間の中をロボットが動き目的地に到達できるかどうかを競うベンチマーク（Visually-grounded natural language navigation in real buildings）を提案。データセットは3Dのシミュレータによりキャプチャされ、22Kのナビゲーション、文章の平均単語数は29で構成される。

180305R2RNavi

新規性・結果

(1) Matterport3Dデータセットを強化学習を行えるように拡張。(2) 同タスクが行えるようなベンチマークであるRoom-to-Room (R2R)を提案して言語と視覚情報から実空間にてナビができるようにした。(3) seq-to-seqをベースとしたニューラルネットによりベンチマークを構築。VQAをベースにしていて、ナビゲーション（VQAでいう質問文）と移動アクション（VQAでいう回答）という組み合わせで同問題を解決する。

コメント・リンク集

自然言語の問題はキャプションや質問回答の枠を超えて実空間、さらにいうとロボットタスクに導入されつつある。この研究はビジョン側からのアプローチだが、ロボット側のアプローチが現在どこまでできているか気になる。すでに屋内環境をある程度自由に移動するロボットが実現しているとこの実現可能性が高くなる。SLAMとの組み合わせももう実行できるレベルにある？

[#937]

2018.3.5 19:53:46

Weakly-Supervised Action Segmentation with Iterative Soft Boundary Assignment

Li Ding, Chenliang Xu

CVPR 2018