星期六深夜

关注

【论文观点】CVPR2015

【论文观点】CVPR2015

前言 CVPR2015是一个关于计算机视觉的国际顶尖学术会议。一年一度的会议,每年发表很多高质量的文章。CVPR2015刚刚结束,我读了一些会议里的文章,在此记录一下它们的核心思想,也许以后面对某个具体问题的时候能够受到启发,届时引用文章能有迹可循。如果读者能够获益,或者有不同观点,产生思想碰撞,那更是再好不过了。【1】 Expa... 阅读全文

前言

CVPR2015是一个关于计算机视觉的国际顶尖学术会议。一年一度的会议,每年发表很多高质量的文章。CVPR2015刚刚结束,我读了一些会议里的文章,在此记录一下它们的核心思想,也许以后面对某个具体问题的时候能够受到启发,届时引用文章能有迹可循。如果读者能够获益,或者有不同观点,产生思想碰撞,那更是再好不过了。

 

 【1】

Expanding Object Detector's Horizon: Incremental Learning Framework for Object Detection in Videos [full paper] [ext. abstract]

Alina Kuznetsova, Sung Ju Hwang, Bodo Rosenhahn, Leonid Sigal

 

检测到的东西如果有足够信心归为一类,那么把它用来作为对模型矫正的材料,这样在以后的检测中有更高的准确率。类似人类的学习过程。

【论文观点】CVPR2015

 

【2】

Web Scale Photo Hash Clustering on A Single Machine [full paper] [ext. abstract]
Yunchao Gong, Marcin Pawlowski, Fei Yang, Louis Brandy, Lubomir Bourdev, Rob Fergus

对hash code进行clustering,通过一个threshold来控制clustering的程度,这样用来进行near-duplicate image的retrieval。

【论文观点】CVPR2015

【3】

What do 15,000 Object Categories Tell Us About Classifying and Localizing Actions?[full paper][ext. abstract]
Mihir Jain, Jan C. van Gemert, Cees G. M. Snoek

物品的分类对行为检测有帮助作用。这篇文章是第一篇关于这个话题进行探讨的,是个深坑,大家可以关注一下,考虑占坑。


【4】

A Dynamic Programming Approach for Fast and Robust Object Pose Recognition From Range Images [full paper] [ext. abstract]
Christopher Zach, Adrian Penate-Sanchez, Minh-Tri Pham

关注这篇文章原因有二:
一是因为关于pose recognition,二是因为dynamic programming。这个比较私人了,不一定对大家都有帮助。


【5】

Delving Into Egocentric Actions[full paper][ext. abstract]
Yin Li, Zhefan Ye, James M. Rehg

通过对google glass等设备携带者所录视频进行分析,了解佩戴者的行为。注视,左顾右盼,等等,都为行为分析提供clue。


【6】

Deformable Part Models are Convolutional Neural Networks[full paper][ext. abstract]
Ross Girshick, Forrest Iandola, Trevor Darrell, Jitendra Malik

一个新奇的观点:Deformable Part Model 和 Convolutional Neural Network是一回事。


【7】

Deep Neural Networks Are Easily Fooled: High Confidence Predictions for Unrecognizable Images [full paper] [ext. abstract]
Anh Nguyen, Jason Yosinski, Jeff Clune

文章给了我们一个警示。目前的Deep Learning还是不够智能,没我们想象的那么神奇,它“看到的”我们看到的仍然很大不同。它可能会犯错,而且是很荒谬的错误。


【8】

Hypercolumns for Object Segmentation and Fine-Grained Localization[full paper][ext. abstract]
Bharath Hariharan, Pablo Arbeláez, Ross Girshick, Jitendra Malik

一个很好的思路!以前的CNN或者R-CNN,我们总是用最后一层作为class label,倒数第二层作为feature。这篇文章的作者想到利用每一层的信息。因为对于每一个pixel来讲,在所有层数上它都有被激发和不被激发两种态,作者利用了每一层的激发态作为一个feature vector来帮助自己做精细的物体检测。

【论文观点】CVPR2015

【9】

Hashing With Binary Autoencoders[full paper][ext. abstract]
Miguel Á. Carreira-Perpiñán, Ramin Raziperchikolaei

Autoencoder做hashing我捣鼓过一阵子,想出了一个“好的方法”,发现别人早已经发表论文了,叫denoised autoencoder。相见恨晚啊!(这就是不先做背景研究的后果。)现在关于hashing的方法好多,有的用CNN加一个层,有的直接进行矩阵乘法(使用更合理的constraint),autoencoder的优势已经不在啦!

CVPR2015里面关于Autoencoder的相关论文:

1.

Sparse Projections for High-Dimensional Binary Codes [full paper] [ext. abstract]
Yan Xia, Kaiming He, Pushmeet Kohli, Jian Sun

2.

Deep Learing of Binary Hash Codes for Fast Image Retrieval [full paper] [ext. abstract]
Venice Erin Liong, Jiwen Lu, Gang Wang, Pierre Moulin, Jie Zhou

3.

Deep Hashing for Compact Binary Codes Learning [full paper] [ext. abstract]
Venice Erin Liong, Jiwen Lu, Gang Wang, Pierre Moulin, Jie Zhou

 


【10】

Collaborative Feature Learning From Social Media [full paper] [ext. abstract]
Chen Fang, Hailin Jin, Jianchao Yang, Zhe Lin

很实际的一个问题,一般来说training data都是label好的,这样训练model。文章提出了一种新的方法,即从社交网络中提取信息,根据用户的行为来判断一张图片应该具有的分类或标签,以此来进行训练。
可以和上面提到的文章【1】的idea结合,即online learning,把推测到的图片分类作为材料,矫正模型。如此一来社交网络的更新也会矫正模型本身。


【11】

Rotating Your Face Using Multi-Task Deep Neural Network[full paper][ext. abstract]
Junho Yim, Heechul Jung, ByungIn Yoo, Changkyu Choi, Dusik Park, Junmo Kim

非常有趣的研究!通过深度学习,得到rotation-invariant的feature,利用它可以复原出多种角度的脸部照片。

【论文观点】CVPR2015

【12】

Is Object Localization for Free? - Weakly-Supervised Learning With Convolutional Neural Networks [full paper] [ext. abstract]
Maxime Oquab, Léon Bottou, Ivan Laptev, Josef Sivic

完全冲着名字去看的。它的工作主要是解决手工label物体位置很繁琐这个问题。通过对图片标记某个物品存在不存在,文章中提出的框架可以主动预测出物体的具体位置。


【13】

Finding Action Tubes[full paper][ext. abstract]
Georgia Gkioxari, Jitendra Malik

已经不是第一篇文章使用UCF的dataset进行动作分类和检测了。最近比较火的一个话题吧。这应该是我们导师感兴趣的话题。

 

【论文观点】CVPR2015

另一个导师可能感兴趣的话题: 点人头的。这些嵌入式放在摄像头里面的老板都感兴趣。给老师留着看吧。

Cross-Scene Crowd Counting via Deep Convolutional Neural Networks[full paper][ext. abstract]
Cong Zhang, Hongsheng Li, Xiaogang Wang, Xiaokang Yang


【14】

End-to-End Integration of a Convolution Network, Deformable Parts Model and Non-Maximum Suppression [full paper] [ext. abstract]
Li Wan, David Eigen, Rob Fergus

几个感兴趣的模块的组合。End-to-end。很奇怪为什么之前这种组合没有被explore过。


【15】

ActivityNet: A Large-Scale Video Benchmark for Human Activity Understanding[full paper][ext. abstract]
Fabian Caba Heilbron, Victor Escorcia, Bernard Ghanem, Juan Carlos Niebles

对我而言挺新奇的——Activity Lexicon。以前见过的都是文本的lexicon,比如在scene text的检测上,通过字母之间的关联信息来进行单词的检测。

【论文观点】CVPR2015

【PS:含有源代码的文章】

1.

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun
The 13th European Conference on Computer Vision (ECCV), 2014
arXiv   
Project   Slides   Poster   Code

2.

Sparse Projections for High-Dimensional Binary Codes
Yan Xia, Kaiming He, Pushmeet Kohli, and Jian Sun
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015
PDF   Code

3.

Learning a Deep Convolutional Network for Image Super-Resolution
Chao Dong, Chen Change Loy, Kaiming He, and Xiaoou Tang
The 13th European Conference on Computer Vision (ECCV), 2014
PDF   Code

4.

Understanding Deep Image Representations by Inverting Them [full paper] [ext. abstract]
Aravindh Mahendran, Andrea Vedaldi

code

5.

Becoming the Expert - Interactive Multi-Class Machine Teaching [full paper] [ext. abstract]
Edward Johns, Oisin Mac Aodha, Gabriel J. Brostow

code

以上可能不全,或者说肯定不全,欢迎留言补充!

 

我的新博客地址:http://guanghan.info/blog/zh/

收起全文
人人小站
星期六深夜
顶尖小站
X 人人网小程序,你的青春在这里