异想天开

What's the true meaning of light, Could you tell me why

3D Convolutional Neural Networks for Human Action Recognition论文阅读笔记

日期:2017-12-29 20:41:44
  
最后更新日期:2018-02-07 10:16:56
阅读过程,首先阅读一下中文写的论文解读,细节没看懂,大概知道怎么回事。但感觉中文解读的不是很通顺。第二遍阅读英文论文,用英文论文补充了详细的背景介绍,理出着重理解的关键点。然后理解了中文论文解读中说的细节。
该论文的关键就是一是介绍3D卷积的概念,二是介绍human action recognition的那个网络模型。
首先来看2D卷积:

第i层第j个feature map在位置x,y处的值为v_{ij}^{xy}。即对第i-1层的m个feature map与第j个卷积核求和。
3D卷积即对2D卷积的直接推广。

不过加一个时间维度,卷积的输入对象是一个立方体,输出的也是一个立方体。这两个公式是已知卷积是怎么回事了,然后看起来还好。
这个3D卷积网络模型

* 输入是一个视频,7张60x40的图片。
* handwired过程,大概意思是说了用了人为提取的5个特征: gray(灰度), gradient-x(x方向梯度), gradienty-y(y方向梯度), optflow-x(x方向光流), and optflow-y(y方向光流)。gray, gradient-x,gradient-y是每帧都提取,optflow-x, optflow-y是相邻两张才提取一个。故提取(7 + 7 + 7 + 6 + 6) = 33张图。这里的5组特征,用了5组颜色来表示形成5个通道。注意同一种颜色的深色和浅色是同一个特征组。
* C2为了增多feature map,使用了两组3D卷积。
* 来计算一下,使用7x7x3的3D卷积核后,feature map的个数是多少?
在这个模型3D卷积是分别针对每个通道运算,那么空间域上,形成的feature map的size为54x34,此处更正为60x40, 看图上显示为60x40,是使用大小不变的补齐方式。参考2D卷积过程。时间域上,第一个通道是7帧,3D卷积核的时域大小为3,那么卷积后,也就是7 - 3 + 1 = 5。这个模型没有使用补齐操作。故整个为:
5 + 5 + 5 + 4 + 4 = 23。