3D Convolutional Neural Networks for Human Action Recognition论文阅读笔记
日期:2017-12-29 20:41:44
最后更新日期:2018-02-07 10:16:56
该论文的关键就是一是介绍3D卷积的概念,二是介绍human action recognition的那个网络模型。
首先来看2D卷积:

第i层第j个feature map在位置x,y处的值为v_{ij}^{xy}。即对第i-1层的m个feature map与第j个卷积核求和。
3D卷积即对2D卷积的直接推广。

不过加一个时间维度,卷积的输入对象是一个立方体,输出的也是一个立方体。这两个公式是已知卷积是怎么回事了,然后看起来还好。
这个3D卷积网络模型

* 输入是一个视频,7张60x40的图片。
* handwired过程,大概意思是说了用了人为提取的5个特征: gray(灰度), gradient-x(x方向梯度), gradienty-y(y方向梯度), optflow-x(x方向光流), and optflow-y(y方向光流)。gray, gradient-x,gradient-y是每帧都提取,optflow-x, optflow-y是相邻两张才提取一个。故提取(7 + 7 + 7 + 6 + 6) = 33张图。这里的5组特征,用了5组颜色来表示形成5个通道。注意同一种颜色的深色和浅色是同一个特征组。
* C2为了增多feature map,使用了两组3D卷积。
* 来计算一下,使用7x7x3的3D卷积核后,feature map的个数是多少?
在这个模型3D卷积是分别针对每个通道运算,那么空间域上,形成的feature map的size为
5 + 5 + 5 + 4 + 4 = 23。