基于3D卷积神经网络的人体行为理解 下载本文

内容发布更新时间 : 2024/6/26 18:25:06星期一 下面是文章的全部内容请认真阅读。

基于3D卷积神经网络的人体行为理解(论文笔记)

zouxy09@qq.com http://blog.csdn.net/zouxy09

最近看Deep Learning的论文,看到这篇论文:3D Convolutional Neural Networks for Human Action Recognition。比较感兴趣是CNN是怎么应用于行为理解的,所以就看看。这篇论文发表在TPAMI2013。它基本上没有公式的,论文倾于从论述角度描述它的基本方法和实现效果。另外,对于怎么去训练也没有具体的介绍,不知道和普通的用于二维图像的卷积神经网络有什么差别。另外,下面的总结是翻译加自己的理解组成的,学识有限,如有错误,还望大家不吝指导。

该文关注的是在监控中人类行为的自动识别问题。这点还是挺有应用价值空间的,它可以自动的理解识别监控中人的异常行为,例如打架啊,偷东西啊,老人摔倒啊,聚众事件啊,入侵啊等等。这些行为如果可以检测出来,在安防等领域还是有很大价值的。还记得电影上面那些保安每天都坐在无数的监控屏幕前,永不停息的睁开着疲乏的双眼……

一、概述

上面说到,人类行为识别很重要。在现实的环境中,不同的场景存在杂乱背景、阻挡和视角变化等等情况,对于人来说,很容易就可以辨识出来,但对于计算机,就不是一件简单的事了。而以前的Human Action Recognition方法都是基于一些对应用场景苛刻的假设上的,例如目标小的尺度变化和小的视觉改变等。但这在现实世界中是很难满足的。

目前,在这方面,大部分当前的打法都是遵循两个步骤: 1)在原始的输入中提取复杂的人工特征; 2)在获取的特征上学习分类器。

但在现实世界的场景中,我们几乎很难知道对于一个具体的任务什么样的特征才是重要的,因为特征的选择与具体的问题高度依赖。特别是行为识别上,不同的运动类型在外观和运动模型上都呈现出非常大的不同。

CNN卷积神经网络是一种深度模型。它其实老早就已经可以成功训练并且应用了(最近可能deep learning太火了,CNNs也往这里面靠。虽然CNNs也属于多层神经网络架构,但把它置身于DL家族,还是有不少人保留自己的理解的)。它在原始的输入中应用可训练的滤波器trainable filters和局部邻域池化操作local neighborhood pooling operations,得到一个分级的且逐渐复杂的特征表示。有实践表示,如果采用合适的规

则化项来训练,它可以达到非常好的效果。CNN还让人青睐的一点就是它会对例如姿势、光照和复杂背景存在不变性。

CNN牛逼就在于它是一种可以直接在原始输入就大展拳脚的深度模型。然而,让人心淡的一点是,它虽然具有强大的功力,但目前它宏大的梦想只受限在2D输入的舞台。但对于有梦想的人,这也是让人心动的一点,因为还有改进和上升的空间。这篇文章提出了一个新的3D CNN模型,用于运动识别。该模型可以从空间和时间的维度提取特征,然后进行3D卷积,以捕捉从多个连续帧得到的运动信息。 该论文的贡献,其自组织为:

1)提出通过3D卷积操作核去提取视频数据的时间和空间特征。这些3D特征提取器在空间和时间维度上操作,因此可以捕捉视频流的运动信息。

2)基于3D卷积特征提取器构造了一个3D卷积神经网络。这个架构可以从连续视频帧中产生多通道的信息,然后在每一个通道都分离地进行卷积和下采样操作。最后将所有通道的信息组合起来得到最终的特征描述。

3)提出通过计算高层运动特征得到的辅助输出来增强模型。为了应对不同环境的使用,还综合多个不同的CNN架构去综合判断识别结果。

4)在TRECVID数据集中测试,并和一些基准方法进行比较。其实验证明文中方法outperforms二维CNNs方法和其他的基准方法。 那下面我们就依次来看看这些贡献的细节。

二、3D卷积神经网络 1、3D卷积

在video中应用CNN一个简单的方法就是对每一帧运用CNN来识别,但是这种方法并没有考虑到连续帧间的运动信息。为了有效的综合运动信息,文中提出了一种3D卷积的方法。通过在CNNs的卷积层进行3D卷积,以捕捉在时间和空间维度都具有区分性的特征。

3D卷积是通过堆叠多个连续的帧组成一个立方体,然后在立方体中运用3D卷积核。在这个结构中,卷积层中每一个特征map都会与上一层中多个邻近的连续帧相连,因此捕捉运动信息。例如上面左图,一个卷积map的某一位置的值是通过卷积上一层的三个连续的帧的同一个位置的局部感受野得到的。

需要注意的是:3D卷积核只能从cube中提取一种类型的特征,因为在整个cube中卷积核的权值都是一样的,也就是共享权值,都是同一个卷积核(图中同一个颜色的连接线表示相同的权值)。我们可以采用多种卷积核,以提取多种特征。

对于CNNs,有一个通用的设计规则就是:在后面的层(离输出层近的)特征map的个数应该增加,这样就可以从低级的特征maps组合产生更多类型的特征。 2、3D CNN架构

文中的3D CNN架构包含一个硬连线hardwired层、3个卷积层、2个下采样层和一个全连接层。每个3D卷积核卷积的立方体是连续7帧,每帧patch大小是60x40;

在第一层,我们应用了一个固定的hardwired的核去对原始的帧进行处理,产生多个通道的信息,然后对多个通道分别处理。最后再将所有通道的信息组合起来得到最终