文章目录
引言动作识别、动作检测相关任务动作识别 vs. 行为识别
相关数据集[^1]视频理解数据集对比动作/行为识别数据集 Action Recognition /ClassificationKinetics-[400/600/700] 数据集Something-Something V1/V2 数据集Charades 数据集Moments in Time 数据集HVU 大规模视频理解数据集Jester 手势数据集FineGym 数据集ActivityNetUCF101 数据集HMDB51 数据集
时域动作检测数据集 Temporal Action DetectionActivityNetTHUMOS14
时空动作检测数据集 Spatial Temporal Action DetectionAVA (Atomic Visual Actions)数据库JHMDB(Joint-annotated Human Motion Data Base)
开源代码mmaction2PySlowFast
引言
在计算机视觉的相关研究中,人体的动作、行为识别是一个基础研究问题。但目前识别、检测人类的动作/行为仍然是一个巨大的挑战。这里整理下当前相关的细分任务、数据集和开源代码(更新至2021年2月份)。
动作识别、动作检测相关任务
Action Recognition/Classification 动作识别 https://paperswithcode.com/task/action-classificationSkeleton Based Action Recognition 基于骨架的动作识别 https://paperswithcode.com/task/skeleton-based-action-recognitionActivity Recognition 行为识别Temporal Action Detection 时域动作检测Spatial Temporal Action Detection 时空动作检测,同一时刻多人不同动作的场景Video Classification https://paperswithcode.com/task/video-classification
动作识别 vs. 行为识别
动作识别一般比行为识别的表达粒度更细,侧重一个单一的动作模式,而行为的范畴更广,可能是多个人、多个动作的组合,构成一个行为。当前大多数据集没有对动作、行为进行严格的区分,通过对数据集中的视频片段或视频片段中的目标分配一个标签,类似图像分类器。而且现在的算法大多是用深度学习来提取时序特征,所以并未关注具体的动作/行为在空间、时间维度上模式的区别。
相关数据集1
视频理解数据集对比
从规模和数量上对比,当前主流数据集比较如下图2:
可以看出,从数据集的样本规模、每个类别的数量、覆盖的目标和场景数量来说,当前数据最丰富的是Moments,其次是Kinetics、AVA、Something、Charades,现在这几个数据集用的比较多。
从标注信息的角度来说,当前主流数据集比较如下图3:
当前HVU在语义标注方面,包含场景、对象、动作、事件、属性和概念类别,比其他数据集的标注角度更多。
动作/行为识别数据集 Action Recognition /Classification
Kinetics-[400/600/700] 数据集
[link] [CVPR’2017]
视频来源于YouTube,一共有400/600/700个类别,每个类别至少600个视频以上,每段视频持续10秒左右,数据集很大。类别主要分为三大类:人与物互动,比如演奏乐器;人人互动,比如握手、拥抱;运动等。即person、person-person、person-object。
Something-Something V1/V2 数据集
[V1 link] (ICCV’2017) [V2 link]
该数据集收集了人类对日常物体执行预定义的基本动作。
视频总数 220,847 训练集 168,913 验证集 24,777 测试集(不带标签) 27,157 标签 174
Charades 数据集
[link] [ECCV2016] 通过Amazon Mechanical Turk收集的日常室内活动视频组成的数据集。Charades比Kinetics数据集中的人类行为持续时间更长。
数据集包含: 157个动作类别的66,500个时间注释 46个物体类别的41,104个标签 27,847个视频的文本描述。
Moments in Time 数据集
[link] [TPAMI’2019] 当前最大的动作识别数据集。 数据集包括一百万个带有标签的3秒视频集,涉及人,动物,物体或自然现象。
HVU 大规模视频理解数据集
[link] [ECCV’2020]
多标签、多任务。HVU数据集可以用来进行三类任务: 1.) Video classification 2.) Video captioning 3.) Video clustering tasks.数据集包含57万多个视频,9百万个标注,3142个类别。任务类别分为:场景、目标、动作、事件、属性、概念等多个维度。
Jester 手势数据集
[link] (ICCV’2019) 该数据集收集了人类在笔记本电脑摄像头或网络摄像头前执行预定义的手势。
视频总数 148,092 训练套 118,562 验证集 14,787 测试仪(不带标签) 14,743 标签 27
FineGym 数据集
[link] (CVPR’2020)
FineGym数据集:这是一个基于体育馆视频的新数据集。与现有的动作识别数据集相比,FineGym在丰富性,质量和多样性方面均卓著。特别是,它使用三级语义层次结构在动作和子动作级别提供时间注释。例如,“平衡木”该事件将被注释为一系列基本子动作的序列,这些子动作来自五组: “飞跃”,“光束转向”,“飞行萨尔托”,“飞行手形”和“下马”,其中子每个集合中的动作将进一步使用定义良好的类标签进行注释。这种新的粒度级别为动作识别提出了重大挑战,例如,如何从连贯动作中解析时间结构,以及如何区分细微不同的动作类别。
FineGym分层组织了语义和时间注释。上部显示了三个类别的分类标签,即事件(例如平衡木),集合(例如下马)和元素(例如向前塞入的萨尔托)。下部描述了两级时间注释,即动作(在顶部栏中)和子动作实例(在底部栏中)的时间边界。
ActivityNet
[link] (CVPR’2015) 涵盖人们日常生活中感兴趣的各种复杂的人类行为。ActivityNet可用于比较人类行为理解算法的三种情况:全局视频分类,修剪后的行为分类和行为检测。
ActivityNet 200 (Release 03-2016)
200 activity classes 10,024 training videos (15,410 instances) 4,926 validation videos (7,654 instances) 5,044 testing videos (labels withheld)
ActivityNet 100 (Release 10-2015)
100 activity classes 4,819 training videos (7,151 instances) 2,383 validation videos (3,582 instances) 2,480 testing videos (labels withheld)
UCF101 数据集
[link] [paper](CRCV-IR-12-01)
这个数据集比较经典,在最新的论文中已经用的比较少了。
来自101个动作类别的13320个视频,在动作方面具有较大多样性。 分为以下五种类型。
Human-Object InteractionBody-Motion OnlyHuman-Human InteractionPlaying Musical InstrumentsSports
UCF101数据集下载地址: http://crcv.ucf.edu/data/UCF101/UCF101.rar
UCF101动作识别( Action Recognition)的训练/测试集下载地址: http://crcv.ucf.edu/data/UCF101/UCF101TrainTestSplits-RecognitionTask.zip
UCF101动作检测( Action Detection)的训练/测试集下载地址:http://crcv.ucf.edu/data/UCF101/UCF101TrainTestSplits-DetectionTask.zip
HMDB51 数据集
[link] [ICCV’2011]
数据集包含6849个剪辑,分为51个动作类别,每个类别至少包含101个剪辑。动作类别可以分为五种类型:
一般的面部动作微笑,大笑,咀嚼,交谈。通过物体操纵进行面部动作:吸烟,进食,饮水。全身动作:车轮,拍手,攀爬,爬楼梯,潜水,掉在地板上,反手翻转,倒立,跳跃,向上拉,向上推,奔跑,坐下,坐下,翻筋斗,站起来,转身,步行, 海浪。与物体互动的身体动作:刷头发,抓,拔剑,运球,打高尔夫球,击球,踢球,捡,倒,推东西,骑自行车,骑马,射击球,射击弓箭,射击枪,挥杆棒球棒,剑术,扔。与人体互动的身体动作:击剑,拥抱,踢人,亲吻,拳打,握手,打剑。
时域动作检测数据集 Temporal Action Detection
ActivityNet
[link] (CVPR’2015) 同上
THUMOS14
[link] (THUMOS Challenge 2014)
时空动作检测数据集 Spatial Temporal Action Detection
AVA (Atomic Visual Actions)数据库
[link] [CVPR’2018]
谷歌发布的AVA (Atomic Visual Actions)数据库,意思是“原子视觉动作”,这一新数据集为扩展视频序列中的每个人打上了多个动作标签。AVA数据集由YouTube公开视频的URL组成,这些视频被80个原子动作标注,例如走路,踢东西,握手等,所有动作都具有时空定位,产生5.76万个的视频片段,9.6万个人类动作,以及21万个的动作标签。 4
JHMDB(Joint-annotated Human Motion Data Base)
[link] [ICCV’2013]
数据集包括:
• 21 classes • one main actor • 928 clips • 15+ frames / clip • 31,838 frames • 240 x 320 pixels
标注内容还包括:
每个剪辑的动作标签 每个剪辑的meta标签(摄像机运动,可见的身体部位,摄像机视点,人数,视频质量)
开源代码
mmaction2
[github] open-mmlab出品,包含以下方法的pytorch实现:
Action Recognition:
TSN (ECCV’2016) TSM (ICCV’2019) TSM Non-Local (ICCV’2019) R(2+1)D (CVPR’2018) I3D (CVPR’2017) I3D Non-Local (CVPR’2018) SlowOnly (ICCV’2019) SlowFast (ICCV’2019) CSN (ICCV’2019) TIN (AAAI’2020) TPN (CVPR’2020) C3D (CVPR’2014) X3D (CVPR’2020) OmniSource (ECCV’2020) MultiModality: Audio (ArXiv’2020) TANet (ArXiv’2020)
Temporal Action Detection:
BSN (ECCV’2018) BMN (ICCV’2019) SSN (ICCV’2017)
Spatial Temporal Action Detection:
SlowOnly+Fast R-CNN (ICCV’2019) SlowFast+Fast R-CNN (ICCV’2019)
PySlowFast
[github] facebook团队出品,包含以下方法的pytorch实现:
SlowFast Slow C2D I3D Non-local Network X3D
https://github.com/open-mmlab/mmaction2 ↩︎
http://moments.csail.mit.edu/TPAMI.2019.2901464.pdf ↩︎
https://arxiv.org/abs/1904.11451 ↩︎
https://www.leiphone.com/news/201710/UvRavHu6EGcewLzs.html ↩︎