CVPR2022|小样本行为识别最新进展STRM框架,时空关系建模仍是重中之重

CVPR2022|小样本行为识别最新进展STRM框架,时空关系建模仍是重中之重本文介绍一篇刚刚被 CVPR2022 接收的有关于小样本行为识别 Few shot 的论文 本文作者来自阿联酋扎耶德人工智能大学 Inception 人工智能研究院和澳大利亚国立大学等多个单位

大家好,欢迎来到IT知识分享网。

本文介绍一篇刚刚被CVPR2022接收的有关于小样本行为识别(Few-shot)的论文,本文作者来自阿联酋扎耶德人工智能大学、Inception人工智能研究院和澳大利亚国立大学等多个单位。本文的出发点是解决小样本行为识别领域中的时空关系建模问题,提出了一种新颖的时空信息增强模块(spatio-temporal enrichment module),分别从局部和全局的角度对视频中的对象特征和时空上下文进行捕捉。此外,作者还设计了一种查询类相似性分类器(query-class similarity classifier) 来增强网络对特定行为类的特征辨别能力。本文的实验在四个标准的小样本行为识别基准上进行(Kinetics、SSv2、HMDB51和UCF101),性能达到SOTA!

CVPR2022|小样本行为识别最新进展STRM框架,时空关系建模仍是重中之重

论文链接:

https://arxiv.org/abs/2112.05132

代码链接:


https://github.com/Anirudh257/strm

CVPR2022|小样本行为识别最新进展STRM框架,时空关系建模仍是重中之重

一、引言

小样本行为识别的任务设定是将查询集的视频分类到支持集中包含的动作类别中,其中查询集视频没有任何标注,而支持集中的每个动作类别也仅有少量标记的样本。目前解决小样本行为识别的技术路线大致可以分为两种,其中一种是在支持集上进行检索,另一种是先计算支持集上每种类别的平均特征表示,随后再进行操作。但是这种两种方式仅能在帧级(frame-level)的特征表示上运行,缺乏对视频时空信息的关系建模。

对于小样本行为识别任务而言,在查询集视频和支持集动作之间进行时序关系的建模有很大的难度,因为查询集和支持集的视频通常带有一定的时空分布差异,例如它们中所包含的动作会以完全不同的速度进行,这会带来一定的时间偏移(temporal offsets)。

此外,很多动作是由不同的子动作构成的,这就需要模型能够有效的分辨这些子动作,以便当相同动作发生在不同主体的情况下,模型仍然能够识别出这个行为。例如识别“将水洒在桌子后面”,即使我们将桌子换成了椅子,也能保证模型能够识别出“洒”这个动作。

为了解决上述问题,本文重点对查询集和支持集之间的相互时序关系进行建模。作者团队认为,视频帧中的局部空间特征和视频序列的全局特征对于行为的鉴别都能提供丰富的信息,这可以类比于目标检测中常用的多尺度特征建模思想。对不同层次和阶段的特征进行分析和分类可以帮助模型寻找分离性较强的特征,从而进一步提高行为特定于类的可辨别性。

二、本文方法

本文框架的主要操作流程如下图所示,网络的输入是
帧视频,首先通过一个2D图像特征提取器得到一系列的特征表示,输入到提出的时空信息增强模块中,该模块由全局和局部两个子模块构成

其中局部增强模块(patch-level enrichment,PLE)通过关注每帧中的空间上下文来进行局部增强,得到每帧视频的空间表示
,随后对
在进行空间平均得到帧级表示,将
帧的表示合并起来得到视频级表示
。随后全局增强模块(frame-level enrichment,FLE)对视频中不同帧的时间上下文进行编码得到全局增强的帧级表示
。这些表示随后被输入到时序关系建模(temporal relationship modeling,TRM)模块中,该模块通过将查询集视频的子序列与支持集中的动作进行匹配来得到最后的分类结果

此外,作者还引入了查询类相似性分类器(query-class similarity classifier)对视频级表示
进行了辅助分类学习,这加强了网络在不同阶段对特定类别信息的学习,有助于提高整体框架的特征辨别能力。

CVPR2022|小样本行为识别最新进展STRM框架,时空关系建模仍是重中之重

2.1 局部增强模块(PLE)

对于视频帧序列的原始图像特征表示,局部增强模块首先对其中的空间上下文进行编码以捕获基于运动外观的相似性特征,并使用自注意力机制(self-attention)[1]对这些特征进行聚合。PLE模块的详细操作如下图所示:

CVPR2022|小样本行为识别最新进展STRM框架,时空关系建模仍是重中之重

其中
是对应与query-key-value三元组的投影矩阵,三元组由下式给出:

其中value保留了帧序列的当前状态,query和key反映了帧序列内部之间的特征相似程度,随后进行自注意力特征聚合运算(特征归一化重加权):

最后,通过一个子网络对聚合后的特征以残差的形式进行逐点细化得到局部增强的帧级表示

2.2 全局增强模块

在对视频特征进行局部增强之后,特征紧接着被送入到全局增强模块(FLE)中。局部增强(PLE)的作用是在视频序列的每一帧内部对空间上下文进行挖掘,这使得网络能够更加关注帧中与运动强相关的目标。但是PLE只在空间层面进行增强,缺乏时序关系的建模,作者由此提出了全局增强(FLE)操作,FLE从整个帧序列的角度出发对视频的时间上下文进行编码,它的操作对象是每一帧的特征表示,作者引入了最近热度较高的MLP-mixer层[2]来进行实现,模块结构如下图所示。

CVPR2022|小样本行为识别最新进展STRM框架,时空关系建模仍是重中之重

MLP-mixer相比普通的自注意力层有更丰富的感受野,因此更适合进行全局的时空建模。FLE的输入是经过PLE处理后的视频级表示
,首先通过一个两层的MLP对特征进行混合,随后再通过另一个两层MLP对中间特征
进行特征细化,整体的混合操作可以用下式表示:

其中
为经过全局增强的视频表示,紧接着,为了建立起支持集和查询集的信息交互,作者构建了一个时序关系模块(TRM)对查询视频和支持集中的动作类别进行时间关系建模,给定真实标签
,使用标准交叉熵损失对TRM预测的类概率进行端到端的学习,损失函数具体如下表示:

2.3 查询类相似性分类器

为了进一步增强网络对各种动作类别的特征辨别能力,作者还在网络的中间层(瓶颈层)加入了一个类相似性分类器进行辅助学习。该分类器的输入与FLE的输入一致,为经过局部增强的帧级表示
,首先经过一个映射层得到每一帧的特征表示
,然后对于查询集视频
的每个
计算其在动作类别

支持集视频中的所有元组之间的最高相似度,查询集中所有动作都被聚合来计算查询类相似性分数


随后将该相似性分数使用softmax函数求得类概率,同样使用交叉熵损失函数进行辅助监督:

联立时空建模损失和类相似性损失,得到整体框架的损失函数:

类相似性分类器从一定程度上帮助网络更好的对查询集视频和支持集视频进行匹配,同时,通过对网络中间层的输出进行辅助监督,也可以强化模型在不同的阶段都在关注与如何能学习到鉴别性更强的特征,这也有助于提高整体框架的性能。


三、实验效果

本文的实验在四个行为识别相关的数据集上进行,包括Kinetics、SSv2、HMDB51和UCF101,其中SSv2对于模型的时序推理能力要求较高,而且数据集的规模也很大,对于本文的测试非常重要,作者在四个数据集上都采用了标准的5-way 5-shot评估,并展示了超过10000个随机测试任务的平均准确率。

作者首先与其他基线方法进行了对比,实验结果如下图所示。为了对比公平,对比的方法所使用的特征提取backbone与本文相同,可以看到本文方法在四个数据集上都有更优越的性能,尤其是在时序推理难度更大的SSv2数据集上。为了进一步展示本文其他模块的建模能力,作者将backbone替换为ViT[3],结果表明,即使更换了更加强大的特征提取器,本文方法仍然能够达到SOTA性能。

CVPR2022|小样本行为识别最新进展STRM框架,时空关系建模仍是重中之重

在消融实验部分,作者重点分析了时空增强模块(包括PLE和FLE)和查询类相似性分类器对整个框架的贡献。下图左半部分展示了逐渐加入本文各个模块在SSv2数据集上的性能提升效果。

CVPR2022|小样本行为识别最新进展STRM框架,时空关系建模仍是重中之重

此外,作者也对网络中间的特征注意力图进行了可视化分析,注意力图可以反映网络隐层特征的激活幅度,如下图所示,可以看到,用来与本文方法对比的TRX[4]方法在面对不同目标或背景时会遇到时空上下文编码失效的问题,例如在(b)动作的第5帧和第6帧,网络突然丢失了动作发生的显著区域,而本文方法几乎全程都在关注动作发生的关键区域。这类现象在其他几个示例中也有出现。

CVPR2022|小样本行为识别最新进展STRM框架,时空关系建模仍是重中之重

四、总结

本文称得上是小样本行为识别领域的最新进展,它重点关注了模型的时序建模能力,这对正确的识别出视频中发生的动作至关重要。为此作者结合最近较为火热的新技术手段(自注意力,MLP-mixer等)从空间到时间,从局部到全局的角度对视频的特征进行聚合和增强。此外还提出了一种类相似性分类器来增强网络不同阶段的类可分离性,提高了整体的性能。

参考文献

[1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NeurIPS, 2017. 4, 8, 9

[2] Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lu- cas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Andreas Steiner, Daniel Keysers, Jakob Uszkoreit, et al. Mlp-mixer: An all-mlp architecture for vision. arXiv preprint arXiv:2105.01601, 2021. 5, 8, 9

[3] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16×16 words: Transformers for image recognition at scale. In ICLR, 2021. 7

[4] Toby Perrett, Alessandro Masullo, Tilo Burghardt, Majid Mirmehdi, and Dima Damen. Temporal-relational crosstransformers for few-shot action recognition. In CVPR, 2021. 1,2,3,6,7,8,10


作者:seven_



Illustration
b
y
Adelina Koboreva
f
rom i
cons8

-The End-

CVPR2022|小样本行为识别最新进展STRM框架,时空关系建模仍是重中之重

扫码观看

本周上新!

CVPR2022|小样本行为识别最新进展STRM框架,时空关系建模仍是重中之重

关于我“

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及。



将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。



如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
CVPR2022|小样本行为识别最新进展STRM框架,时空关系建模仍是重中之重


⤵一键送你进入TechBeat快乐星球

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/123841.html

(0)
上一篇 2025-10-09 22:10
下一篇 2025-10-09 22:20

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信