Shifting More Attention to Video Salient Object Detection笔记

老牧童 • 2026-03-04 20:21 • 未分类

大家好，欢迎来到IT知识分享网。

一、前言

二、关于DAVSOD数据集

为什么要构建DAVSOD数据集呢？

我们知道，在我们看一段视频时，由于视频是一直运动着的，因此我们在观看过程中，注意力很可能会因为视频内容的变化而变化。但在以往的数据集中，进行标注时却并没有考虑动态的人眼注视点数据，而是直接将视频帧拆分成离散的静态帧来进行标注。

DAVSOD数据集如何构建？

数据集划分

三、DAVSOD与其他数据集对比

其中
#Vi.：视频数量
#AF.：标注帧的数量
DL：是否是稠密（逐帧）标注
AS：是否考虑了注意力转移
FP：显著物体的标注是否根据人眼注视点
EF：是否为标注的显著对象提高人眼标注点
IL：是否提高了实例-级标注

对比分析：①DAVSOD首次强调了动态场景中的显著对象转移，并提供了唯一的、与视觉注意力相一致的标注。②DAVSOD多样性、大规模稠密标注、完整的对象/实例-级显著对象的标注、视频描述以及丰富的属性标注（例如显著对象的数量，运动模式以及场景/对象类别等）为VSOD任务打下基础。

四、关于SSAV模型

4.1PDC

用于提取静态特征，得到静态特征序列。

那为什么要用PDC呢？

由于多尺度信息的利用和空间细节的保留，平行叠加一组带有采样率的扩张卷积层可以获得更好的性能。

那么如何实现PDC呢？

4.2 SSLSTM

用于捕获时序信息，同时区分背景中的显著物体以及编码注意力转移信息。

如何实现SSLSTM呢？

用l(·)∈{0,1}表示是否存在注意视点标注（其中为0表示没有，为1表示有），当l(·)=0时则F^A以隐式方式训练，=1则以显式方式训练。

五、SSAV与其他算法对比

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/98958.html