时空作物与关注机制：改善跨模态视频表示学习

ICCVMar, 2021

时空作物与关注机制：改善跨模态视频表示学习

Space-Time Crop & Attend: Improving Cross-modal Video Representation Learning

Mandela Patrick, Yuki M. Asano, Bernie Huang, Ishan Misra, Florian Metze...

TL;DR本文提出了一种基于特征裁剪和注意力机制的视频自监督学习方法 STiCA，改进了当前视频自监督学习方法中对于空间维度数据增强的应用以及特征融合方式，取得了多项数据集上的最优结果。

Abstract

The quality of the image representations obtained from self-supervised learning depends strongly on the type of data augmentations used in the learning formulation. Recent papers have ported these methods from still images to videos and found that leveraging both audio and video signals yields strong gains; however, they did not find that spatial augmentatio

self-supervised learning spatio-temporal videos feature crop attention state-of-the-art performance

发现论文，激发创造

一种特征空间多模态数据增强技术用于文本 - 视频检索

本文介绍了利用文本 - 视频检索方法，并结合数据增强技术及多模态数据的方法，对大规模公共数据集 EPIC-Kitchens-100 的测试性能进行提升，灵敏的处理方式能以自然语言查询进行相关视频的查找。

Aug, 2022

视频 Transformer 的时空混合注意力

本研究论文介绍了一种使用 Transformer 进行视频识别的模型，相较于其他视频识别模型，本模型计算效率更高。为实现此目的，本模型对全时空注意力机制进行两种简化处理：(a) 限制时间注意力于局部时间窗口内，(b) 使用高效的时空混合方法联合对空间和时间位置进行注意力处理，而不增加任何额外的成本。

Jun, 2021

StarVQA+: 视频质量评估的时空注意共训练

本文提出了一种基于自注意力机制的 Space-Time Attention 网络用于解决视频质量评估问题，通过联合训练空间和时间注意力权重来解决 Transformer 中的数据饥饿问题，并在实际测试中证明了其优越性。

Jun, 2023

卫星影像时序的多模态视觉转换器用于作物分类

通过使用来自不同卫星传感器获取的图像，已经证实在卫星图像时间序列（SITS）的作物分布图框架中，可以提高分类性能。现有的最新架构使用自注意机制处理时间维度和卷积处理空间维度。受到单模态 SITS 作物分布图中纯注意力架构的成功启发，我们引入了几种多模态多时序变换器架构。具体来说，我们研究了在时间空间视觉变换器（TSViT）中早期融合、交叉注意融合和同步类标记融合的有效性。实验结果表明，相较于具有卷积和自注意组件的最新架构，我们的架构显著改善了性能。

Jun, 2024

空时注意力是否足以理解视频？

该论文提出了一种基于自注意力机制的视频分类方法，名为 TimeSformer，适用于序列级别的视频帧，采用分离式自注意力机制，不仅训练速度比 3D 卷积神经网络更快，而且在多个动作识别数据集上实现了最佳效果，且支持处理长达一分钟的视频.

Feb, 2021

CSTA：基于卷积神经网络的时空注意力视频摘要

提出了一种基于 CNN 的时空注意力（CSTA）方法，将视频的每个帧的特征堆叠起来形成类似图像的帧表示，并应用 2D CNN 对这些帧特征进行处理，实现对关键属性的学习和视觉重要性的捕捉，在 SumMe 和 TVSum 等数据集上实验证明了该方法在减少计算量的同时取得了最先进的性能。

May, 2024

比较不同人工智能范式、增强和裁剪策略学习的生物数据表示

该研究提出了一个简单的卷积神经网络架构，并在相同条件下使用不同的数据增强和裁剪策略训练了 16 种不同的深度学习模型，以比较其在药物识别、控制组分类和细胞聚类这三个下游任务中所学到的特征提取的性能和效率，其结果表明，多切割和随机增强通常能提高性能，而自我监督模型的性能也非常高，是训练速度最快的模型之一，但需要最大的内存和计算资源。

Mar, 2022

增强 2D-TAN: 一种用于人类中心的时空视频定位的两阶段方法

本研究提出了一种有效的两阶段方法，利用增强的 2D-TAN 对文本描述进行时间上的定位，同时使用 MDETR 模型生成每帧包围盒并设计了一组手工规则，筛选出与定位短语最匹配的包围盒。

Jun, 2021

空间交叉注意力提高自监督视觉表示学习

该论文提出一个可添加到 SwAV 等现有方法中的附加模块，可以更好地学习图像语义中的空间交叉相关性和内部类信息，并提高物体检测等下游任务的性能。

Jun, 2022

视频流连续学习中基于注意轨迹的随机相干性

提出一种新的基于神经网络的方法，该方法利用类似人类的注意机制来自主地以像素为单位学习视频流的表示，本文的实验表明，该方法可以在少量监督的情况下进行开放式类增量分类。

Apr, 2022