时间至上:为视频 Transformer 提供时间自监督
我们提出了更具挑战性的帧级自我监督任务和有效的增强策略,通过增加 Transformer 模型来训练从对比学习中预训练的单帧视频表示,大幅提升了通过时间自我监督学习到的特征的质量,并且在高水平语义任务和低水平时序任务上表现出卓越的性能。
Dec, 2023
本研究提出了一种新颖的自监督学习方法来学习对于动态运动变化有响应的视频表征,通过训练神经网络来区分不同的时间变换的视频序列,使得无需人工标注数据即可准确地识别视频中的不稳定运动并增强神经网络在小数据集上的训练。该方法经过实验证明,可显著提高 UCF101 和 HMDB51 上的动作识别的传递性能。
Jul, 2020
本研究提出了一种基于未标记视频数据进行自监督训练的视频 Transformer 方法。通过使用不同的空间大小和帧速率创建局部和全局的时空视图,实现了视频内 actions 的时空不变性,并且该方法不再需要使用负样本或专用存储器。该方法在动作识别基准数据集(Kinetics-400,UCF-101,HMDB-51 和 SSv2)上表现出色,并能够在小批量的情况下更快地收敛。
Dec, 2021
我们的目标是发现和定位图像序列中的单调时间变化。为了实现这一目标,我们利用了一个简单的代理任务,即对乱序图像序列进行排序,通过 ` 时间 ' 作为监督信号,因为只有与时间单调变化的改变才能产生正确的排序。我们还引入了一种灵活的基于 Transformer 的模型,用于任意长度图像序列的通用排序,并具备内置的归因图。经过训练,该模型成功地发现和定位了单调变化,同时忽略了周期性和随机性的变化。我们展示了该模型在多种视频场景和对象类型中的应用,发现了未见序列中的对象级和环境变化。我们还证明了基于注意力的归因图作为有效的提示用于分割变化区域,并且学到的表示可以用于下游应用。最后,我们展示了该模型在对图像集进行排序的标准基准上达到了业界最高水平。
Apr, 2024
介绍了一种新的自监督对比学习方法,旨在从未标记的视频中学习表示。该方法利用新的约束条件,以建立对时间变换等价的表示,并更好地捕捉视频动态。实验表明,时间等变表示在 UCF101,HMDB51 和 Diving48 的视频检索和动作识别基准测试中实现了最先进的结果。
Dec, 2021
本研究论文介绍了一种使用 Transformer 进行视频识别的模型,相较于其他视频识别模型,本模型计算效率更高。为实现此目的,本模型对全时空注意力机制进行两种简化处理:(a) 限制时间注意力于局部时间窗口内,(b) 使用高效的时空混合方法联合对空间和时间位置进行注意力处理,而不增加任何额外的成本。
Jun, 2021
本文提出了一种叫做 “长短时对比学习(LSTCL)” 的学习程序,可以让视频变压器模型在预测来自更长的时间范围内捕获的时序上下文的同时,学习一个有效的剪辑级表示,并在多项视频基准测试上取得了有竞争力的表现,成为有监督基于图像的预训练的有力替代方案。
Jun, 2021
本文提出了一种使用时间自我监督的算法,采用 GAN 生成视频的方式解决了时间关系难以探索的问题,同时提出了 Ping-Pong loss 用来改善长期时间一致性问题,并且介绍了一组评估模型的定量指标。
Nov, 2018
本文提出了一种自我监督学习方法,用于学习视频的表示,结合了 RGB 帧和相关的音频,通过多模式对比目标来扩展时间自我监督的音频 - 视觉设置,并提出了新的对比目标。
Feb, 2023
利用混合 Transformer 和时空自监督学习的模型来提高长期交通预测的鲁棒性,该模型通过在交通数据的序列级和图级应用自适应数据增强技术来增强其鲁棒性,利用 Transformer 克服了循环神经网络在捕捉长期序列方面的局限性,并采用 Chebyshev 多项式图卷积来捕捉复杂的空间依赖关系。此外,考虑到时空异质性对交通速度的影响,我们设计了两个自监督学习任务来建模时空异质性,从而提高模型的准确性和泛化能力。在两个真实数据集 PeMS04 和 PeMS08 上进行了实验评估,结果进行了可视化和分析,证明了所提模型的卓越性能。
Jan, 2024