学习时空语义对应关系

Jun, 2023

Learning Space-Time Semantic Correspondences

Du Tran, Jitendra Malik

TL;DR本论文提出了一个新的任务，即在视频中预测时空语义对应关系，为视频理解提供了新的思路，并且通过对两个现有基准数据集：Penn Action 和 Pouring 进行了注释和实验，最终得出了结论：最佳方法应综合考虑时空因素，而不是分别处理时间对齐和空间对应问题。

Abstract

We propose a new task of space-time semantic correspondence prediction in videos. Given a source video, a target video, and a set of space-time key-points in the source video, the task requires predicting a set o

space-time semantic correspondence videos keypoints fine-grain video understanding activity coaching

发现论文，激发创造

时空视频对齐

本文讨论了跨视频提取视觉对应关系的任务，提出了一种使用交叉视频循环一致性来学习空间和时间对应关系的新方法，成功实现了语义相似的贴片在视频中的对应，并学习到对物体和动作状态敏感的表示。

Jul, 2020

通过时空对应学习提升视频物体分割

本研究提出了一种基于对空间 - 时间对应匹配的显式监督学习的视频物体分割方法，该方法可以在不增加额外训练成本、没有速度延迟和不需要架构修改的情况下提高目前最先进的匹配式 VOS 方法的性能。

Apr, 2023

时域镶嵌：视频分析的统一方法

本论文提出了一种通用且灵感来源于对 2D 图像分析成功的语义转移技术的视频理解方法，通过测试视频和具有已知语义参考视频之间的对应关系，将参考的语义转移到测试视频。我们讨论了两种匹配方法，并将其应用于视频字幕，视频摘要，时间动作检测和声音预测等任务，并在 LSMDC'16 benchmark，SumMe 和 TVSum benchmarks，Thumos2014 benchmark 和 Greatest Hits benchmark 上取得了优异的表现。

Dec, 2016

时空对应作为对比随机游走

该论文提出了一种简单的自监督方法来学习从原始视频中获取图像匹配的表达方式，通过构建空间时间图来预测连接预测匹配，并通过回文构造的图优化表示方法。

Jun, 2020

联合任务自监督学习用于时间对应

本文提出了一种利用自我监督方式从视频中学习可靠密集对应关系的方法，通过跟踪大规模图像区域和建立连续视频帧之间的像素级细粒度关联来实现。该方法利用共享的帧内亲和矩阵来建模两个任务之间的协同作用，在区域级别和像素级别同时建模视频帧之间的转换，从而在视觉对应任务中实现了优异的表现。

Sep, 2019

OST: 优化时空描述符提升通用视频识别中的文本知识

通过将大型语言模型应用于视频领域，进行语义空间的优化，从而改善图像 - 语言模型在视频数据上的性能限制，并提高视频识别的准确性。

Nov, 2023

视频对应的时空自监督学习

本文提出了一种空间 - 时间自我监督学习方法，通过对无标注图像的对比学习来提取空间特征，并通过重构学习利用无标注视频中的时间线索增强特征，以在视频分析任务上取得比现有自我监督方法更好的表现，并进行了削减研究以验证两步设计以及蒸馏损失的有效性。

Sep, 2022

视频对应学习的联合时空图中的邻居关系建模

本研究提出了一种自监督学习方法，从未标记的视频中学习可靠的视觉对应关系。所提出的方法将对应关系形式化为在联合空间 - 时间图中寻找路径的过程，并在此基础上利用循环一致性来识别图像中的动态对象，从而实现了中心 - 邻居对之间的潜在关联学习。实验结果表明，该方法在视频对象传播、部分传播和姿态关键点跟踪等各种视觉任务上均表现出色，并且优于某些针对特定任务设计的全监督算法。

Sep, 2021

从视频学习时空一致性以提高语义分割

利用无监督学习深度、自我运动和相机内在参数，通过在视频帧之间施加三维几何和时间一致性，从而提高单图像语义分割性能。

Apr, 2020

利用稀疏标注学习语义对应

本文针对语义对应中标签稀疏性的挑战，提出了一种基于稀疏关键点注释生成密集伪标签的教师 - 学生学习范式，并开发了两种噪声伪标签去噪策略，使用空间先验和损失驱动的动态标签选择策略。实验结果表明该方法在语义对应的三个基准测试中均取得了显著进展并建立了新的最新成果。

Aug, 2022