本文讨论了跨视频提取视觉对应关系的任务,提出了一种使用交叉视频循环一致性来学习空间和时间对应关系的新方法,成功实现了语义相似的贴片在视频中的对应,并学习到对物体和动作状态敏感的表示。
Jul, 2020
本研究提出了一种基于对空间 - 时间对应匹配的显式监督学习的视频物体分割方法,该方法可以在不增加额外训练成本、没有速度延迟和不需要架构修改的情况下提高目前最先进的匹配式 VOS 方法的性能。
Apr, 2023
本论文提出了一种通用且灵感来源于对 2D 图像分析成功的语义转移技术的视频理解方法,通过测试视频和具有已知语义参考视频之间的对应关系,将参考的语义转移到测试视频。我们讨论了两种匹配方法,并将其应用于视频字幕,视频摘要,时间动作检测和声音预测等任务,并在 LSMDC'16 benchmark,SumMe 和 TVSum benchmarks,Thumos2014 benchmark 和 Greatest Hits benchmark 上取得了优异的表现。
Dec, 2016
该论文提出了一种简单的自监督方法来学习从原始视频中获取图像匹配的表达方式,通过构建空间时间图来预测连接预测匹配,并通过回文构造的图优化表示方法。
Jun, 2020
本文提出了一种利用自我监督方式从视频中学习可靠密集对应关系的方法,通过跟踪大规模图像区域和建立连续视频帧之间的像素级细粒度关联来实现。该方法利用共享的帧内亲和矩阵来建模两个任务之间的协同作用,在区域级别和像素级别同时建模视频帧之间的转换,从而在视觉对应任务中实现了优异的表现。
Sep, 2019
通过将大型语言模型应用于视频领域,进行语义空间的优化,从而改善图像 - 语言模型在视频数据上的性能限制,并提高视频识别的准确性。
Nov, 2023
本文提出了一种空间 - 时间自我监督学习方法,通过对无标注图像的对比学习来提取空间特征,并通过重构学习利用无标注视频中的时间线索增强特征,以在视频分析任务上取得比现有自我监督方法更好的表现,并进行了削减研究以验证两步设计以及蒸馏损失的有效性。
Sep, 2022
本研究提出了一种自监督学习方法,从未标记的视频中学习可靠的视觉对应关系。 所提出的方法将对应关系形式化为在联合空间 - 时间图中寻找路径的过程,并在此基础上利用循环一致性来识别图像中的动态对象,从而实现了中心 - 邻居对之间的潜在关联学习。实验结果表明,该方法在视频对象传播、部分传播和姿态关键点跟踪等各种视觉任务上均表现出色,并且优于某些针对特定任务设计的全监督算法。
Sep, 2021
利用无监督学习深度、自我运动和相机内在参数,通过在视频帧之间施加三维几何和时间一致性,从而提高单图像语义分割性能。
Apr, 2020
本文针对语义对应中标签稀疏性的挑战,提出了一种基于稀疏关键点注释生成密集伪标签的教师 - 学生学习范式,并开发了两种噪声伪标签去噪策略,使用空间先验和损失驱动的动态标签选择策略。实验结果表明该方法在语义对应的三个基准测试中均取得了显著进展并建立了新的最新成果。
Aug, 2022