视频拷贝片段匹配的相似度对齐模型
本论文介绍了我们在 Meta AI 视频相似性挑战赛(VSC2022)的 Descriptor Track 和 Matching Track 中的第三名解决方案,该竞赛旨在检测视频副本。我们的方法建立在现有的图像复制检测技术之上,并采用多种策略利用视频数据的特性,从而得到了一个简单而强大的解决方案。通过采用我们提出的方法,我们在准确性方面取得了相当大的改进,与基线结果相比(Descriptor Track:41%的改进,Matching Track:76%的改进)。
Apr, 2023
提出了 Video Similarity and Alignment Learning(VSAL)方法,通过模拟时空相似性和部分对齐来实现视频相似性学习,从而提高视频复制检测的准确率。通过在 VCDB 核心数据集上测试,证明 VSAL 的 F1 得分高于现有模型,并通过在 FIVR-200k 数据集上添加新的片段级注释来验证在更具挑战性的情况下的有效性。
Aug, 2021
本文介绍 Meta AI 在 CVPR 2023 Video Similarity Challenge 中的优胜方案,提出了一种利用视频剪辑检测和帧场景检测结合的双层检测方法来解决视频复制检测的核心挑战,实验结果表明了该方法的有效性和高效性。
May, 2023
该研究介绍了一个视频复制检测和定位的数据集、基准和挑战,该基准旨在评估方法,模拟真实场景,并提出了一个同时反映检测和定位精度的度量标准。相关的挑战包括两个对应的跟踪器,通过实现代码可供评估和基线,并公开了数据集、基线方法和评估代码,将在专门的 CVPR’23 研讨会上讨论。
Jun, 2023
本文提出了一种用于大规模视频检索的片段相似度与对齐网络 (SSAN),包含了两个新的视频检索模块:高效的自监督关键帧提取 (SKE) 模块和鲁棒的相似性模式检测 (SPD) 模块,通过联合训练实现了端到端的改进,在节省存储和计算成本的同时提高了对齐精度。
Sep, 2023
TransVCL 是一种注意力增强的视频复制定位网络,它通过跨序列特征引入长时序信息,利用自注意力和交叉注意力层直接优化帧级特征来精确定位视频检索应用中一对未剪辑视频内所有复制片段的位置,并在监督或半监督设置下以显著改进性能。
Nov, 2022
本研究介绍 VCSL(Video Copy Segment Localization),一种新的综合分段注释视频副本数据集,包含两个数量级更多的、真实的 160k 视频拷贝对、280k 以上的本地化复制段对,并提出了一种新的评估协议,在不同场景中表现出更好的适应性。通过采用该数据集和新的评估指标来评估几种基准和最先进的分段级别视频副本检测方法,我们提供了全面的分析,揭示了当前方法的优点和缺点,旨在开拓未来工作的有前途的方向。
Mar, 2022
本文提出了 Feature-Compatible Progressive Learning(FCPL)方法,以参加 Meta AI 视频相似性挑战赛(VSC22),然后通过实验结果证明该方法优于其他竞争者,并提供了相应代码。
Apr, 2023
提出了一种新的方法,即 SAM 传播模块(SAM-PM),通过采用时空交叉注意机制在 SAM 中实施时间一致性,将时间一致性和领域专业知识有效地融入分割网络,只增加了不到 SAM 参数的 1%,与最新的最先进技术相比,在 VCOD 基准测试中实现了显著性能改进。
Jun, 2024