视频重新本地化
提出了一种新的任务,即时空视频重新定位,对缺乏适当标记的视频数据组织为新数据集,以解决现有方法通常仅确定视频中发生的事情而不是时间和位置的问题,并通过提出一种新的 Warp LSTM 网络来准确定位参考视频中的所需视频区域。该方法在时空视频重新定位任务中的表现优于设计的基线。
May, 2019
该研究介绍了一个视频复制检测和定位的数据集、基准和挑战,该基准旨在评估方法,模拟真实场景,并提出了一个同时反映检测和定位精度的度量标准。相关的挑战包括两个对应的跟踪器,通过实现代码可供评估和基线,并公开了数据集、基线方法和评估代码,将在专门的 CVPR’23 研讨会上讨论。
Jun, 2023
本研究提出了一种文本 - 视频本地化预文本任务,以实现细粒度的时间和语义对齐,从而让训练模型能够准确感知给定文本描述的视频时间边界,并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。
Jan, 2023
本文主要设计了一种高效的全局 - 局部对齐方法,在共享的语义中心集合中,自适应地汇聚多模式视频序列和文本特征,并计算相同中心内的视频特征与文本特征之间的局部交叉模态相似性,从而实现了细致的局部比较,同时降低了交互成本。此外,还提出了一种全局对齐方法,并在三个标准的文本 - 视频检索基准测试中取得了一致的改进和领先的效果。
Apr, 2021
本文介绍了一种自动视频标注的方法,该方法可以增加用户提供的标签数量,并将其临时本地化,将标签与关键帧关联起来。我们的方法利用用户生成的标签和 web 来源中的集体知识,以及上传到社交网站和 web 来源的关键帧和图片的视觉相似性。与需要为每个标签训练分类器的现有视频标记方法相比,我们的系统具有较少的参数,易于实现,并且可以处理开放词汇的场景。我们在 DUT-WEBV 上展示了该方法,该数据集是一个大型的网络视频数据集,结果显示出最先进的结果。
Jul, 2014
该研究提出了一个基于图像查询的自我注意力交互定位器实现在未剪辑视频中定位未知活动的方法,并对 ActivityNet 数据集进行了重新组织,实验表明该方法的有效性。
Jun, 2019
该研究提出了两种方法来解决大规模视频数据中事件的时间定位问题,一种是采用梯度提升决策树模型,另一种是采用基于帧级数据、视频级数据和定位模型的深度学习模型组合,在第三届 Youtube-8M 视频识别挑战中获得第 5 名。
Oct, 2019
本论文提出了一个新的任务,即在视频中预测时空语义对应关系,为视频理解提供了新的思路,并且通过对两个现有基准数据集:Penn Action 和 Pouring 进行了注释和实验,最终得出了结论:最佳方法应综合考虑时空因素,而不是分别处理时间对齐和空间对应问题。
Jun, 2023