本文提出了一种多层级的模型,早期并更紧密地集成了视觉和语言特性,用于解决从未剪辑的视频中基于文本的活动检索问题,其中包括注入文本特性以加速处理和提高性能,以及利用视觉特征在循环神经网络中模拟查询句子的单词级处理以学习细粒度的相似性度量,同时采用多任务损失函数。该方法在 Charades-STA 和 ActivityNet Captions 两个具有挑战性的基准测试中表现出较高效果。
Apr, 2018
本文提出了一种使用自然语言查询来进行时间活动定位的方法,使用融合文本和视频特征的方法实现跨模态匹配,并采用后期处理技术进行结果的精确定位,实验结果验证了该方法的有效性。
May, 2017
本文提出了一种更有效率的、端到端可训练的、不需要先提出建议的方法,以自然语言作为查询,解决了在长视频中定位时间点的问题。通过引入动态滤波器、新的损失函数和软标签等三个关键组件,实现从语言信息到视觉领域的转换,并评估了该方法在两个基准数据集上的表现优越性。
Aug, 2019
该研究提出了一种用于在未剪辑的视频中进行基于语言的时间定位的新方法,该方法利用了语言查询和视觉模型之间的语义概念,以及利用活动分类器预测得分编码视觉概念,并且可以对滑动窗口进行回归定位。实验表明,该方法在 Charades-STA 和 TACoS 数据集上的表现显著优于其他方法,提高了 5%以上。
Nov, 2018
该研究提出了一个基于图像查询的自我注意力交互定位器实现在未剪辑视频中定位未知活动的方法,并对 ActivityNet 数据集进行了重新组织,实验表明该方法的有效性。
Jun, 2019
本文提出了一种通用的框架,利用新颖的提案方案和级联分类管道从未修剪的视频中准确检测各种活动,超越了现有最先进方法在 THUMOS14 和 ActivityNet 数据集上的表现。
Mar, 2017
探讨在视频中使用卷积神经网络和循环神经网络来分类和定位活动的不同方法,并提出了一种实现方法,最终开发出了一个在 CVPR ActivityNet 2016 挑战中实现了竞争力结果的简单灵活的神经网络架构。
Aug, 2016
本研究提出了一种基于三种分段 3D 卷积神经网络的方法,用于解决未经修剪的长视频中的时间动作定位问题,其中提出网络用于识别可能包含动作的候选段,分类网络以一对多动作分类模型进行学习以作为定位网络的初始化,用于定位每个动作实例。
Jan, 2016
本文提出了一种使用卷积神经网络对视频进行表示并使用 ReActNet 对视频进行分类的方法,以定位视频中的有重复运动的部分。该方法可处理任何数量和持续时间的重复段,并具有较好的通用性和性能。
Oct, 2019
本文提出了一种新的基于弱监督学习的时间活动定位方法 A2CL-PT,通过使用两个三元组来学习每个活动类别的区分特征和每个视频中活动相关特征与背景特征的区分特征,以此增强识别无活动发生时的性能并提高精度,实验证明该方法有效,特别是在 THUMOS14 数据集上平均 IoU 阈值从 0.1 到 0.9 的平均 mAP 得分从 27.9%提高到 30.0%。
Jul, 2020