- BID:无监督时间动作定位预训练的边界内部解码
通过边界内功夫解码的无监督预训练框架,将基于骨骼的运动序列分割为语义上有意义的预操作片段,通过对少量注释数据进行微调,我们展示了远远超过 SOTA 方法的结果。
- 密度引导的标签平滑用于驾驶动作的时空定位
提出了一种基于视频动作识别网络的时间定位方法,通过分析边界视频段和多个摄像头视角的信息,实现了对驾驶行为的准确定位和场景级别预测。
- 多尺度视觉 Transformer 结合二分图匹配进行高效单阶段动作定位
这篇研究旨在解决行动定位的问题,提出了一种基于 MViTv2-S 模型、使用匹配损失函数的架构,通过直接应用视觉转换器的输出标记进行双向匹配,实现同时完成行动定位和目标检测的任务,在 AVA2.2 数据集上相对于两阶段方法,在 mAP 上取 - IJCAI面向语言驱动视频动作定位的实体感知和动作感知 Transformer
本文提出了一种利用实体感知和动作感知的转换器,通过文本实体及动作查询逐步地定位视频中的动作定位。实验表明,相比于现有方法,我们的方法在动作定位的精度上具有优势。
- ICCV从点中学习行为完整性,弱监督时空动作定位
本文提出了一种新框架,生成密集伪标签以提供完整性指导,通过优化序列来学习完整性,并引入两个新的损失以对比动作分数和特征相似性,实现了动作实例的准确定位,相较于现有最先进的方法,这种方式的标注成本还更低。
- ECCV学习从时间段中定位动作
本文提出了一种新型的转移学习方法来学习大量的动作类别的动作定位,但只通过感兴趣的类别的动作片段和少量的动作类别的时间注释,在一个阶段动作定位框架中集成了这种设计。通过对 ActivityNet v1.3 和 THUMOS14 的实验,Ahe - 重新审视动作定位的锚机制
本文提出了一种新颖的基于点而非预设 anchor 的动作定位模块,结合传统基于 anchor 的模块提出了一种新的动作定位框架 A2Net,实现了在 THUMOS14 上的业界领先表现,证明了基于点和基于 anchor 的模块间互补性。
- ECCV几个视频中的共同动作定位
本文提出了一种利用少量样本实现在长视频中定位动作的方法,通过新的三维卷积神经网络,结合相互增强、逐步对齐和成对匹配等模块,成功地对单一或多个动作实例的长视频进行了精准定位。
- CVPR高斯时空感知网络用于动作定位
本文提出一种新的视频动作定位框架,使用高斯核实现动作提案的动态时间尺度优化,通过学习一组高斯核对动作的时间结构进行建模,取得了目前最好的检测结果。
- ICCV图卷积网络 用于 时间动作定位
该论文利用图卷积网络 (GCNs) 来建立动作建议图,通过使用两种关系来捕捉上下文信息和不同动作之间的相关性,以模拟不同建议之间的关系并学习强大的动作分类和本地化表示,实验证明该方法在 THUMOS14 上显著优于现有最先进模型。
- 深度概念级逐帧卷积神经网络用于动作定位
本文提出了一种概念级别的时间卷积层(CTC),用于训练深度行动本地化神经网络,通过在每个概念上分别使用多个时间滤波器捕捉不同概念的共同时间模式,极大地丰富了表示能力,通过堆叠 CTC 层,提出了一种深度概念级别的时间卷积神经网络(C-TCN - IJCAI通过图像查询在视频中定位未见过的活动
该研究提出了一个基于图像查询的自我注意力交互定位器实现在未剪辑视频中定位未知活动的方法,并对 ActivityNet 数据集进行了重新组织,实验表明该方法的有效性。
- CVPRAVA 任务中更好的基准模型
该研究提出了一个基于 Faster R-CNN 和 I3D 模型的简单 baseline,用于在 AVA 数据集上进行动作定位,最终模型在验证集上获得了 22.8%/21.9%的 AP,表现优于 CVPR 2018 挑战中的所有提交项。
- 基于时间提案演化的精准时间动作定位
提出了一个基于三阶段框架的行动定位方法,包括一个 Actionness 神经网络来生成初始提议,一个 Refinement 网络来进行边界调整,以及一个 Localization 网络进行精细定位回归。在 THUMOS14 基准测试中表现优 - 从视频标签和伪标注中本地化动作
本文提出了一种使用视觉线索代替手动点注释的伪注释,引入了五种伪注释,并提出了一个自动选择和组合它们的相关性度量,从而实现只通过分类标签确定视频中动作的时空位置的算法。在具有挑战性的行动定位数据集上的彻底评估显示,我们达到了与完全盒子监督结果 - 动作定位的通用管道提议
本文提出了一种新的基于视频的行动定位框架,使用管道提案网络 (TPN) 生成通用的、独立于类别、视频级别的管状建议,可用于各种视频分析任务,包括行动识别和定位。与其他方法相比,我们的通用管状建议方法准确、通用,并在平滑 L1 损失函数下完全 - ICCV藏匿游戏:强制使网络细致地进行弱监督物体和动作定位
通过在训练图像中随机隐藏补丁来激发神经网络查找对象的其他相关部分,从而提出了一个名为 “Hide-and-Seek” 的弱监督框架,可以在图像和视频中提高对象和操作定位的准确性。
- VideoLSTM 卷积、注意和流用于动作识别
该研究提出了一种适用于视频动作的端对端序列学习的新型结构,名为 VideoLSTM。通过硬连线卷积和基于动作的关注力,结合仅动作类别标签的注意力,VideoLSTM 能够用于动作本地化,并在行为分类和本地化的挑战数据集上进行实验和比较。
- 超越字幕到叙事:视频多句子字幕
本研究提出了一种视频片段分割、多帧生成多个盛传、并采用自然语言技术将其连接成故事式视频字幕的方法,实现丰富内容的视频字幕生成,结果表明该方法不需要显式输入视频级别特征即可提供丰富内容,与最新技术方法相同。