- LoSA:用于缩放端到端时序动作定位的长短程适配器
通过引入第一个专门为处理未修剪视频的 TAL 设计的内存和参数高效的背骨适配器 LoSA,本研究在标准 TAL 基准测试 THUMOS-14 和 ActivityNet-v1.3 上明显优于现有方法,通过使视频骨干可以适应超过十亿参数的模型 - CVPR通过图像扩散过程进行动作检测
通过 ADIDiff 框架的三图像生成过程,本研究旨在通过图像生成开始点、结束点和动作类别预测的图像来解决动作检测问题,并通过离散的行列转换器设计来处理特殊属性的图像,从而在两个广泛使用的数据集上取得了最先进的结果。
- 零射击开放式视频推理
本研究提出了一种自适应框架,通过有效结合冻结的视觉语言模型和现成大型语言模型,在没有使用任何附加训练或微调的情况下,开展视频概念推理任务。在各种视频动作数据集上的实验结果表明,与传统的视觉语言模型相比,该框架在开放式和闭合式情景下在目标推理 - 密集视频字幕:技术、数据集和评估协议综述
使用 Dense Video Captioning (DVC) 技术,本文综述了在描述长视频时需要突出显示的相互关联事件、依赖关系、上下文、重叠事件、物体间的相互作用以及领域特定性等语义,同时讨论了 DVC 的子任务和它们的结果,涵盖视频特 - ICCVUnLoc:一个用于视频定位任务的统一框架
使用预训练图像和文本模型 UnLoc,通过视频文本融合模型预测每帧的相关性得分和起始 / 结束时间位移,实现了瞬间检索、时间定位和动作分割的统一处理,优于先前的方法。
- CVPR野外多人实时眨眼检测技术
该论文提供了一个新的方法:开发一种在野外普遍应用的实时多人眨眼检测方法及其数据集,该数据集包含大量未剪辑的场景;使用端到端学习来处理面部检测、跟踪和人体级别眨眼检测等子任务,减少了运行时间。与现有方法相比,该方法的表现更好并具有高速推理的特 - CVPR从未剪辑的视频中学习:分层一致性自监督视频表示学习
本文提出了一种 Hierarchical Consistency (HiCo) 学习框架,该框架利用未剪辑视频中更为丰富的信息来学习一种层次化的一致性,通过对视觉一致性及主题一致性进行学习,相对于传统对比学习而言,HiCo 框架在生成未剪辑 - AAAIACGNet: 基于动作补充图网络的弱监督时序动作定位
本文提出了一种基于图卷积神经网络的新方法 ACGNet,用于增强视频级别标注数据下的弱监督时序动作定位问题,取得了在 THUMOS'14 和 ActivityNet1.2 数据集上的优越结果。
- AAAI带有背景约束的时间行为提议生成
该论文提出了一个新的背景约束思想,通过利用背景预测分数来限制提议的置信度,从而进一步压制低质量的提议,详细介绍了该方法在行动定位任务上的成果.
- 具有查询自适应变形器的小样本时间动作定位
本研究提出了一种新的少样本学习 (temporal action localization) 设置,使用未剪裁的视频来动态适应新类别和每个视频,同时引入了一个查询自适应变压器 (query adaptive Transformer) 来实现 - CVPR面向未剪辑视频的多样段落字幕
本研究提出了一种基于自适应动态视频记忆的视频段落字幕生成模型,并采用多样性驱动的训练策略,通过关注模型的视觉焦点和提高多样性来生成具有连贯性和多样性特征的段落。实验证明该模型不但提高了生成准确度和多样性,而且还能有效地处理未剪辑的视频数据。
- MM弱监督时间轴自然语言地点在未剪辑视频中的强化学习
该研究提出了一个基于强化学习的边界自适应精细化(Boundary Adaptive Refinement,BAR)框架,用于加强视频中自然语言的时间地位确定性,无需精细的标注,并证明其性能优于现有的弱监督和一些有竞争力的全监督方法。
- AAAIBSN++:时序动作提议生成的互补边界回归器和尺度平衡相关建模
本文提出了 BSN ++,它是一个新的框架,利用互补的边界回归器和关系建模进行时间提案生成,对先前方法忽略的提议 - 提议关系进行核算,并利用比较性边界匹配机制提高边界精度。在 ActivityNet-1.3 和 THUMOS14 等基准测 - CVPR弱监督在线非修剪视频动作检测
提出了一种名为 WOAD 的弱监督在线动作检测框架,该框架只需使用视频类别标签进行训练,包含两个联合训练的模块,即时间提案生成器(TPG)和在线动作识别器(OAR),通过实验验证,在 THUMOS'14, ActivityNet1.2 和 - 非修剪序列中无监督行为学习的联合视觉 - 时间嵌入
本文提出了一种基于视觉和时间嵌入空间的非监督学习方法,在不需要手动注释的情况下,通过连续的视频帧中存在的视觉线索,成功地检测到相关的行动群簇,并且适用于时间分割任务。
- AAAI基于树形策略的渐进式增强学习,用于视频中的时间语言基础
该研究提出了一种基于树形结构策略的渐进式强化学习框架,通过迭代的划分过程,将语义概念明确地表示为策略中的分支,实现对未加工视频中的时间语言定位,并取得可观的实验结果。
- IJCAI通过图像查询在视频中定位未见过的活动
该研究提出了一个基于图像查询的自我注意力交互定位器实现在未剪辑视频中定位未知活动的方法,并对 ActivityNet 数据集进行了重新组织,实验表明该方法的有效性。
- 穿越时间:视频活动的有效定位
本文介绍了一种基于强化学习的视频定位技术,使用文本和视频的精细特征表示来准确定位语言查询中的片段,并仅浏览整个视频的 32-41% 以节约处理时间。
- SCSampler:用于高效行为识别的视频显著片段采样
本文介绍了一种轻量级的 “剪辑采样” 模型,可在长视频中高效识别最显著的时间片段,将行动识别的计算成本显著降低,同时提高识别准确性。
- 使用弱监督为未修剪视频中的行动识别学习可转移的自我关注表示
提出一种新的基于弱监督框架,通过利用注意力机制定位动作帧同时识别未修剪视频中的动作,利用修剪视频中的信息传递知识来提高分类性能。在 THUMOS14 和 ActivityNet1.3 上经过广泛的实验,实验证明了该方法的有效性。