- 区域引导的时间句子定位的查询多样化转换器
在本文中,我们提出了一种基于区域导向的 Transformer(RGTR)用于时间句子锚定,通过对时刻查询进行多样化处理以消除重叠和冗余预测,并使用锚对作为时刻查询引入显式的区域导向,从而降低了优化困难并确保了最终预测结果的多样性,同时设计 - 利用全局时间语义知识的视频句子定位
利用伪查询特征加强领域间的联通,提高视觉和语言之间的特征对齐,以实现更好的时间句子定位。
- 基于多模态信息的时间句子定位在长视频中的基础调度
通过使用多模态信息,我们提出了一种用于处理长视频中的 Temporal Sentence Grounding 任务的 Grounding-Prompter 方法,通过引导 LLM 进行 TSG,提高了推理能力和理解 TSG 任务的性能。
- BAM-DETR: 视频中的时间句子定位的边界对齐时刻检测变换器
我们引入了一种新颖的基于边界的时序定位模型,通过设计 Boundary-Aligned Moment Detection Transformer(BAM-DETR)和质量优先的排序方法,实现了在时序句子理解任务中的新的最佳成果。
- 从叙述性自我视频中学习时态句子配准
通过学习和合并剪辑,提高在长时录像中通过时间定位句子的准确性。
- UCF-Crime 注解:监控视频与语言理解的基准测试
我们提出通过手动注释真实世界监控数据集 UCF-Crime 的细粒度事件内容和时间来构建第一个多模态监控视频数据集,命名为 UCA(UCF-Crime 注释)。在该数据集中,事件详细描述,并在 0.1 秒的时间间隔内提供了精确的时间定位。我 - MM流式视频中的时间语句定位
该研究旨在解决一项新颖任务 —— 流媒体视频中的时间句子定位,通过提出 TwinNet 结构和语言引导的特征压缩器,该方法在多个数据集上进行了广泛实验证明了其卓越性能。
- ICCVD3G: 利用高斯先验探索具有注视标注的时间句子定位
通过减少标注成本并保持与全监督方法相竞争的性能,我们提出了一种基于动态高斯先验的望注释视图的时间句子定位框架,该框架在关键词之间进行了深入调研,并通过 Semantic Alignment Group Contrastive Learnin - 时序语句定位的变换等变一致性学习
介绍了一种新颖的自我监督学习框架,称为等变一致性规则学习(ECRL)框架,用于解决时间句子基础性问题(TSG),并利用该框架通过自我监督方式学习更具有区分性的针对每个视频的基于帧的查询相关表示。
- CVPR先于视觉感知:一种压缩视频时序句子对齐的有效管道
本研究针对压缩视频展开了时间句子引导的任务,并提出了一种全新的三分支压缩域空时融合框架(TCSF)来提取和聚合低级视觉特征以有效地进行时间句子引导。实验结果表明,TCSF 较其他最先进的方法具有更好的性能,并具有更低的复杂度。
- EMNLP重新思考视频采样和推理策略,用于时间性句子定位
本文提出了一种用于时序句子定位的新型 Siamese 取样与推理网络(SSRN),该网络使用 Siamese 取样机制在已有取样的基础上生成额外的情境帧,以更精细地理解活动,解决了已有方法中忽略的时序数据偏差和推理偏差问题,并能够在保证模型 - 分层本地 - 全局变压器用于时间句子定位
本文介绍了一种新的 Hierarchical Local-Global Transformer 模型来解决视频和文本之间的 fine-grained 语义对齐问题,并将其应用于 temporal sentence grounding 任务, - MM减少视觉和语言偏见以进行时间性句子定位
本文提出了一种消除多媒体信息检索中选择偏差的 Debiasing-TSG(D-TSG)模型,实现在常见和罕见情况下的 Temporal sentence grounding,在三个基准数据集上取得了最先进的表现。
- 探索基于光流引导的运动和检测的外观在长时句子理解中的应用
本文提出了一种运用运动和外观引导的三维语义推理网络(MA3SRN)实现时序句子定位,该网络能准确地建模相邻帧之间的活动,并获得在三个具有挑战性的数据集上的最新最好成果。
- 视频中的时序句子地位划分:调查与未来方向
该论文调查了自然语言视频定位 (TSGV) 的基本概念和当前研究状况,并讨论了未来的研究方向,着重介绍了 TSGV 的多模态理解和交互技术,构建了 TSGV 技术的分类法,讨论了当前研究中存在的问题并分享了有前途的研究方向。
- AAAI探索动作和外貌信息用于时间性语句定位
本篇文章提出了一种 Motion-Appearance Reasoning Network 模型,结合了时间感知和外观感知的对象特征来更好地推理连续帧之间的活动关系,用于解决时间语句概括问题,实验证明其明显优于现有方法。
- AAAI基于记忆的语义学习网络用于时序句子定位
提出了一种名为记忆引导语义学习网络(MGSL-Net)的内存增强网络来学习和记忆 TSG 任务中常见且罕见的内容,通过动态地关联常见和罕见情况,缓解模型忘记的问题,并在测试阶段通过检索存储的记忆来增强罕见情况,实现更好的泛化。
- EMNLP时间性句子定位的迭代对齐框架:渐进式参与指南
本文提出了一个迭代对齐网络 (IA-Net) 来解决 TSG 任务,通过多步推理来互动地对齐视觉和语言特征,通过学习参数对多模态特征进行填充来缓解非匹配的问题,并且在并行方式下增强基本的共同注意力机制。为了进一步校准由每个推理步骤引起的不匹 - CVPR面向上下文的 Biaffine 本地化网络用于时间句子定位
本文提出一种新颖的本地化框架,使用双仿射机制以同时为视频中的所有开始和结束索引打分,该框架结合了全局和本地上下文以实现时间句子定位,同时引入多模态自注意机制提供细粒度的查询引导视频表征。大量实验证明,我们的 CBLN 在三个公共数据集上显著 - 基于查询的视频时刻检索中的隐含挑战揭示
本文旨在评估当前 benchmark 数据集反映真实查询基于片段检索的进展的能力,指出了目前数据集存在的偏差。作者同时提出了新的实验方法,以便更好地可视化结果,并在最后展望了未来的研究方向与改进。