我们提出了一种针对密集视频对象字幕的新任务和模型 - 检测、跟踪和说明视频中所有对象的轨迹。
Jun, 2023
该文介绍了利用视频中物体的 bounding box 将描述影片的句子与影片中的客观证据联系起来,并给出了一个能够利用 bounding box 的词语注释的视频描述模型,其在视频描述、视频段落描述和图像描述上均表现出了最先进的性能和更好的联系性。
Dec, 2018
通过统一跨模态 RG-Encoder 和稀疏采样技术,RGNet 方法实现了对长视频进行端到端的特定时刻定位,从而超过了以往在长视频时间定位数据集 MAD 和 Ego4D 上的方法,展示了最先进的性能。
Dec, 2023
本研究提出了一种自我对比学习框架来在弱监督的条件下解决基于查询的视频定位任务,通过学习针对查询语义的逐帧匹配分数以预测可能的前景帧,并采用粗到细的对比学习方法来区分误检的帧,从而提高了视频定位的准确性。
Mar, 2022
本文提出了一种视频问答模型,它有效地集成了多模态输入源并从中找到临时相关信息以回答问题,该模型包括多种设计方法,包括基于稠密图像标题的对象及其详细显著区域和动作识别,双重关注,跨集成和引入了带有人类重要性注释来更好地监督模型的两个损失函数的门控,这个模型在多个数据集上的表现优于现有的技术。
May, 2020
通过引入密集三维视觉接地网络 ConcreteNet,该文研究了在物理交互类应用中实现密集三维视觉接地的方法,包括引入底层注意融合模块、对潜在空间进行对比训练、以及解决视角依赖性表达的全局相机令牌,提高了富有挑战性的重复实例的接地性能,从而实现了在三维场景中进行的交互式物体定位。
Sep, 2023
本文研究弱监督视频对象定位问题,并探讨了在图像域中使用的多实例学习方法在视频域中的扩展性。作者提出了一种将弱监督信号从视频层面传递到帧层面的方法,并将对象之间的交互作为定位的文本指导。在新收集的基准测试 YouCook2-BoundingBox 上,该模型取得了竞争基线方法无法匹敌的表现。
May, 2018
本研究介绍了一种基于视频的问答解决方案,通过将视觉定位和物体跟踪结合,提出了一个两阶段的替代方法,并利用 VALOR 模型回答问题并生成边界框。
Jul, 2024
DiffusionVG 是一个以扩散模型为基础的新框架,通过生成随机噪声输入逐步改进的逆向扩散过程,将视频定位作为一项条件生成任务,并在主流 Charades-STA 和 ActivityNet Captions 基准测试中展示了竞争性甚至优越的性能。
Oct, 2023
本文提出了一种基于深度卷积图神经网络的视频分类方法,利用视频的分层结构特性通过图网络对视频帧序列进行多级特征提取,获得反映事件语义的视频表示,其在 YouTube-8M 大规模视频理解数据集上的表现优于基于 RNN 的基准模型。
Jun, 2019