本文提出一种基于时空图模型的视频字幕生成算法,利用物体间相互作用关系提供显式的视觉表征,通过一种对象感知的知识蒸馏机制,可以在不稳定的性能中实现对象的稳定预测。经过对两个基准测试的广泛实验,展示了我们方法的有效性和可解释性预测的竞争性能。
Mar, 2020
本文提出了一种新颖的密集视频字幕框架,它通过显式建模视频中事件的时间依赖性并利用先前事件的视觉和语言上下文来实现连贯的叙述。该框架由事件序列生成网络和序列视频字幕网络组成,后者利用强化学习进行训练,并在事件和剧集两个级别上进行两级奖励以实现更好的上下文建模。在大多数指标上,该方法在 ActivityNet Captions 数据集上取得了出色的表现。
Apr, 2019
本文提出一个无需时间片段注释的方法:针对视频中所有感兴趣事件的稠密描述,基于一一对应的假设,将该问题分解为事件字幕和句子定位的双重问题,并提出了一种循环系统来训练模型。通过大量实验结果证明了该方法在视频事件字幕和句子定位方面的有效性。
Dec, 2018
该研究提出了一种联合框架解决视频自动生成字幕中的三个关键问题,包括融合时空信息增强物体建议、动态提取高语义级别的视觉词,以及生成字幕验证确保语义概念的有效保留。实验表明该方法在各种评价指标上都显著优于现有的自然语言生成模型。
Aug, 2021
本研究提出了一种新的无监督学习方法,其中使用密集特征表示直接进行卷积全制度的学习来进行视频对象分割。通过使用一个简单的规则化方案,该方法能够提高分割精度并达到快速的训练收敛。最终,该方法在标准的视频对象分割基准测试中取得了较高的精度。
Nov, 2021
本文提出了一种基于弱监督信息的密集视频描述方法,通过词汇全卷积神经网络、亚模量最大化算法、序列到序列学习语言模型等技术,既可以生成信息丰富、多样化的密集字幕,也能大幅度领先于现有的单视频字幕生成方法。
Apr, 2017
本文提出一种联合建模的方法,将稠密视频字幕的两个子任务共同作为一个序列生成任务,同时预测事件和相应的描述,并使用 YouCook2 和 ViTT 的实验结果表明了该方法的可行性和在大规模预训练模型中集成端到端密集视频字幕等复杂任务中的适用性。
Apr, 2022
本文提出了一种新的密集视频字幕生成框架,该框架将时间上的事件提案的本地化和生成句子主体的合并,通过端到端的联合训练结构。这种模型在 ActivityNet Captions 数据集上的实验显示出了与现有技术相比的明显改进,创造了 12.96%的新的 METEOR 记录。
Apr, 2018
本研究提出了一种基于 “联合推理” 和 “上下文融合” 的模型管道来解决密集字幕的两个关键挑战,并在 Visual Genome 上取得了目前最佳算法的相对增益 73%的最新成果。
Nov, 2016
通过利用视频的动态运动特性,我们引入了 SSVOD,一个端到端的半监督视频目标检测框架,以利用大规模未标记的帧和稀疏注释来选择性地组装鲁棒的伪标签,并通过结合硬伪标签和软伪标签的置信度阈值进行伪标签的确认偏见和不确定性噪声的平衡,从而在 ImageNet-VID,Epic-KITCHENS 和 YouTube-VIS 数据集上实现了显著的性能改进。
Sep, 2023