多模态密集视频字幕
本文介绍了一种基于 Transformer 结构的双模态编码器,用于处理 Dense Video Captioning 任务,通过同时处理视频和音频两种输入,该模型在 ActivityNet Captions 数据集上取得了出色的性能表现。
May, 2020
本文研究了多模态学习中的音频 - 视觉相关性,并使用该方法在视频中探讨弱监督下的活动密集事件字幕问题,通过实验证明了提出的多模态方法优于单模态方法,同时验证了特定功能表示和体系结构设计的选择。
Sep, 2019
本文提出了一种新颖的密集视频字幕框架,它通过显式建模视频中事件的时间依赖性并利用先前事件的视觉和语言上下文来实现连贯的叙述。该框架由事件序列生成网络和序列视频字幕网络组成,后者利用强化学习进行训练,并在事件和剧集两个级别上进行两级奖励以实现更好的上下文建模。在大多数指标上,该方法在 ActivityNet Captions 数据集上取得了出色的表现。
Apr, 2019
通过使用外部记忆库和跨模态视频 - 文本匹配方法,我们提出了一种新的框架来解决密集视频字幕的挑战,实现了事件定位和事件字幕任务的自动化。实验结果表明,在 ActivityNet Captions 和 YouCook2 数据集上,我们的模型表现出良好的性能,无需来自大型视频数据集的大量预训练。
Apr, 2024
本文提出了一种新的密集视频字幕生成框架,该框架将时间上的事件提案的本地化和生成句子主体的合并,通过端到端的联合训练结构。这种模型在 ActivityNet Captions 数据集上的实验显示出了与现有技术相比的明显改进,创造了 12.96%的新的 METEOR 记录。
Apr, 2018
本研究提出了一种音视频框架,利用原始音频信号学习,通过 Modality Balanced Pre-training 优化模型,且采用局部和全局融合机制进行信息交换,以提高视频字幕生成的性能。
Jun, 2023
本文提出一个无需时间片段注释的方法:针对视频中所有感兴趣事件的稠密描述,基于一一对应的假设,将该问题分解为事件字幕和句子定位的双重问题,并提出了一种循环系统来训练模型。通过大量实验结果证明了该方法在视频事件字幕和句子定位方面的有效性。
Dec, 2018
使用 Dense Video Captioning (DVC) 技术,本文综述了在描述长视频时需要突出显示的相互关联事件、依赖关系、上下文、重叠事件、物体间的相互作用以及领域特定性等语义,同时讨论了 DVC 的子任务和它们的结果,涵盖视频特征提取、时间事件定位和密集字幕生成,还探讨了 DVC 所使用的数据集以及领域中的新挑战和未来趋势。
Nov, 2023
本篇研究介绍了一种能够在视频中检测和描述事件的新模型,同时使用过去和未来事件的上下文信息来联合描述所有事件,并介绍了一个用于密集事件字幕的基准测试集 ActivityNet Captions。
May, 2017