视频中时序句子定位和事件字幕生成的学习模态交互

Jul, 2020

视频中时序句子定位和事件字幕生成的学习模态交互

Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos

Shaoxiang Chen, Wenhao Jiang, Wei Liu, Yu-Gang Jiang

TL;DR通过跨模态交互学习，以更好地利用视频中每组模态之间的互补信息来提高事件字幕生成和时间句子定位任务的性能，从而在四个标准基准数据集上取得了最先进的性能。

Abstract

Automatically generating sentences to describe events and temporally localizing sentences in a video are two important tasks that bridge language and videos. Recent techniques leverage the multimodal nature of videos by using off-the-shelf features to represent videos, but interactions between modalities are rarely explored. Inspired by the fact that there e

event captioning temporal sentence localization multimodal learning modality interaction video analysis

发现论文，激发创造

可解释的视听视频字幕生成尝试

本论文介绍了一个多模态卷积神经网络视频字幕框架，通过引入模态感知模块，探索了视听交互对视频理解的影响，并证明该可解释模型在情况选择时取得了可比较的性能。

Dec, 2018

观看、听取与叙述：多模态弱监督密集事件字幕生成

本文研究了多模态学习中的音频 - 视觉相关性，并使用该方法在视频中探讨弱监督下的活动密集事件字幕问题，通过实验证明了提出的多模态方法优于单模态方法，同时验证了特定功能表示和体系结构设计的选择。

Sep, 2019

多模态密集视频字幕

本文提出了一种新的密集视频字幕方法，它能够利用任何数量的多模态信息来描述事件，并使用自动语音识别系统获得音频和语音模态的文本描述，在将其视为单独的输入与视频帧和相应的音轨一起使用，并利用最近提出的 Transformer 体系结构将多模态输入数据转换为文本描述的机器翻译问题。作者在 ActivityNet Captions 数据集上测试了他们的模型，并进行了深入的分析。

Mar, 2020

端到端多模式视频时间定位

本文提出了一种基于多模态框架的文本指导视频时间地基方法，采用 RGB 图像、光流和深度图来提取视频的补充信息并通过 transformers 设计动态融合方案进行交互学习，在 Charades-STA 和 ActivityNet Captions 数据集上实验表明，该方法表现优越。

Jul, 2021

时间感知的视频 - 语言预训练

本研究提出了一种文本 - 视频本地化预文本任务，以实现细粒度的时间和语义对齐，从而让训练模型能够准确感知给定文本描述的视频时间边界，并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。

Jan, 2023

语言作为媒介：通过仅文本进行多模态视频分类

通过利用大型语言模型（如 GPT-3.5 或 Llama2）的广泛知识，结合 BLIP-2、Whisper 和 ImageBind 获取的视觉和听觉多模态文本描述，我们提出了一种新的模型不可知方法，用于生成捕捉多模态视频信息的详细文本描述。我们的评估结果表明，这种基于文本描述的方法在视频理解任务中取得了成功，为多模态分类提供了一个有前景的新研究方向。

Sep, 2023

密集视频字幕生成与跨模态记忆检索

通过使用外部记忆库和跨模态视频 - 文本匹配方法，我们提出了一种新的框架来解决密集视频字幕的挑战，实现了事件定位和事件字幕任务的自动化。实验结果表明，在 ActivityNet Captions 和 YouCook2 数据集上，我们的模型表现出良好的性能，无需来自大型视频数据集的大量预训练。

Apr, 2024

多模态事件图：走向多模态世界的事件中心理解

本研究提出了多模态事件关系的新任务，并开发了一个大规模数据集和一种基于外部知识库的弱监督多模态方法，为人工智能系统实现媒体理解和跨媒体事件关系建立提供了支持。

Jun, 2022

用于视频字幕的多模态记忆建模

本文提出了一种多模态记忆模型 (M3)，利用视觉和文本共享的记忆来建模长期的视觉 - 文本依赖关系并进一步引导全局的视觉注意力，该方法在公开基准数据集上的实验证明，相比于最先进的方法，本文提出的方法在 BLEU 和 METEOR 方面表现较好。

Nov, 2016

利用自然语言在视频时序关系中进行时刻定位

本论文提出了 Temporal Compositional Modular Network (TCMN) 模型，该模型结合自然语言描述和视觉信息，通过树形注意力网络自动细分为描述主事件、情境事件和时间信号三部分，再使用两个模块计量视频片段与细分描述间的相似度和位置相似度，通过 late fusion 方法组合 RGB 和光流两种数据进行训练，实验证明此模型在 TEMPO 数据集上表现优于现有方法。

Aug, 2019