视频中的话语解析：一种多模态方法

CVPRMar, 2019

视频中的话语解析：一种多模态方法

Discourse Parsing in Videos: A Multi-modal Appraoch

Arjun R. Akula, Song-Chun Zhu

TL;DR本文提出 Visual Discourse Parsing 任务，通过识别视频场景来了解视频中场景之间的话语关系，并提出了一种不需要显式身份识别和注释场景的方法识别视觉话语线索。通过构建包含 310 个视频和相应话语线索的新数据集评估所提出的方法，这可能有助于诸如 Visual Dialog 和 Visual Storytelling 等领域的多学科 AI 问题的解决。

Abstract

Text-level discourse parsing aims to unmask how two sentences in the text are related to each other. We propose the task of visual discourse parsing, which requires understanding discourse relations among scenes in a video. Here we use the term scene to refer to a subset of video frame

visual discourse parsing scene identification discourse cues dataset ai applications

发现论文，激发创造

通过文本理解视频场景：来自基于文本的视频问答的洞察

研究人员广泛研究了视觉和语言领域，发现理解场景需要理解视觉和文字内容，特别是在视频中理解文字对于回答问题非常重要。本文集中探索了两个最近推出的数据集，NewsVideoQA 和 M4-ViteVQA，这两个数据集旨在通过文字内容进行视频问答。NewsVideoQA 数据集包含与新闻视频中的文本相关的问答对，而 M4-ViteVQA 包含来自不同类别（如视频博客、旅游和购物）的问答对。我们在各个层面上分析了这些数据集的构建情况，探讨了回答问题所需的视觉理解和多帧理解的程度。此外，本研究还进行了与仅文本模型 BERT-QA 的实验，结果显示在这两个数据集上，BERT-QA 的表现与原始方法相当，指示了这些数据集构建上的不足之处。此外，我们还探讨了域适应方面的问题，通过在 M4-ViteVQA 上进行训练并在 NewsVideoQA 上进行评估以及反之，从而探讨了跨领域训练的挑战和潜在好处。

Sep, 2023

视频对话生成中的多模态语义图协同推理

本文研究了基于视频对话生成，提出一种方法，可以将视频数据集成到预训练语言模型中，通过多模态推理实现各种模态之间的互补信息，实验结果表明，该模型能够在自动和人工评估方面显著优于现有的最先进模型。

Oct, 2022

多模态视频主题分割与双对比领域适应

基于多模态的视频主题分段器利用视频转录和帧，结合跨模态注意机制，提出了一种双对比学习框架，从而提高我们的模型对更长、更语义复杂的视频的适应能力。在短视频和长视频集合上的实验证明，我们的解决方案明显优于基准方法，无论是准确度还是可转移性，在域内和跨领域设置下都有显著提升。

Nov, 2023

多模态基于注意力机制视频特征的端到端视听场景感知对话

该论文介绍了一种新的视频场景感知对话系统，该系统将多个研究领域的最新技术整合应用，包括端到端的对话技术、视觉问答技术，以及视频描述技术。通过收集一个有关人类行为视频的对话数据集，作者们使用该数据集训练出一种多模态对话模型，它可以在对视频进行讨论时生成响应。最终实验结果表明，使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景（视频）生成对话的质量。

Jun, 2018

基于游戏的视频上下文对话

本文介绍了基于现场足球比赛视频和 Twitch.tv 聊天记录的多说话者、视觉语境下的对话数据集，利用此数据集开发出具有多模态对话技能和视觉定位应用的对话模型，并通过多项评估指标和人类评估研究验证其效果。

Sep, 2018

视频集合的无监督语义分析

本文提出了一种用视觉和语言线索联合生成模型实现的，可以无监督地将视频解析成语义步骤的方法，该方法可以为视频片段提供语义 “故事情节” 和文字描述，并在大量复杂的 YouTube 视频上进行了评估。

Jun, 2015

视频广告理解的多模态框架

该论文介绍了一种利用多模态技术实现广告视频内容结构化分析的系统，包括场景分割和多模态标记两个任务，通过视觉和文本特征相结合的方法，在 2021 年 TAAC 竞赛中获得了 0.2470 的高得分。

Aug, 2021

统一的多感知知觉：弱监督的音频 - 视觉视频解析

本文介绍了音频 - 视觉视频解析的问题，并提出了一个新的混合注意力网络方法和一种自适应 MMIL 池化方法来解决多模态多实例学习问题，以及利用标签平滑技术来减轻模态偏置和嘈杂标签问题。实验结果表明，即使只有视频级弱标签，也可以实现具有挑战性的音频 - 视觉视频解析。

Jul, 2020

DisSent: 显式语篇关系的句子表征学习

利用依存分析和基于规则的指标，我们能够通过利用显式的篇章关系来筛选高质量的句子关系任务，从而得出高质量的句子嵌入向量及用作 BERT 等更大型模型的监督微调数据集。

Oct, 2017

联合视频和文本解析：理解事件和回答查询

本文提出了一种视频和文本联合解析的框架，通过使用基于空间、时间和因果关系的 And-Or 图对视频和文本的信息进行深层语义解析，旨在推动生成叙述性文本描述和问答等应用。其中，视频解析、文本解析和联合推理三个模块组成了该联合解析系统，通过匹配、推断和修改来产生联合解析图，进一步提高了查询准确性。

Aug, 2013