面向动态音视情境的目标感知时空推理问题回答

May, 2023

面向动态音视情境的目标感知时空推理问题回答

Target-Aware Spatio-Temporal Reasoning via Answering Questions in Dynamics Audio-Visual Scenarios

Yuanyuan Jiang, Jianqin Yin

TL;DR本研究提出了一种针对音视频问答（AVQA）任务的目标感知联合时空基础网络，利用三种模态的一致性损失实现了问题感知的时空基础，增加了音频 - 视觉互动，采用了单一流结构中的融合方法，在 MUSIC-AVQA 数据集上的实验结果证明了该方法优越性及其有效性。

Abstract

audio-visual question answering (AVQA) is a challenging task that requires multistep spatio-temporal reasoning over multimodal contexts. T

audio-visual question answering spatio-temporal reasoning multimodal contexts target-aware joint spatio-temporal grounding network music-avqa dataset

发现论文，激发创造

在动态音视频场景中学习回答问题

本文研究了 Audio-Visual Question Answering（AVQA）任务，提出了一个包含超过 45K 个问题 - 答案对的 MUSIC-AVQA 数据集并使用多模态知识和视听场景的时空推理来解决该问题，结果表明我们的方法优于现有的 A-V 和 AVQA 方法。

Mar, 2022

音频 - 视觉问答的渐进时空感知

为了更高效地回答关于视频中的视觉对象、声音及其关联的问题，本文提出了一种渐进式时空感知网络（PSTP-Net），通过三个模块逐步识别问题相关的关键时空区域。从公共数据集 MUSIC-AVQA 和 AVQA 的广泛实验结果来看，PSTP-Net 在有效性和效率上具备了令人信服的证据。

Aug, 2023

基于 CLIP 的 TASS: 面向目标的单流网络用于视听问答

本文提出了一种新的基于 CLIP 的目标感知单流网络 (TASS) 用于音视频问答，通过模型预训练的图像文本匹配知识实现视听匹配特性，包括目标感知的空间定位模块 (TSG+) 和单流联合时间定位模块 (JTG)，通过交叉模态同步损失 (CMS) 延伸了图像文本知识到音频文本匹配，实验证明了该方法在音视频问答上优于现有的最先进方法。

May, 2024

TVQA+: 视频问答的时空引用

该研究针对视频问答这一任务，提出增加 bounding boxes 数据集，以此为基础构建了 STAGE 框架，在空间和时间域上对视频进行处理，以便回答关于视频的自然语言问题，并展示了实验结果和可视化。

Apr, 2019

面向对象感知的自适应正性学习用于音频 - 视觉问答

基于音频 - 视觉问题回答任务（AVQA），本文提出了一种针对细粒度视觉对象的端到端对象导向网络，通过特征交互和模型优化来探索多模态关系，并在模型优化方面提出了一种对象感知自适应正性学习策略，以选择高度语义匹配的多模态对作为正性。通过对 MUSIC-AVQA 数据集进行的大量实验证明，该方法能够有效地找到有利的音频 - 视觉线索，并取得了新的最先进的问题回答性能。

Dec, 2023

Pano-AVQA: 360° 视频上基于感知的音视问题回答

本文提出了 Pano-AVQA 基准测试用于评估全景视频中音频 - 视觉关系和球形空间关系的语义理解。使用在线获取的 5.4K 个视频剪辑，收集了两种类型的新型问题 - 答案对。通过球形空间嵌入和多模态训练目标，使用多个基于 Transformer 的模型从 Pano-AVQA 中进行训练，结果表明我们的提出的球形空间嵌入和多模态训练目标对数据集上全景环境的语义理解有很好的帮助。

Oct, 2021

CAD - 动态音视频问题回答的上下文多模态对齐

在这篇论文中，我们提出了一种新的上下文多模态对齐（CAD）网络，通过引入无参数随机上下文块来确保空间级别上的稳健音频和视觉对齐，提出了一种用于动态音频和视觉对齐的预训练技术，以及引入了交叉注意机制来平衡语义级别上的音频和视觉信息。在 MUSIC-AVQA 数据集上，该 CAD 网络相对于现有方法平均性能提高了 9.4％。我们还证明了将我们对 AVQA 的建议添加到现有方法中可以提高其性能，而不需要额外的复杂性要求。

Oct, 2023

基于音频问答的时间推理

本研究使用音频问题回答（Audio Question Answering，AQA）任务研究机器学习模型的时间推理能力，并提出 Multiple Auxiliary Controllers for Linear Modulation（MALiMo），一种扩展的 Feature-wise Linear Modulation（FiLM）模型，显著提高了其时间推理能力。

Nov, 2019

TGIF-QA：关于视觉问答中时空推理的研究

本文提出了三个特别设计用于视频 VQA 的新任务，推出一个新的大型数据集 TGIF-QA，并提出了一种利用空间和时间关注的双 LSTM 方法，证明其在经验评估中的有效性。

Apr, 2017

听、看、回答：克服音频视觉问题回答中的偏差

音频 - 视觉问答（AVQA）是一个复杂的多模态推理任务，要求智能系统基于音频 - 视频输入对准确地回答自然语言查询。然而，现有的 AVQA 方法容易过度学习数据集偏差，导致鲁棒性差。我们提出了一个新的数据集（MUSIC-AVQA-R），并提出了一个鲁棒的架构，通过多方位的循环协作去偏策略来克服偏差学习问题。结果表明，该架构在两个数据集上均取得了最先进的性能，特别是在我们提出的数据集上提升了 9.68％。通过对我们的数据集进行评估，还突显了现有的多模态 QA 方法的有限鲁棒性。

Apr, 2024