基于 CLIP 的 TASS: 面向目标的单流网络用于视听问答

May, 2024

基于 CLIP 的 TASS: 面向目标的单流网络用于视听问答

CLIP-Powered TASS: Target-Aware Single-Stream Network for Audio-Visual Question Answering

Yuanyuan Jiang, Jianqin Yin

TL;DR本文提出了一种新的基于 CLIP 的目标感知单流网络 (TASS) 用于音视频问答，通过模型预训练的图像文本匹配知识实现视听匹配特性，包括目标感知的空间定位模块 (TSG+) 和单流联合时间定位模块 (JTG)，通过交叉模态同步损失 (CMS) 延伸了图像文本知识到音频文本匹配，实验证明了该方法在音视频问答上优于现有的最先进方法。

Abstract

While vision-language pretrained models (VLMs) excel in various multimodal understanding tasks, their potential in fine-grained audio-visual reasoning, particularly for audio-visual question answering (AVQA), rem

vision-language pretrained models audio-visual question answering clip-powered target-aware single-stream network spatial grounding module temporal grounding module

发现论文，激发创造

面向动态音视情境的目标感知时空推理问题回答

本研究提出了一种针对音视频问答（AVQA）任务的目标感知联合时空基础网络，利用三种模态的一致性损失实现了问题感知的时空基础，增加了音频 - 视觉互动，采用了单一流结构中的融合方法，在 MUSIC-AVQA 数据集上的实验结果证明了该方法优越性及其有效性。

May, 2023

使用 CLIP 引导的视觉文本注意力进行视频问答

本文提出了一种利用 Contrastive Language-Image Pre-training（CLIP）作为跨模态学习指导的 Visual-Text Attention 机制来应用于视频问答任务。在特定领域中提取视频和文本特征后，利用 CLIP 对一组通用知识域上视觉 - 文本特征进行特征提取，并提出了交叉域学习来提取目标域和通用域间的视觉和语言特征之间的注意力信息，将特征集成用于迁移学习，结果表明这种方法优于现有的最先进方法。

Mar, 2023

在动态音视频场景中学习回答问题

本文研究了 Audio-Visual Question Answering（AVQA）任务，提出了一个包含超过 45K 个问题 - 答案对的 MUSIC-AVQA 数据集并使用多模态知识和视听场景的时空推理来解决该问题，结果表明我们的方法优于现有的 A-V 和 AVQA 方法。

Mar, 2022

音频 - 视觉问答的渐进时空感知

为了更高效地回答关于视频中的视觉对象、声音及其关联的问题，本文提出了一种渐进式时空感知网络（PSTP-Net），通过三个模块逐步识别问题相关的关键时空区域。从公共数据集 MUSIC-AVQA 和 AVQA 的广泛实验结果来看，PSTP-Net 在有效性和效率上具备了令人信服的证据。

Aug, 2023

通过附带关键音频 - 视觉线索的文本回答多样化问题

音视频问答（AVQA）需要参考视频内容和听觉信息，然后将问题相关联以预测最精确的答案。本文提出了一种进行互相关蒸馏（MCD）的框架，以帮助问题推理。通过增强音视频软关联、知识蒸馏和解耦音视频依赖等步骤，我们的方法在多个问答数据集上展现出优于其他方法的表现，有趣的发现是，在推理过程中去除深度音视频特征可以有效减轻过拟合问题。

Mar, 2024

面向对象感知的自适应正性学习用于音频 - 视觉问答

基于音频 - 视觉问题回答任务（AVQA），本文提出了一种针对细粒度视觉对象的端到端对象导向网络，通过特征交互和模型优化来探索多模态关系，并在模型优化方面提出了一种对象感知自适应正性学习策略，以选择高度语义匹配的多模态对作为正性。通过对 MUSIC-AVQA 数据集进行的大量实验证明，该方法能够有效地找到有利的音频 - 视觉线索，并取得了新的最先进的问题回答性能。

Dec, 2023

从 FiLM 到视频：多模态背景下的多轮问答

通过 AVSD 挑战，本文提出了一种层次化编码 - 解码模型来回答有关视频的问题，采用预训练的 I3D 和 VGGish 模型计算视频及音频帧的语义特征，并使用 FiLM 块进行条件编码以降低维数，最终使用 LSTM 解码器通过计划采样进行训练和束搜索进行评估，相比于 AVSD 挑战组织者发布的模态融合基准模型，我们的模型实现了超过 16％的相对改善，得分为 0.36 BLEU -4，超过 33％的得分为 0.997 CIDEr。

Dec, 2018

VaQuitA: 提升 LLM 辅助视频理解中的对齐能力

最近，基于语言模型的视频理解取得了令人瞩目的进展，这得益于大型语言模型（LLMs）的引入。然而，以往的研究重点主要集中在设计将视频特征映射到标记的投影层，这种方法既基础又低效。在我们的研究中，我们引入了一个最先进的框架 VaQuitA，旨在提高视频和文本信息之间的协同作用。在数据层面上，我们采用由 CLIP 分数排名引导的采样方法，而不是均匀采样帧，这样可以更好地选择与给定问题相一致的帧。在特征层面上，我们将可训练的视频感知器与 Visual-Query Transformer（简称 VQ-Former）集成在一起，以增强输入问题和视频特征之间的相互作用。我们还发现，将一个简单的提示 “Please be critical” 加入 LLM 输入可以大大增强其对视频的理解能力。我们的实验结果表明，VaQuitA 在零样本视频问答任务中始终保持着新的基准，并且能够与用户生成高质量的多轮视频对话。

Dec, 2023

通过数据增强的问答方法进行多模态对话状态跟踪

文章提出了一个基于多模态融合和注意力机制的开放域问答系统，用于解决 Audio-Video Scene-Aware Dialogue（AVSD）任务，结果表明基于问答假设的数据增广技术和模型均能在 DSTC7-AVSD 数据集上带来显著的改进。

Jul, 2020

基于反应式多阶段特征融合的多模态对话建模

本文提出了一种直观的机制，通过多个阶段融合特征和注意力以很好地集成多模式特征，以解决音频视觉场景感知对话任务，并进一步分析了各种最先进的模型在该任务上的泛化能力。

Aug, 2019