关键词audio-visual question answering
搜索结果 - 10
- SHMamba: 面向音视频问答的结构化双曲线状态空间模型
提出了 SHMamba:结构化双曲状态空间模型,利用双曲几何和状态空间模型的优势,表示音频 - 视觉数据的分层结构和复杂关系。通过引入自适应曲率双曲对齐模块和交叉融合块,增强分层结构的理解和跨模态信息的动态交流。广泛实验证明,SHMamba - 面向多语言音视频问答
本文旨在将音视频问答(AVQA)扩展到多语言环境。我们利用机器翻译提出了两个多语言 AVQA 数据集,涵盖了八种语言,并引入了 MERA 框架,该框架利用了先进的视频、音频和文本基础模型来进行多语言 AVQA 的基准测试。我们相信这项工作将 - 基于 CLIP 的 TASS: 面向目标的单流网络用于视听问答
本文提出了一种新的基于 CLIP 的目标感知单流网络 (TASS) 用于音视频问答,通过模型预训练的图像文本匹配知识实现视听匹配特性,包括目标感知的空间定位模块 (TSG+) 和单流联合时间定位模块 (JTG),通过交叉模态同步损失 (CM - 听、看、回答:克服音频视觉问题回答中的偏差
音频 - 视觉问答(AVQA)是一个复杂的多模态推理任务,要求智能系统基于音频 - 视频输入对准确地回答自然语言查询。然而,现有的 AVQA 方法容易过度学习数据集偏差,导致鲁棒性差。我们提出了一个新的数据集(MUSIC-AVQA-R),并 - 通过附带关键音频 - 视觉线索的文本回答多样化问题
音视频问答(AVQA)需要参考视频内容和听觉信息,然后将问题相关联以预测最精确的答案。本文提出了一种进行互相关蒸馏(MCD)的框架,以帮助问题推理。通过增强音视频软关联、知识蒸馏和解耦音视频依赖等步骤,我们的方法在多个问答数据集上展现出优于 - CAT: 增强多模态大型语言模型以回答动态音频 - 视觉场景中的问题
本研究关注于回答由丰富而复杂的动态视听组件组成的场景中的问题,引入了 CAT 来增强 Multimodal Large Language Models(MLLMs)在这些场景中的应用,CAT 通过聚合问题相关线索、训练混合多模态数据集以及优 - AAAI面向对象感知的自适应正性学习用于音频 - 视觉问答
基于音频 - 视觉问题回答任务(AVQA),本文提出了一种针对细粒度视觉对象的端到端对象导向网络,通过特征交互和模型优化来探索多模态关系,并在模型优化方面提出了一种对象感知自适应正性学习策略,以选择高度语义匹配的多模态对作为正性。通过对 M - MM音频 - 视觉问答的渐进时空感知
为了更高效地回答关于视频中的视觉对象、声音及其关联的问题,本文提出了一种渐进式时空感知网络(PSTP-Net),通过三个模块逐步识别问题相关的关键时空区域。从公共数据集 MUSIC-AVQA 和 AVQA 的广泛实验结果来看,PSTP-Ne - 面向动态音视情境的目标感知时空推理问题回答
本研究提出了一种针对音视频问答(AVQA)任务的目标感知联合时空基础网络,利用三种模态的一致性损失实现了问题感知的时空基础,增加了音频 - 视觉互动,采用了单一流结构中的融合方法,在 MUSIC-AVQA 数据集上的实验结果证明了该方法优越 - CVPR在动态音视频场景中学习回答问题
本文研究了 Audio-Visual Question Answering(AVQA)任务,提出了一个包含超过 45K 个问题 - 答案对的 MUSIC-AVQA 数据集并使用多模态知识和视听场景的时空推理来解决该问题,结果表明我们的方法优