AAAIDec, 2023

面向对象感知的自适应正性学习用于音频 - 视觉问答

TL;DR基于音频 - 视觉问题回答任务(AVQA),本文提出了一种针对细粒度视觉对象的端到端对象导向网络,通过特征交互和模型优化来探索多模态关系,并在模型优化方面提出了一种对象感知自适应正性学习策略,以选择高度语义匹配的多模态对作为正性。通过对 MUSIC-AVQA 数据集进行的大量实验证明,该方法能够有效地找到有利的音频 - 视觉线索,并取得了新的最先进的问题回答性能。