Mar, 2024

通过附带关键音频 - 视觉线索的文本回答多样化问题

TL;DR音视频问答(AVQA)需要参考视频内容和听觉信息,然后将问题相关联以预测最精确的答案。本文提出了一种进行互相关蒸馏(MCD)的框架,以帮助问题推理。通过增强音视频软关联、知识蒸馏和解耦音视频依赖等步骤,我们的方法在多个问答数据集上展现出优于其他方法的表现,有趣的发现是,在推理过程中去除深度音视频特征可以有效减轻过拟合问题。