Oct, 2023

解决 MUSIC-AVQA 中的数据偏见:构建一个平衡的数据集用于无偏见的问答

TL;DR该研究关注多模态研究中的音频、视觉和文本模式的交叉,通过对原数据集中带有显著答案偏见的问题类型的梳理,构建了一个名为 MUSIC-AVQA v2.0 的新数据集,并提出了一种新型基线模型,通过研究音频 - 视觉 - 文本相互关系,在 MUSIC-AVQA v2.0 上的准确性超过了现有的基准,达到了新的最先进水平。