Jul, 2023

阅读,观察还是听取?解决多模态数据集所需的元素

TL;DR通过利用少量人工注释,我们提出了一种两步方法来分析多模态数据集,为了在处理数据集时将每个多模态实例映射到所需的模态。我们在 TVQA 视频问答数据集上应用了我们的方法,并发现大多数问题可以用单一模态回答,而且没有对任何特定模态存在实质性偏见。此外,我们发现超过 70%的问题可以用几种不同的单模态策略来解决,例如通过观看视频或听音频,突出了 TVQA 中多模态整合的有限性。我们利用我们的注释并分析 MERLOT Reserve,发现它在处理基于图像的问题、文本和音频以及听觉说话人识别方面存在困难。根据我们的观察,我们引入了一个需要多个模态的新的测试集,观察到模型性能显著下降。我们的方法为多模态数据集提供了有价值的见解,并强调了开发更健壮模型的需求。