Oct, 2024
ProMQA:用于多模态程序活动理解的问题回答数据集
ProMQA: Question Answering Dataset for Multimodal Procedural Activity
Understanding
TL;DR本研究解决了现有多模态系统在处理程序活动时评估不足的问题,提出了一个新的评估数据集ProMQA,该数据集包括401对多模态程序性问题和答案。此外,采用了人类与大语言模型联合的经济高效的标注方式,发现当前系统在性能上与人类之间存在显著差距,推动了多模态理解能力的深入研究。