Jan, 2024

MMToM-QA: 多模态心智理论问答

TL;DR为了发展具有人类级社交智能的机器,我们引入了一种多模式心智问答(MMToM-QA)基准,它综合评估机器的心智理解能力,并基于多模式数据和关于家庭环境中人物活动的不同类别的单模式数据。为了实现多模式心智能力,提出了一种新方法 BIP-ALM(基于语言模型的贝叶斯逆规划加速),它从多模式数据中提取统一的表示,并利用语言模型进行可扩展的贝叶斯逆规划。与人类表现、BIP-ALM 和包括 GPT-4 在内的先进模型进行了系统比较,实验表明大型语言模型和大型多模式模型仍然缺乏强大的心智理解能力,而 BIP-ALM 则通过利用基于模型的心智推理和语言模型的能力展现了有希望的结果。