Nov, 2023

基础模型能否观看、交谈并逐步指导你烘焙蛋糕?

TL;DR通过人类用户和人类导师之间的自然互动,我们创建了一个名为WTaG的多模态基准数据集,进而提出了用户与环境理解以及导师决策两个任务。我们利用多个基础模型研究这些模型在感知引导任务中可以快速适应的程度,并通过定量、定性和人工评估结果显示,这些模型在某些情况下可以表现出公正的性能,但快速可靠的适应仍然是一个重大挑战。我们的基准数据集和基线将为未来研究提供一个起点。