Nov, 2023

多任务多模态提示训练用于交互式具象任务完成

TL;DR我们提出了一种统一的编码-解码模型,称为Embodied MultiModal Agent (EMMA),可以处理交互和具身任务,其中每个任务对目标完成做出贡献,取得了与类似模型相当的性能并在Dialog-guided Task Completion (DTC)中取得了新的最佳结果(36.81%的成功率)用于评估Alexa Arena中的对话引导代理。