EMNLPNov, 2023

多任务多模态提示训练用于交互式具象任务完成

TL;DR我们提出了一种统一的编码 - 解码模型,称为 Embodied MultiModal Agent (EMMA),可以处理交互和具身任务,其中每个任务对目标完成做出贡献,取得了与类似模型相当的性能并在 Dialog-guided Task Completion (DTC) 中取得了新的最佳结果(36.81% 的成功率)用于评估 Alexa Arena 中的对话引导代理。