Mar, 2024

您的同事很重要:评估语言模型在 Blocks World 中的协作能力

TL;DR通过设计一个块世界环境,在这个环境中,两个拥有独特目标和技能的语言代理需要通过行动和自然语言交流合作来建立一个目标结构,并采用中间推理步骤来模拟合作者的状态并识别和纠正执行错误,最终的实验结果表明语言代理具有很强的基础能力,并且我们的方法显著改进了评估指标。