Oct, 2023

实体演绎竞技场:探索 LLM 的对话推理和规划能力的游乐场

TL;DR大语言模型在回答清楚的问题方面非常有效,但面对模糊查询时会表现不可预测且产生错误的输出,因此需要开发能够提出澄清问题来解决模糊性的智能代理。本文提供了一个评估框架,通过问法官一系列问题来推断一个未知的实体并评估语言模型的会话推理和规划能力,并对不同的语言模型进行系统评估。结果发现,像 GPT-4 这样的强大语言模型在这个任务上远远超过人类玩家。同时我们还使用行为克隆(BC)来研究较弱模型是否能够模仿强模型并在只使用强模型的演示数据或领域的情况下进行泛化。最后,我们建议使用强化学习来通过游戏过程来提高 Vicuna 模型的推理和规划能力,从而显著提高性能。希望这个问题能为如何训练自主代理在模糊环境中更智能地行为提供见解。