Dec, 2023

ReST meets ReAct:自我改进的多步推理 LLM Agent

TL;DR通过 ReAct-style LLM 代理,我们可以迭代训练一个经过改进的小模型,用于具有挑战性的组合式问答基准测试,参数数量减少了两个数量级。