Dec, 2023
ReST meets ReAct:自我改进的多步推理 LLM Agent
ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent
Renat Aksitov, Sobhan Miryoosefi, Zonglin Li, Daliang Li, Sheila Babayan...
TL;DR通过 ReAct-style LLM 代理,我们可以迭代训练一个经过改进的小模型,用于具有挑战性的组合式问答基准测试,参数数量减少了两个数量级。