ICLROct, 2022

现场策略迭代

TL;DR本文提出了一种名为 ICPI 的算法,它使用基础模型在上下文中执行强化学习任务,通过试错交互更新提示内容,以实现无需专家示范或梯度的强化学习任务。