Aug, 2023

LaGR-SEQ: 语言引导的强化学习与高效抽样查询

TL;DR通过使用大型语言模型的预测能力,我们引入了LaGR(语言引导的强化学习)和SEQ(样本高效查询)两个框架,用于在部分完成的任务中提出解决方案,并同时降低对语言模型的查询次数,从而更高效地进行主要强化学习训练。