Feb, 2023

利用大型语言模型指导强化学习的预训练

TL;DR提出了一种名为 ELLM(LLM 探索)的方法,它利用来自文本语料库的背景知识来塑造探索,通过利用大规模语言模型预训练,无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向,通过在 Crafter 游戏环境和 Housekeep 机器人模拟器中的实验,证明了 ELLM 训练的代理在预训练期间具有更好的常识行为覆盖,并且在一系列下游任务中通常与或优于性能。