ICLRJan, 2024

真知源于实践:通过强化学习使 LLMs 与具身环境对齐

TL;DR通过将大型语言模型(LLMs)作为决策制定代理部署到 RL 中,我们提出了 TWOSOME,这是一个新颖的在线框架,无需准备数据集或环境先验知识,使 LLMs 能够高效地与具体环境进行交互和对齐。在广泛的实验中,我们评估了 TWOSOME 的性能,结果表明 TWOSOME 在经典决策制定环境和模拟家庭环境中均显著提高了样本效率和性能,并展示了优越的一般化能力和原始能力的保持。