Oct, 2024

利用大型语言模型先验的高效强化学习

TL;DR本研究解决了强化学习在多样化环境中无法有效泛化的问题。通过将大型语言模型视作先验动作分布,并通过贝叶斯推断方法将其整合到强化学习框架中,显著提高了样本效率。实验结果表明,使用大型语言模型的先验大幅度减少了所需样本的数量,优化复杂度降低超过90%。