May, 2024

基于大型语言模型的高效强化学习搜索

TL;DR通过将大型语言模型与 MEDIC 框架结合,我们的研究旨在改善强化学习的样本效率,特别针对稀疏奖励领域和随机转换等问题,以提高 PPO 和 A2C 强化学习算法的样本复杂度,并为进一步探索如何利用这些模型增强现有强化学习流程铺平道路。