Oct, 2024

从奖励塑形到Q塑形:通过大型语言模型引导知识实现无偏学习

TL;DR本研究解决了在强化学习中奖励塑形存在的偏差问题,提出了Q塑形的创新方法,通过直接塑形Q值来融入领域知识,以提高样本效率。研究表明,Q塑形在20个不同环境中显著提升了样本效率,较最佳基线提高了16.87%,且相比于基于大型语言模型的奖励塑形方法提升了253.80%,确立了其作为一种优秀且无偏的替代方案。