从奖励塑形到Q塑形：通过大型语言模型引导知识实现无偏学习

Oct, 2024

从奖励塑形到Q塑形：通过大型语言模型引导知识实现无偏学习

From Reward Shaping to Q-Shaping: Achieving Unbiased Learning with LLM-Guided Knowledge

Xiefeng Wu

TL;DR本研究解决了在强化学习中奖励塑形存在的偏差问题，提出了Q塑形的创新方法，通过直接塑形Q值来融入领域知识，以提高样本效率。研究表明，Q塑形在20个不同环境中显著提升了样本效率，较最佳基线提高了16.87%，且相比于基于大型语言模型的奖励塑形方法提升了253.80%，确立了其作为一种优秀且无偏的替代方案。

Abstract

Q-shaping is an extension of Q-value initialization and serves as an alternative to reward shaping for incorporating domain knowledge to accelerate agent training, thereby improving →

发现论文，激发创造

基于潜在函数的塑形和 Q-值初始化是等价的

探讨了基于potential-based shaping algorithm的初始化步骤与reinforcement learning算法学习过程中的相似性，证明二者在一个广泛类别的策略下是无法区分的，并提出了一个更简单方法以捕捉该算法的好处以及有关使用potential-based shaping算法进行学习的效率的问题。

Jun, 2011

元学习中的奖励塑形

本文提供了一种基于分布任务的meta-learning框架，自动学习新采样任务上的有效奖励塑形，从而解决了强化学习中信用分配的难题，并通过从DQN到DDPG的成功转移等各种设置，展示了探索 shaping 方法的有效性。

Jan, 2019

一种基于叙事的奖励塑造方法，使用基于语境的自然语言指令

通过自然语言引导，我们对深度强化学习技术进行了改进，实现了对StarCraft II等任务的有效训练，并与传统的奖励塑形方法相比，取得了更好的性能表现。

Oct, 2019

学习如何利用成形奖励：一种新的奖励成形方法

本文提出了一种自适应利用给定塑形奖励函数的算法，通过将塑形奖励作为一个双层优化问题来解决，从而实现了真实奖励的最大化，并基于这个问题，提出了三种基于不同假设的学习算法。实验结果表明，我们的算法可以充分利用有益的塑形奖励，同时忽略无益的塑形奖励或者甚至将它们转化为有益的。

Nov, 2020

深度强化学习中的形状建议

本文提出由观察和行动函数构成的势函数的差作为附加奖励的shaping advice来增加环境奖励的稀疏性问题的增强学习方法，分别在单智能体和多智能体强化学习中应用。通过理论分析和实验评估指出，使用shaping advice能够使规则更快地学习任务并获得更高的奖励。

Feb, 2022

基于逻辑的奖励塑造多智能体强化学习

本研究探讨了基于逻辑的多智能体强化学习中的奖励设计问题，并提出了一种可扩展的半集中式逻辑奖励设计方法，以应对任务中多智能体数量增加的问题。

Jun, 2022

解析奖励塑造：理解奖励工程对样本复杂性的益处

本文阐述了在强化学习中选择适当的奖励设计方法对提高学习效率的重要性，并提出了一种将奖励设计融入强化学习框架的方案，并通过基于奖励设计所得到的样本效率的提高，证明了该方案在实践中的有效性。

Oct, 2022

利用大型语言模型启发增强 Q-Learning

LLM-guided Q-learning combines the advantages of large language models and Q-learning without introducing performance bias, providing action-level guidance and converting hallucinations into exploration costs, resulting in improved sampling efficiency and suitability for complex control tasks.

May, 2024

基于大型语言模型的高效强化学习搜索

通过将大型语言模型与MEDIC框架结合，我们的研究旨在改善强化学习的样本效率，特别针对稀疏奖励领域和随机转换等问题，以提高 PPO 和 A2C 强化学习算法的样本复杂度，并为进一步探索如何利用这些模型增强现有强化学习流程铺平道路。

May, 2024

适应新任务的强化学习智能体：基于Q-值的洞察

当代强化学习研究已广泛采用策略梯度方法作为解决学习问题的万能方法，然而只要我们能高效地利用它们，基于价值的方法在许多领域仍然有用。本文探讨了DQNs在强化学习中的混沌性质，同时理解了当训练时它们所保留的信息如何被改造用于适应不同任务的模型。我们从设计一个简单的实验开始，观察环境中每个状态和动作的Q值。然后我们通过不同的训练方式进行训练，探索这些训练算法如何影响准确学习（或未学习）Q值的方式。我们测试了每个训练模型在重新训练以完成稍微改变的任务时的适应性。然后我们扩展实验设置，测试一个无保护路口上的自动驾驶问题。我们观察到，当基础模型的Q值估计接近真实Q值时，模型能更快地适应新任务。结果提供了一些关于哪些算法对于高效适应任务有用的见解和指导。

Jul, 2024