从奖励塑形到Q塑形:通过大型语言模型引导知识实现无偏学习
探讨了基于potential-based shaping algorithm的初始化步骤与reinforcement learning算法学习过程中的相似性,证明二者在一个广泛类别的策略下是无法区分的,并提出了一个更简单方法以捕捉该算法的好处以及有关使用potential-based shaping算法进行学习的效率的问题。
Jun, 2011
本文提供了一种基于分布任务的meta-learning框架,自动学习新采样任务上的有效奖励塑形,从而解决了强化学习中信用分配的难题,并通过从DQN到DDPG的成功转移等各种设置,展示了探索 shaping 方法的有效性。
Jan, 2019
通过自然语言引导,我们对深度强化学习技术进行了改进,实现了对StarCraft II等任务的有效训练,并与传统的奖励塑形方法相比,取得了更好的性能表现。
Oct, 2019
本文提出了一种自适应利用给定塑形奖励函数的算法,通过将塑形奖励作为一个双层优化问题来解决,从而实现了真实奖励的最大化,并基于这个问题,提出了三种基于不同假设的学习算法。实验结果表明,我们的算法可以充分利用有益的塑形奖励,同时忽略无益的塑形奖励或者甚至将它们转化为有益的。
Nov, 2020
本文提出由观察和行动函数构成的势函数的差作为附加奖励的shaping advice来增加环境奖励的稀疏性问题的增强学习方法,分别在单智能体和多智能体强化学习中应用。通过理论分析和实验评估指出,使用shaping advice能够使规则更快地学习任务并获得更高的奖励。
Feb, 2022
本文阐述了在强化学习中选择适当的奖励设计方法对提高学习效率的重要性,并提出了一种将奖励设计融入强化学习框架的方案,并通过基于奖励设计所得到的样本效率的提高,证明了该方案在实践中的有效性。
Oct, 2022
LLM-guided Q-learning combines the advantages of large language models and Q-learning without introducing performance bias, providing action-level guidance and converting hallucinations into exploration costs, resulting in improved sampling efficiency and suitability for complex control tasks.
May, 2024
通过将大型语言模型与MEDIC框架结合,我们的研究旨在改善强化学习的样本效率,特别针对稀疏奖励领域和随机转换等问题,以提高 PPO 和 A2C 强化学习算法的样本复杂度,并为进一步探索如何利用这些模型增强现有强化学习流程铺平道路。
May, 2024
当代强化学习研究已广泛采用策略梯度方法作为解决学习问题的万能方法,然而只要我们能高效地利用它们,基于价值的方法在许多领域仍然有用。本文探讨了DQNs在强化学习中的混沌性质,同时理解了当训练时它们所保留的信息如何被改造用于适应不同任务的模型。我们从设计一个简单的实验开始,观察环境中每个状态和动作的Q值。然后我们通过不同的训练方式进行训练,探索这些训练算法如何影响准确学习(或未学习)Q值的方式。我们测试了每个训练模型在重新训练以完成稍微改变的任务时的适应性。然后我们扩展实验设置,测试一个无保护路口上的自动驾驶问题。我们观察到,当基础模型的Q值估计接近真实Q值时,模型能更快地适应新任务。结果提供了一些关于哪些算法对于高效适应任务有用的见解和指导。
Jul, 2024