本文中,研究了在序列决策任务中,优化奖励函数对于强化学习的性能具有重要意义,提出了一种适用于基于策略梯度的学习代理的学习内在奖励的算法,并在性能上对比了使用该方法的强化学习代理和仅使用外在奖励的代理。
Apr, 2018
研究探讨奖励函数是否可以成为有用的学习知识中心,提出了一种可扩展的元梯度框架来学习多次体验中有用的内在奖励函数。通过实验证明,学习奖励函数可以捕获关于长期探索和开发的知识,并且可以应用于其他类型的智能体和环境动态的变化。
Dec, 2019
本研究结合内在动机和传递学习的思想,探讨了基于行动者-评论家模型共享参数和结合内在动机信息的多智能体协同学习算法,在探索和学习效率上有一定提升,并强调正确调节外部和内部奖励间的重要性,以避免不良学习行为。
Feb, 2022
本文旨在探讨强化学习中的探索问题以及先锋内在动机技术对不同设计因素的可变性和易感性的影响,强调这些设计方面的谨慎选择以及环境和任务的探索要求,以保证公正比较。
May, 2022
本文提出了一种基于动机的奖励设计方法,自动生成目标一致的内在奖励,以最大程度地增大期望的累积外在奖励,该方法在处理延迟奖励、探索和信用分配问题方面优于现有方法。
Jul, 2022
本文阐述了在强化学习中选择适当的奖励设计方法对提高学习效率的重要性,并提出了一种将奖励设计融入强化学习框架的方案,并通过基于奖励设计所得到的样本效率的提高,证明了该方案在实践中的有效性。
Oct, 2022
本文提出将内在动机与模仿学习相结合来优化探索行为,以解决在广泛应用的问题中由于奖励信号过于稀疏所带来的挑战,同时证明了在过程生成环境中,该方法可以取得优异的性能和更好的泛化能力,效率同等或更高。
Nov, 2022
本论文提出一种基于条件互信息的探索奖励方法(DEIR),实现了从代理探索中产生的新颖性的累积学习。在ProcGen数据集的实验中表现出快速学习和良好的泛化性能。
Apr, 2023
为了解决使用强化学习解决任务问题,首先需要将任务的目标形式化为一个奖励函数。然而,对于许多实际任务来说,手动指定一个从不激励不良行为的奖励函数是非常困难的。因此,越来越流行使用奖励学习算法,试图从数据中学习奖励函数。但是,奖励学习的理论基础尚未完善。本文提出了一种解决这个问题的方法,即一类称为STARC(标准化奖励比较)度量的伪度量。我们证明STARC度量对最坏情况遗憾值有上界和下界,这意味着我们的度量是紧密的,并且具有相同属性的任何度量都必须与我们的度量等价。此外,我们还发现了早期作品中提出的奖励度量的一些问题。最后,我们通过实证评估验证了我们的度量的实际效果。STARC度量可以使奖励学习算法的理论和实证分析更加容易和有原则。
Sep, 2023
本研究解决了强化学习中探索不足的问题,特别是在外部奖励稀少或缺失的环境中。通过利用预训练的基础模型,该研究提出了一种新颖的方法,强调发掘情节新颖性项在提高代理探索有效性方面的重要作用。实验结果表明,完整状态信息的内在模块显著提高了样本效率,并加速了学习过程,显示出基础模型的嵌入效果优于代理在训练期间构建的嵌入。
Oct, 2024