学习策略梯度方法的内部奖励
本文通过在一个类似于赌博机的并行学习测试平台中比较 14 个不同的回报机制,探索并比较不同的内在回报机制,重点突出了奖励和预测学习器之间的交互作用和内省预测学习器的重要性。结果表明,基于学习量的内在奖励可以生成有用的行为,如果每个学习器是内省的。
Jun, 2019
研究探讨奖励函数是否可以成为有用的学习知识中心,提出了一种可扩展的元梯度框架来学习多次体验中有用的内在奖励函数。通过实验证明,学习奖励函数可以捕获关于长期探索和开发的知识,并且可以应用于其他类型的智能体和环境动态的变化。
Dec, 2019
本文提出了一种基于动机的奖励设计方法,自动生成目标一致的内在奖励,以最大程度地增大期望的累积外在奖励,该方法在处理延迟奖励、探索和信用分配问题方面优于现有方法。
Jul, 2022
该研究提出了一种名为 EIPO 的优化策略,通过自动调整内在奖励的重要性来平衡任务奖励和内在奖励的关系,以获得最佳探索结果。经过在 61 个 ATARI 游戏中的测试,表现优异。
Nov, 2022
本文提出了一种新的无监督学习方法,名为具有内在动机的目标导向策略(GPIM)。通过将抽象级别的策略与目标条件策略联合学习,本方法在各种机器人任务中证明了其有效性和高效性,大大优于先前的技术。
Apr, 2021
该论文介绍了一种为多智能体设计内在奖励的框架,以促进协调探索,然后开发了一种方法来学习如何动态选择若干探索方式以最大化外在奖励。通过在具有稀疏奖励的合作域和需要改变协调模式的具有挑战性的多阶段任务中进行实验证明了该方法的有效性。
May, 2019
在复杂环境中,由于设计和注释的高人力成本,外部奖励通常无法满足需求,这强调了内在奖励的必要性,通过提供辅助和密集的信号使代理能够无监督学习。本研究引入了一个统一的、高度模块化且可插拔的框架 RLeXplore,提供了八种先进内在奖励算法的可靠实现,并通过深入研究确定了关键的实现细节和合理的标准实践,填补了相关领域的研究空白。
May, 2024
本文提出一种新的内在奖励方式,鼓励机器人采取能够导致其学习的状态表示发生显著变化的行动,这种方法在稀疏回报和面向过程环境中的探索中更加高效。
Feb, 2020
本文提出将内在动机与模仿学习相结合来优化探索行为,以解决在广泛应用的问题中由于奖励信号过于稀疏所带来的挑战,同时证明了在过程生成环境中,该方法可以取得优异的性能和更好的泛化能力,效率同等或更高。
Nov, 2022