该论文研究了使用感知奖励函数的方法,以提供视觉任务的描述,使代理能够从基于原始像素而不是内部参数的奖励中进行学习。
Aug, 2016
稀疏奖励环境对于强化学习代理是具有挑战性的,本文提出了一种新的内在奖励,系统地量化探索行为并通过最大化代理路径的信息内容来促进状态覆盖,通过与其他探索性内在奖励技术(即好奇心驱动学习和随机网络蒸馏)进行比较,证明了该信息理论奖励具有高效探索,其在包括 Montezuma Revenge 在内的各种游戏中的表现优于其他方法。最后,我们提出了一种在离散压缩的潜在空间中最大化信息内容的扩展方法,提高了样本效率并推广到连续状态空间。
Oct, 2023
研究如何选择奖励函数以提高强化学习的学习速度,提出基于状态的奖励设计原则,并提出线性规划算法以最大化行动差距和最小化主观贴现;通过在表格环境中使用 Q 学习算法进行实验,表明设计奖励遵循一定的原则,如逐步增加接近目标奖励,可以加速学习。
May, 2022
利用深度模型学习中间视觉表示的抽象能力来从少量的演示序列中快速推断知觉奖励函数,以便在真实世界环境中使用强化学习智能体执行任务。
Dec, 2016
研究探讨奖励函数是否可以成为有用的学习知识中心,提出了一种可扩展的元梯度框架来学习多次体验中有用的内在奖励函数。通过实验证明,学习奖励函数可以捕获关于长期探索和开发的知识,并且可以应用于其他类型的智能体和环境动态的变化。
Dec, 2019
本文提出了一种基于 Intrinsic motivation 的强化学习方法,其奖励函数被定义为智能体状态与周围状态之间的互信息,实现了比以前的方法更好的效果,包括在没有任何任务奖励的情况下首次完成了 pick-and-place 任务。
Mar, 2021
这项研究探索了多个强化学习代理中的信息设计问题,提出了 Markov 信号博弈的概念,根据信号梯度和扩展服从约束开发算法,有效地解决了非稳定性和信息被忽略的挑战,并在各种混合动机任务中提供了更深入的计算经济学见解。
May, 2023
通过与用户交互,选择最能反映真实回报的问题来迭代 AI 代理的奖励函数设计,我们的方法优于 Inverse Reward Design,且可以推断非线性奖励函数,包括可解释的线性奖励函数。
Sep, 2018
使用基于贝叶斯模型的信息导向方法进行强化学习,通过最大化不同策略间回报差异的信息增益来选择专家反馈以提高政策性能。
Feb, 2021
通过使用双层目标的新框架,将辅助奖励与环境的主要奖励相结合,我们提供了一种集成设计者指定的启发式方法的鲁棒且有原则的方式,以解决现有方法的主要缺点,即使给出不对齐或指定不良的辅助奖励函数,也能始终导致高性能解决方案。