学会学习奖励函数对于让智能代理在现实世界中得以应用非常重要。本研究通过提出 Equivalent-Policy Invariant Comparison (EPIC) 距离,解决了评估学习奖励方法的难题。同时,提出了 Dynamics-Aware Reward Distance (DARD) 这个新的奖励伪度量,使得对于奖励函数的比较在奖励塑形领域能够更加可靠。实验表明,基于 DARD 的奖励比较方法不需要进行策略优化,且在应对学习奖励函数时比基线方法更具有预测性。
Jan, 2022
研究奖励学习中数据来源的可识别性,通过设计和选择数据来源,分析数据来源和后续任务的不变性,从而提高政策优化的性能
Mar, 2022
为了解决使用强化学习解决任务问题,首先需要将任务的目标形式化为一个奖励函数。然而,对于许多实际任务来说,手动指定一个从不激励不良行为的奖励函数是非常困难的。因此,越来越流行使用奖励学习算法,试图从数据中学习奖励函数。但是,奖励学习的理论基础尚未完善。本文提出了一种解决这个问题的方法,即一类称为 STARC(标准化奖励比较)度量的伪度量。我们证明 STARC 度量对最坏情况遗憾值有上界和下界,这意味着我们的度量是紧密的,并且具有相同属性的任何度量都必须与我们的度量等价。此外,我们还发现了早期作品中提出的奖励度量的一些问题。最后,我们通过实证评估验证了我们的度量的实际效果。STARC 度量可以使奖励学习算法的理论和实证分析更加容易和有原则。
Sep, 2023
通过引入 EPI-policy,该研究提出了一种新的强化学习策略,可在新环境中提取环境特定信息,并将其作为附加输入提高任务特定策略的性能,并基于转移预测能力的奖励函数进行学习。在新环境中,这种 EPI 策略比通常使用的策略泛化方法要有效得多。
Jul, 2019
本文中,研究了在序列决策任务中,优化奖励函数对于强化学习的性能具有重要意义,提出了一种适用于基于策略梯度的学习代理的学习内在奖励的算法,并在性能上对比了使用该方法的强化学习代理和仅使用外在奖励的代理。
Apr, 2018
通过与用户交互,选择最能反映真实回报的问题来迭代 AI 代理的奖励函数设计,我们的方法优于 Inverse Reward Design,且可以推断非线性奖励函数,包括可解释的线性奖励函数。
Sep, 2018
提出了一种名为 Inverse Preference Learning(IPL)的新算法,用于从离线偏好数据中学习奖励函数,该算法使用 Q 函数来代替学习得到的奖励函数,具有更高的参数效率和更少的算法超参数和学习网络参数。
May, 2023
本文提出使用扩散模型和奖励函数相结合的方式,在序列化决策任务中实现高效决策,使用神经网络参数化奖励函数,能够提高机器人的运动性能,并且可以推广到图像生成领域。
Jun, 2023
利用深度模型学习中间视觉表示的抽象能力来从少量的演示序列中快速推断知觉奖励函数,以便在真实世界环境中使用强化学习智能体执行任务。
Dec, 2016
该文提出了一个理论框架来探究奖励学习和相关最优实验设计问题,利用非参数函数来模拟奖励模型和策略,借助岭回归算法开展无渐进过度风险边界分析,以此解决最优实验设计问题。文中应用这个理论框架探究高斯过程赌博优化问题,与泊松核已有研究进行了比较。
Feb, 2023