高维奖励的离策略强化学习
本文介绍了利用统计估计回报分布的方法来设计和分析分布式强化学习算法,提出了一种新算法EDRL,同时介绍了ER-DQN,将EDRL应用在Atari-57游戏集上进行了评估。
Feb, 2019
通过提出一种新的变分推断形式,从环境交互中直接学习良好的奖励函数,并使用新的概率贝尔曼反演运算符,发展了一种离线策略算法来解决目标导向任务,该方法消除了手工制作奖励函数的需要,并对各种机械操纵和运动任务产生了有效的目标导向行为。
Apr, 2021
提出了一种适用于风险中性和风险厌恶领域的离线强化学习算法 CODAC,通过对预测收益分位数的度量来适应分布式强化学习,证明CODAC学习一个保守收益分布,并在机器人导航任务上成功地学习了风险厌恶策略,表现优于D4RL MuJoCo基准测试的方法。
Jul, 2021
我们提出了一个新颖的算法框架来进行分布式强化学习,基于学习回报分布的有限维均值嵌入。我们基于此框架推导出了几个新的动态规划和时间差分学习算法,提供了渐近收敛理论,并对算法在一套表格任务上的实证性能进行了研究。此外,我们展示了这种方法可以与深度强化学习简单地结合,获得一个在Arcade Learning Environment上改进了基线分布式方法的新的深度强化学习代理。
Dec, 2023
我们研究了分布式离策略评估的问题,提出了一种基于期望扩展统计距离的方法来估计回报分布,并介绍了一种名为Energy Bellman Residual Minimizer的方法。我们在对可实现性的假设下建立了EBRM估计器的有限样本误差界,并通过模拟实验和与其他方法的比较验证了我们方法的优越性。
Feb, 2024
在这篇论文中,我们证明了Distributional Reinforcement Learning (DistRL) 可以在具有函数逼近的一般环境中获得在线和离线强化学习的二阶上界。这些二阶上界是与回报方差相关的实例相关性上界,我们证明这些上界比以前已知的分布式强化学习小损失上界更为紧密。据我们所知,我们的结果是低秩MDP和离线强化学习的首个二阶上界。当专门针对上下文幕问题(一步强化学习问题)时,我们展示了基于分布式学习的乐观算法能够同时实现二阶最坏情况悔恨上界和二阶间隙依赖上界。我们还通过真实世界数据集在上下文幕问题中实证了DistRL 的优势。我们强调,我们使用DistRL 的分析相对简单,遵循面对不确定性的乐观主义的一般框架,不需要加权回归。我们的结果表明DistRL 是在一般强化学习环境中获得二阶上界的一个有前途的框架,进一步巩固了DistRL 的优势。
Feb, 2024
我们提出了一种新的算法,用于基于模型的分销式强化学习,经证明在逼近具有生成模型的回报分布方面是极小极大最优的(在对数因子上),解决了张等人(2023年)的一个悬而未决的问题。我们的分析为分销式强化学习的类别方法提供了新的理论结果,并引入了一种新的分销式贝尔曼方程——随机类别CDF贝尔曼方程,我们认为它具有独立的重要性。我们还提供了一个实验研究,比较了几种基于模型的分销式强化学习算法,其中对于实践者们有一些要点。
Feb, 2024
提出了一种不确定性感知的离线强化学习方法,同时解决了认知不确定性和环境随机性,能够学习风险规避策略并表征折扣累积奖励的整个分布。通过在风险敏感和风险中立基准测试中进行全面实验评估,证明了其卓越的性能。
Mar, 2024
在这篇论文中,我们研究了具有线性函数逼近的离线强化学习问题。我们的主要结构性假设是MDP具有低固有贝尔曼误差,这意味着线性值函数对于贪婪策略具有线性的贝尔曼备份。我们提供了一种计算效率高的算法,可以在数据集的单策略覆盖条件下成功,输出的策略价值至少等于数据集覆盖良好的任何策略的价值。即使在固有贝尔曼误差为0的情况下(称为线性贝尔曼完备性),我们的算法也能够在单策略覆盖下提供已知的第一个保证。在固有贝尔曼误差为正值的情况下,我们证明了我们算法的次最优误差与固有贝尔曼误差的平方根成比例。此外,我们证明了对于任何算法,我们无法改进次最优误差与固有贝尔曼误差平方根的比例关系。我们的下界与强化学习在错误建模情况下的许多其他设置形成对比,在那些设置中,通常可以获得与建模误差线性退化的性能。
Jun, 2024