超越指数衰减求和：自动学习回报函数

May, 2019

超越指数衰减求和：自动学习回报函数

Beyond Exponentially Discounted Sum: Automatic Learning of Return Function

Yufei Wang, Qiwei Ye, Tie-Yan Liu

TL;DR本文研究如何改变回报函数的形式来增强学习最优策略，提出使用通用数学形式的回报函数，并通过元学习来以端到端的方式学习最优回报函数，在迷宫环境和多个 Atari 游戏上进行测试，实验结果清楚地表明了自动学习最优回报函数在强化学习中的优越性。

Abstract

In reinforcement learning, Return, which is the weighted accumulated future rewards, and Value, which is the expected return, serve as the objective that guides the learning of the policy. In classic RL, return is defined as the exponentially discounted sum of future rewards. One key i

reinforcement learning return function meta-learning end-to-end optimal policy

发现论文，激发创造

元梯度强化学习

通过梯度元学习算法能够在线交互并学习环境，适应 return 的性质，进而在 Atari 2600 的 57 个游戏中达到了最新的的最优表现。

May, 2018

强化学习的参数回报密度估计

本文介绍了一种用于处理统一风险管理目的的参数化收益率密度估计方法，以延伸 Bellman 方程，用 TD 学习算法估计未知环境中的收益率密度，最后用数值实验证明了该方法通过几种参数化密度估计算法实现风险敏感和稳健强化学习范式。

Mar, 2012

超越预期回报：在评估强化学习算法时考虑政策可复制性

研究表明，强化学习中存在噪音和随机性，现有的评估程序仅使用期望回报评估政策，限制其在比较政策和选择最佳权衡值方面的有效性。本研究通过推荐使用贝叶斯优化中的置信下界指标，为用户提供选择所需性能与重复性权衡的参数，并通过大量实验验证了这些指标的益处。

Dec, 2023

多时间跨度的双曲折扣与学习

本文研究强化学习的折扣问题，提出一种基于双曲贴现的 RL 代理，该代理简单有效且符合实验结果；同时发现通过学习多个时间跨度的价值函数可以提高价值型 RL 代理的性能。

Feb, 2019

粒子价值函数

本文介绍从经济学和控制学文献中借鉴的风险敏感价值函数及其对粒子值函数的引入，探讨这些函数对于强化学习问题的应用，以及在 Cliffworld 场景中评估政策梯度的效益。

Mar, 2017

马尔可夫决策过程中的超越平均回报

马尔可夫决策过程中，奖励的功能有哪些可以精确计算和优化？我们总结了策略评估相关类的特性，给出了规划问题的新解答。同时，我们证明了只有广义平均数能够被精确优化，即使在分布式强化学习的更通用框架下也是如此。这些结果为推进马尔可夫决策过程的理论发展做出了贡献，尤其关注回报的整体特征和风险感知策略。

Oct, 2023

学习内在奖励能够捕捉什么？

研究探讨奖励函数是否可以成为有用的学习知识中心，提出了一种可扩展的元梯度框架来学习多次体验中有用的内在奖励函数。通过实验证明，学习奖励函数可以捕获关于长期探索和开发的知识，并且可以应用于其他类型的智能体和环境动态的变化。

Dec, 2019

延迟几何折扣：强化学习的另一种准则

通过推广折扣问题的公式，使用延迟目标函数家族解决通过强化学习问题中存在的样本低效和探索问题，并用所设计的算法成功地解决了硬的探索问题和改善了经典模拟机器人基准测试的样本效率。

Sep, 2022

折现因子的泰勒展开

本研究探讨了在实际强化学习中，用于估计价值函数的贴现因子与用于定义评估目标的贴现因子之间的差异对学习的影响，并发现了一族目标，可以插值两个不同贴现因子的价值函数。实验表明，使用这种框架可以提高价值函数的估计效果和策略优化更新效果，并且还提供了新的深度强化学习启发式修改策略优化算法的见解。

Jun, 2021

价值驱动的后见之明建模

本文提出了利用表征学习中的先验信息直接进行值函数预测的方法，即结合模型学习和模型自由方法的优势，确定哪些未来轨迹特征提供有用信息，从而为任务提供可操作的预测目标，加速值函数的学习。

Feb, 2020