折扣强化学习不是优化问题

Oct, 2019

Discounted Reinforcement Learning Is Not an Optimization Problem

Abhishek Naik, Roshan Shariff, Niko Yasui, Hengshuai Yao, Richard S. Sutton

TL;DR折扣强化学习与函数逼近在连续任务的控制中本质上不兼容，无法通过常规优化表达，使用函数逼近时不存在最优策略。因此，我们鼓励研究者采用严格的优化方法，如最大化平均奖励，来解决连续任务的强化学习问题。

Abstract

discounted reinforcement learning is fundamentally incompatible with function approximation for control in continuing tasks. It is not an optimization problem in its usual formulation, so when using →

discounted reinforcement learning function approximation continuing tasks optimal policy average reward

发现论文，激发创造

延迟几何折扣：强化学习的另一种准则

通过推广折扣问题的公式，使用延迟目标函数家族解决通过强化学习问题中存在的样本低效和探索问题，并用所设计的算法成功地解决了硬的探索问题和改善了经典模拟机器人基准测试的样本效率。

Sep, 2022

强化学习中折扣因子的再思考：决策论方法

本篇论文通过引入可变的折扣因子，建立起广泛适用的序列决策模型，并构建了统一的强化学习、逆强化学习和基于偏好的强化学习模型，这一模型囊括了传统模型的所有情况，同时展现出更高的泛化能力。

Feb, 2019

使用平均和折扣奖励的多目标（深度）强化学习中学习公平策略

研究了如何在自主系统操作中考虑公平性，并提出一种基于深度强化学习的公平策略学习框架，应用于多个领域中，包括折扣回报和平均回报算法。

Aug, 2020

优化学习奖励函数的危险性：低训练误差并不能保证低后悔

通过数学证明，该论文指出学习到的奖励模型的预期测试误差越低，最差情况的后悔也越小，然而对于任意固定预期测试误差而言，存在着导致误差和后悔不匹配的现实数据分布，该问题即使在使用常见的强化学习方法中同样存在。因此，该论文的理论结果强调了开发衡量学习到奖励模型质量的新方法的重要性。

Jun, 2024

主动学习强化学习：一种随机最优控制方法

本文提供了一个应对强化学习的框架，解决了建模不确定性和计算成本高的问题，通过使用强化学习来解决随机动态规划方程，所得的强化学习控制器对多种类型的约束条件是安全的，并且可以主动学习建模不确定性，实现实时学习。通过模拟实例证明了提出方法的有效性。

Sep, 2023

如何折扣深度强化学习：走向新的动态策略

本文研究使用深度神经网络作为函数逼近器来解决逼近真实世界复杂度的强化学习问题。同时，我们探讨了折扣因子在深度 Q 网络（DQN）学习过程中所起的作用，实验结果表明在逐渐增加折扣因子值的情况下，可以显著降低 DQN 学习步骤的数量。当与变动的学习率一起使用时，其在多项实验中均优于原始 DQN，并将这一现象与神经网络在近似于动态规划设置中的不稳定性联系起来，同时描述了在学习过程中可能陷入局部最优解的可能性，从而将我们的讨论与探索 / 利用困境联系起来。

Dec, 2015

顺序任务设置中最小化局部遗憾的谬误

强化学习中，研究任务间具有变化时，通过最小化后悔累积可以实现更好的结果，即在每个任务中过度探索，尤其在任务之间出现重大变化时。

Mar, 2024

强化学习与控制的概率推断：教程与综述

该研究介绍了一种基于最大熵的强化学习或最优控制方法，该方法在确定性动力学和随机动力学方面分别相当于精确概率推断和变分推断，并探讨了相关算法和未来研究方向。

May, 2018

相当好的控制：何时近似解法比近似模型更好

现有的最优控制方法在处理真实系统中常遇到的复杂性（包括维度、过程误差、模型偏差和数据异质性）时遇到困难。最优控制方法通常寻求简化模型以适应，但何时适用于近似的、简化的模型的最优解胜过适用于更准确的模型的近似解尚未得到充分回答。深度强化学习（DRL）中的算法和计算进展为我们解决这些问题提供了可能性。DRL 方法迄今主要应用于游戏或机器人机械学中，在确切已知规则下运行。我们在没有了解或企图推断进程模型的情况下，展示了使用深度神经网络进行 DRL 算法的能力，成功近似求解了一个非线性三变量渔业模型的解（“策略函数” 或控制规则）。我们发现强化学习代理通过简化问题来获得可解释的控制规则。我们展示了 DRL 所获得的策略在渔业管理中既更具利润性，也更具可持续性，胜过了任何固定死亡率政策 —— 渔业管理中的标准政策家族。

Aug, 2023

安全强化学习的收敛策略优化

本研究探讨了安全强化学习问题与非线性函数逼近的关系，将策略优化作为同时考虑目标与限制的非凸问题，通过构建一系列局部替换非凸函数为凸二次函数的约束优化问题，证明了对这些问题求解，其解会收敛于原问题的稳定点；进一步将该算法应用于优化控制和多智能体安全强化学习问题，扩展了理论研究的范围。

Oct, 2019