非累计目标的强化学习

MMJul, 2023

Reinforcement Learning with Non-Cumulative Objective

Wei Cui, Wei Yu

TL;DR针对优化问题目标函数不能直接作为奖励和累计的情况，提出了一种基于 Bellman 最优条件下广义 Bellman 更新算法，其中使用一种广义操作代替原来 Bellman 更新规则中的求和操作。

Abstract

In reinforcement learning, the objective is almost always defined as a \emph{cumulative} function over the rewards along the process. However, there are many optimal control and →

reinforcement learning optimal control bellman optimality equation non-cumulative objectives markov decision process

发现论文，激发创造

可计算连续的强化学习目标是可 PAC 学习的

通过两个分析设置，在考虑样本复杂度和计算复杂度的情况下，证明了强化学习目标的 PAC 可学习性。给出了三个文献中以前未知的 PAC 可学习性的目标的应用，并证明了这些目标的 PAC - 可学习性。

Mar, 2023

深度强化学习邀请

通过将强化学习视为监督学习的一种推广，本文介绍了一个与经典强化学习教材不同的方法，使读者在了解基本的监督学习知识后能够理解类似于近端策略优化（PPO）的最新深度强化学习算法。

Dec, 2023

强化学习目标的一般视角

该论文提出了一种泛化的强化学习目标函数，其中包括标准的目标定义、扩展的 λ 回报版本和通过统一前两个版本提出的强化学习的目标函数，它可以高级地理解强化学习的目标，并连接一些广泛使用的强化学习技术（例如 TD (lambda) 和 GAE），这个目标函数可能适用于广泛的强化学习算法。

Jun, 2023

多目标强化学习与规划实用指南

本文为那些希望将多目标方法引入其研究的已经熟悉单目标强化学习和计划方法的研究人员以及在实践中遇到多目标决策问题的从业人员提供了一个解决复杂问题的指南，阐述了影响所需解决方案性质的因素，并通过示例说明了这些因素如何影响复杂问题的多目标决策系统的设计。

Mar, 2021

凸形强化学习中的常见假设挑战

本文针对凸强化学习中优化无限试验目标带来的近似误差问题展开研究，并指出这一问题将影响包括模仿学习在内的相关领域的方法和技术。

Feb, 2022

基于价值限制的无模型连续控制

提出了一种基于 Lagrangian relaxation 的约束强化学习方法，通过同时优化任务奖励和某些辅助成本来确保任务成功，展示了在连续控制基准任务、优化能量的四足动物运动任务以及实际机器人臂夹取任务上，该方法的有效性。

Feb, 2019

多目标强化学习中的福利与公正

本研究探讨了如何在多个目标之间实现公平的多目标强化学习，其中一个代理必须学习一种同时在矢量价值回报的多个维度上获得高回报的策略。我们采用期望福利最大化方法，通过某些非线性公平福利函数对长期累积回报的矢量进行建模。我们提供了 Q-learning 的新颖自适应方法，以学习为非线性福利函数进行优化。我们的算法可以被证明收敛，并且实验表明与线性标量化、最佳线性标量化混合或固定行动选择技术相比，在 Nash 社会福利目标方面，我们的方法表现出更好的效果。

Nov, 2022

多目标策略优化的分布式视角

本文提出了一种用于多目标强化学习的新算法，可以以一种无量纲的方式设置目标的偏好，并且通过学习行动分布和拟合参数策略来在高维实际机器人任务及模拟任务中展示了其有效性，从而找到一组非支配解空间。

May, 2020

解决贝尔曼方程的核损失

本文提出了一种新的损失函数，可以使用标准的梯度下降优化，避免了以往算法中需要双样本的问题，并可以与深度学习等函数类相结合，且在多个基准测试中表现可靠和有效。

May, 2019

C-Learning: 基于视野感知的累积可达性估计

本文提出了累积可达性函数的概念，以此解决强化学习中多目标达成的几个挑战，如高样本复杂性、仅学习单个目标达成方式、解决复杂运动规划任务等；而且，本方法能够在提供的规划水平下建议达成单个目标的多条路径，因此与当前领先的目标达成算法相比，在成功率、样本复杂性和路径优化等方面表现更好。

Nov, 2020