有限时间收敛和演员 - 评论家多目标强化学习的样本复杂度

ICMLMay, 2024

有限时间收敛和演员 - 评论家多目标强化学习的样本复杂度

Finite-Time Convergence and Sample Complexity of Actor-Critic Multi-Objective Reinforcement Learning

Tianchen Zhou, FNU Hairi, Haibo Yang, Jia Liu, Tian Tong...

TL;DR该研究论文介绍了一种创新的演员 - 评论家算法 MOAC，用于解决多目标强化学习问题，并提供了有限时间帕累托平稳收敛和样本复杂度的分析，通过在冲突的奖励信号之间进行权衡来找到策略，解决了应用中普遍存在的多个潜在冲突目标的问题，并通过实验证实了该方法的有效性。

Abstract

reinforcement learning with multiple, potentially conflicting objectives is pervasive in real-world applications, while this problem remains theoretically under-explored. This paper tackles the multi-objective reinforce

reinforcement learning multi-objective reinforcement learning actor-critic algorithm pareto-stationary convergence sample complexity

发现论文，激发创造

多目标强化学习和策略适应的广义算法

提出了一种基于广义 Bellman 方程的多目标强化学习算法，该算法可通过极少量的样本快速适应新任务并生成最优策略。

Aug, 2019

通过广义策略改进优先级实现高样本效率的多目标学习

介绍了一种新的多目标强化学习算法，使用广义策略提升来定义优先级，实现了积极的学习策略，在学习中获得更高效的样本，通过使用 Dyna 样式的 MORL 方法识别先前经验最相关的特定代理偏好的策略以提高学习效率，并证明了算法始终收敛于一个有限步数的最优解，同时单调地提高其部分解决方案的质量。

Jan, 2023

多目标强化学习元学习

本文介绍了将多目标强化学习应用到连续控制问题中，通过元学习的方法探索可能的最优策略，以此来近似帕累托最优解并提高计算效率。作者在高自由度的控制问题中验证了该方法。

Nov, 2018

示范引导的多目标强化学习

利用先前示范、角重支持、自我演进机制和样本复杂度，我们引入了一种新型方法，即示范引导的多目标强化学习（DG-MORL），以解决多目标强化学习中从头开始训练策略的困难，并通过各种实验证明了 DG-MORL 在挑战性条件下的优越性、稳健性和有效性，同时提供了算法的样本复杂度上界。

Apr, 2024

多智能体自然演员 - 评论强化学习算法

本研究提出三种完全分散的自然 Actor Critic （MAN）算法，具有全局收敛性和在交通网络中降低平均拥堵率的实际应用。

Sep, 2021

Actor-Critic 方法在强化学习中的样本复杂度问题与函数近似

本研究提出了一种新的 Actor-Critic 算法变体，使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差，不论策略评估技术的选择，我们都能提供 Actor-Critic 算法的收敛速度，特别是当值函数采用线性函数近似且为连续状态和动作空间时，这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。

Oct, 2019

完全分散式单时间尺度演员 - 评论家的有限时间分析

本文研究了分散式单时间尺度的演员 - 评论家算法，并利用线性近似展示了其样本复杂度为 $\tilde {\mathcal {O}}(\varepsilon^{-2})$, 与双循环实现相匹配。此外，我们提供了一种本地化的算法及其分析，并通过实验表明了我们的算法优于现有的分散式演员评论家算法。

Jun, 2022

通过多层级演员 - 评论家算法在平均奖励强化学习中实现全局最优性无需混合时间预言机

通过引入多层渐进策略梯度估计方法，解决了在平均奖励增强学习中混合时间知识的依赖性问题，并取得了比之前的基于策略梯度方法（PPGAE）更高的奖励表现。

Mar, 2024

约束多目标强化学习的尺度不变梯度聚集

多目标强化学习中，为了满足预定义的约束条件，我们提出了一种新的算法 CoMOGA，将原始的约束优化问题转化为带有附加约束的优化问题，并确保转换后的约束与原始目标具有相同效果并不依赖于目标尺度。经实证评估，该方法在满足约束和保持目标尺度不变方面优于其他基线模型。

Mar, 2024

双重稳健离线演员 - 评论家算法：收敛和最优性

本文提出了一种新的基于 actor-critic 算法的离策略强化学习算法 DR-Off-PAC，通过利用已学习的干扰函数来降低估计误差并减少采样复杂度，同时采用单时间尺度结构，可以更加高效地实现一次更新。其中采用密度比方法来调整分布不匹配以稳定收敛，并且通过分析样本复杂度证明了算法渐进的收敛速率。

Feb, 2021