部分观察多智能体环境下的演员 - 评论家策略优化

Oct, 2018

部分观察多智能体环境下的演员 - 评论家策略优化

Actor-Critic Policy Optimization in Partially Observable Multiagent Environments

Sriram Srinivasan, Marc Lanctot, Vinicius Zambaldi, Julien Perolat, Karl Tuyls...

TL;DR本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Abstract

optimization of parameterized policies for reinforcement learning (RL) is an important and challenging problem in artificial intelligence. Among the most common approaches are algorithms based on gradient ascent

optimization reinforcement learning policy gradient multiagent learning adversarial sequential decision problems

发现论文，激发创造

多智能体演员 - 评论家在混合协作竞争环境下的应用

本文研究深度强化学习在多智能体领域的应用，提出一种基于演员 - 评论家方法的适应性策略，可成功学习需要多智能体协作的复杂策略，并通过使用每个智能体的策略集进行训练，得到了更强大、更健壮的策略。在合作和竞争场景中，我们的方法相比现有方法能够发现各种物理和信息协调策略。

Jun, 2017

可证明高效的部分可观测动态系统强化学习

通过提出一种新的基于双线性 Actor-Critic 框架的学习算法，该算法可以对部分可观察的动态系统进行部分可观察的强化学习，并且在特定的情形下（如欠完备的可观察性模型）具有较高的性能表现。

Jun, 2022

Actor-Critic 方法在强化学习中的样本复杂度问题与函数近似

本研究提出了一种新的 Actor-Critic 算法变体，使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差，不论策略评估技术的选择，我们都能提供 Actor-Critic 算法的收敛速度，特别是当值函数采用线性函数近似且为连续状态和动作空间时，这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。

Oct, 2019

用于有约束多任务强化学习的自然策略梯度和演员评论家方法

多任务强化学习研究了多个任务同时有效解决的单一策略的约束形式，在中心化和去中心化设置下分别考虑了服务器和代理之间的全局约束问题，并提出了基于原始 - 对偶算法和基于采样的演员 - 评论家算法来解决这一问题，并研究了线性函数逼近的泛化扩展。

May, 2024

部分可观测环境下的策略梯度：近似和收敛

本研究针对部分可观察环境进行了政策梯度算法的开发和分析，使用马尔可夫策略类，对于开发技术工具和分析算法的效果进行了评估并进行了理论拓展，为政策梯度算法在现实应用中的使用提供了新的认识。

Oct, 2018

具备函数逼近和理论保证的决策感知演员 - 评论家算法

我们设计了一个决策感知的联合目标来训练演员和评论家，以解决演员的最优目标与评论家的最小化 TD 误差目标不匹配的问题，并提出了一个通用的 Actor-critic 算法来处理任何函数逼近，在一些简单的赌博机示例中，我们证明了提出的评论家目标的好处。最后，我们在简单的 RL 问题上通过实验证明了决策感知的 Actor-critic 框架的好处。

May, 2023

政策优化中的乐观和适应性

本研究通过乐观性和适应性对政策优化进行强化，从而将看似无关的算法重新表述为两个交错步骤的重复应用，并设计了一种通过元梯度学习实现的自适应乐观政策梯度算法。

Jun, 2023

分布式强化学习的多智能体离线演员 - 评论家算法

本研究将离线策略强化学习拓展至多智能体情景中，并利用强调时间差分学习来评估和提高目标策略的协作效应，进而提出了一种新的多智能体离线策略演员 - 评论家算法，并证明了收敛性。

Mar, 2019

离策演员 - 评论家

本研究提出了一种在线的增量式 actor-critic 算法来应对现实生活中的多种问题，在采用 off-policy 学习和最新的 gradient temporal-difference 技术的同时，能够灵活地运用 policy 设计，具有较强的学习潜力和泛化性能，并能收敛至较好的算法性能。

May, 2012

最坏情况策略梯度

该研究提出了一种基于 Actor-Critic 框架和条件风险价值的深度强化学习方法，应用于驾驶模拟中，实现了在保证安全的前提下尽量提高任务完成效率，并且相比于其他深度强化学习方法，该方法更具有泛化性。

Nov, 2019