多智体强化学习中基于状态的评论家的深入理解

Jan, 2022

多智体强化学习中基于状态的评论家的深入理解

A Deeper Understanding of State-Based Critics in Multi-Agent Reinforcement Learning

Xueguang Lyu, Andrea Baisero, Yuchen Xiao, Christopher Amato

TL;DR研究 centralized training 模式下 multi-agent reinforcement learning 中 state-based critics 策略评估方法可能引入的偏差和梯度方差，及对不同环境属性的影响。

Abstract

centralized training for Decentralized Execution, where training is done in a centralized offline fashion, has become a popular solution paradigm in multi-agent reinforcement learning. Many such methods take the

multi-agent reinforcement learning centralized training policy gradient state-based critics asymptotic guarantees

发现论文，激发创造

多智能体强化学习中集中式与分散式评论员的对比

本论文分析了中央化和去中央化的评分员方法，旨在提供评分员选择的更深层次理解并阐述算法设计者应考虑到评分员方法的优缺点。

Feb, 2021

使用双集中式评论家减少多智能体域中的高估偏差

本文介绍了一种使用双重集中式评论家的方法来解决多智能体协作任务中的值函数高估问题，并在六种混合合作竞争任务上进行了评估，结果显示比当前方法具有显著优势，同时还探讨了多智能体方法在高维机器人任务中的应用。

Oct, 2019

多智能体强化学习的演员 - 注意力 - 评论家模型

提出了一个基于 Actor-Critic 算法的多智能体强化学习算法，解决了多智能体场景下的信息筛选问题，可应用于大多数多智能体学习问题。

Oct, 2018

基于模型的元学习批判家对策略梯度的优化

针对强化学习中仍存在的新场景快速泛化的问题，该研究提出了一个元学习算法，通过对反梯度策略学习的评论家进行元学习来优化学习任务通用的代理。结果表明，该算法可以学习到接近真实 Q 值函数的评论家，使学到的评论家能够适应于新的任务和环境，并能用于学习新策略。

Apr, 2022

Actor-Critic 方法在离线强化学习中的可证实益处

提出了一种新的离线演员 - 评论家算法，结合了悲观主义原则，在演员策略的动作价值函数封闭的情况下，具有多个优点，并能够在计算上处理封闭的 Bellman 评估运算符。

Aug, 2021

多智能体强化学习的异步演员 - 评论家算法

该论文提出一种多代理演员 - 评论家方法，允许代理在异步环境中直接优化策略，以解决多代理系统中同步决策的问题，提高学习效率和性能。

Sep, 2022

同质化马尔可夫博弈的高效通信演员 - 评论方法

该论文研究了协作多智能体强化学习中的集中式训练和策略共享，提出了一种基于一致性的去中心化演员 - 评论家方法，以减少通信成本并保证收敛，从而有效地降低了训练时的通信成本。

Feb, 2022

潜在状态边际化：改善探索的低成本方法

本文介绍了一种称为 SMAC 的算法，它使用最大熵强化学习框架中的潜在变量策略来提高探索和稳健性能力，并在连续控制任务上进行实验验证。

Oct, 2022

完全分散式单时间尺度演员 - 评论家的有限时间分析

本文研究了分散式单时间尺度的演员 - 评论家算法，并利用线性近似展示了其样本复杂度为 $\tilde {\mathcal {O}}(\varepsilon^{-2})$, 与双循环实现相匹配。此外，我们提供了一种本地化的算法及其分析，并通过实验表明了我们的算法优于现有的分散式演员评论家算法。

Jun, 2022

图像字幕的自我批判 n 步训练

本文探讨了如何使用无参数评估器来估计图像字幕生成中的状态值，并使用重构的优势函数进行 N 步训练，这种方法相对于 MSCOCO 数据集上的序列级优势和参数化估值方法能够取得更好的性能表现。

Apr, 2019