多行为策略下的分布式策略评估

Dec, 2013

Distributed Policy Evaluation Under Multiple Behavior Strategies

Sergio Valcarcel Macua, Jianshu Chen, Santiago Zazo, Ali H. Sayed

TL;DR采用扩散策略，将全分布式协作强化学习算法应用于分布式网络，实现仅与直接相邻的智能体通信以改进他们对环境的预测能力，具有线性计算时间和内存占用的高效分布式策略，可应用于离线学习和连续学习，以减少预测误差的偏差和方差，实现全局最优解的学习。

Abstract

We apply diffusion strategies to develop a fully-distributed cooperative reinforcement learning algorithm in which agents in a network communicate only with their immediate neighbors to improve predictions about their environment. The algorithm can also be applied to →

fully-distributed cooperative reinforcement learning diffusion strategies off-policy learning continuous learning cooperation

发现论文，激发创造

扩散策略下的分布式帕累托优化

本文探讨如何通过协作和学习代理的网络以分布式方式解决多目标优化问题，提出了一种基于自适应扩散策略的分布式解决方案，并研究了代理人收敛于 Pareto 最优解以及其与不动点之间的关系，为金融领域中代理人网络的协作决策提供了一个应用实例。

Aug, 2012

$QD$-Learning: 一种多智能体强化学习的合作式分布式策略，通过共识 + 创新实现

该论文研究了一类多智能体马尔可夫决策过程，在其中，网络代理对全局可控状态和远程控制器的控制行为有不同的响应。在没有全局状态转移和本地代理成本统计信息之前，论文探讨了一种分布式强化学习设置，并提出了一种分布式版本的 Q-learning 方法来实现网络目标。通过稀疏（可能随机）通信网络上的局部处理和信息交流，实现了代理协作。在只知道其本地在线成本数据和代理之间的弱连接通信网络的假设下，提出的分布式方案在几乎确定的情况下被证明会渐进性地实现各个网络层面上的期望值函数和最优静止控制策略。所开发的分析技术可用于处理交互分布式方案导致的混合时间尺度随机动态的 “共识 + 创新” 形式，这些技术对独立的利益具有重要意义。

Apr, 2012

面向分散网络系统的可扩展基于模型的策略优化

本文旨在提高多智能体控制的数据效率，采用基于模型的学习方式，通过多个代理通过本地通信进行合作完成任务，实现分散的基于模型的策略优化框架，提出了扩展的价值函数，理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似，并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。

Jul, 2022

通过扩散行为对得分正则化策略优化

我们提出了一种从评论家模型和预训练的扩散行为模型中有效地提取确定性推理策略的方法，利用后者在优化过程中直接规范化行为分布的评分函数，从而在训练和评估期间完全避免计算密集型和耗时的扩散采样方案，扩散建模的强大生成能力使我们的方法在 D4RL 任务上将行动采样速度提高了 25 倍以上，同时仍保持着最先进的性能。

Oct, 2023

合作多智体强化学习的共识学习

本研究提出了一种协作多智能体强化学习的共识学习方法，通过基于本地观察的共识学习，在分散式执行期间将推断出来的共识明确地作为智能体网络的输入，从而发展他们的合作精神，并在若干完全合作任务上获得了令人信服的结果。

Jun, 2022

分布式强化学习的多智能体离线演员 - 评论家算法

本研究将离线策略强化学习拓展至多智能体情景中，并利用强调时间差分学习来评估和提高目标策略的协作效应，进而提出了一种新的多智能体离线策略演员 - 评论家算法，并证明了收敛性。

Mar, 2019

通过对策略分布进行建模的迁移学习

探究并适应新任务在传递学习设置中是强化学习中的一个核心挑战。针对该问题，我们利用在贝叶斯深度强化学习模式下模拟策略分布的想法提出了一种传输策略。我们通过在完全可见的 GridWorld 和部分可见的 MiniGrid 环境中展示有利的实验结果来支持我们的假设。

Jun, 2019

网络分布式优化与学习的扩散自适应策略

我们提出了自适应扩散机制，以分布式方式优化全局代价函数，并将其应用于分布式估计和定位问题。

Oct, 2011

多智能体系统的全分散策略：信息理论方法

本文提出了基于信息论的速率畸变理论框架，它使得我们能够分析完全分散的政策能够重构最优解的程度，同时，该框架提供了自然的扩展解决了一个代理应该与哪些节点通信以提高其个体策略的性能的问题。

Jul, 2017

众多战略代理系统中的分散式学习

我们提出了一种计算多智能体系统中闭环最优策略的方法，并证明了在拥有无限个智能体的系统中成功收敛到最优行为，而且我们的方法具有完全分散的特性，能够在经济和控制理论中的实际应用中收敛到纳什均衡策略。

Mar, 2018