多行为策略下的分布式策略评估
本文探讨如何通过协作和学习代理的网络以分布式方式解决多目标优化问题,提出了一种基于自适应扩散策略的分布式解决方案,并研究了代理人收敛于 Pareto 最优解以及其与不动点之间的关系,为金融领域中代理人网络的协作决策提供了一个应用实例。
Aug, 2012
该论文研究了一类多智能体马尔可夫决策过程,在其中,网络代理对全局可控状态和远程控制器的控制行为有不同的响应。在没有全局状态转移和本地代理成本统计信息之前,论文探讨了一种分布式强化学习设置,并提出了一种分布式版本的 Q-learning 方法来实现网络目标。通过稀疏(可能随机)通信网络上的局部处理和信息交流,实现了代理协作。在只知道其本地在线成本数据和代理之间的弱连接通信网络的假设下,提出的分布式方案在几乎确定的情况下被证明会渐进性地实现各个网络层面上的期望值函数和最优静止控制策略。所开发的分析技术可用于处理交互分布式方案导致的混合时间尺度随机动态的 “共识 + 创新” 形式,这些技术对独立的利益具有重要意义。
Apr, 2012
本文旨在提高多智能体控制的数据效率,采用基于模型的学习方式,通过多个代理通过本地通信进行合作完成任务,实现分散的基于模型的策略优化框架,提出了扩展的价值函数,理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似,并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。
Jul, 2022
我们提出了一种从评论家模型和预训练的扩散行为模型中有效地提取确定性推理策略的方法,利用后者在优化过程中直接规范化行为分布的评分函数,从而在训练和评估期间完全避免计算密集型和耗时的扩散采样方案,扩散建模的强大生成能力使我们的方法在 D4RL 任务上将行动采样速度提高了 25 倍以上,同时仍保持着最先进的性能。
Oct, 2023
本研究提出了一种协作多智能体强化学习的共识学习方法,通过基于本地观察的共识学习,在分散式执行期间将推断出来的共识明确地作为智能体网络的输入,从而发展他们的合作精神,并在若干完全合作任务上获得了令人信服的结果。
Jun, 2022
本研究将离线策略强化学习拓展至多智能体情景中,并利用强调时间差分学习来评估和提高目标策略的协作效应,进而提出了一种新的多智能体离线策略演员 - 评论家算法,并证明了收敛性。
Mar, 2019
探究并适应新任务在传递学习设置中是强化学习中的一个核心挑战。针对该问题,我们利用在贝叶斯深度强化学习模式下模拟策略分布的想法提出了一种传输策略。我们通过在完全可见的 GridWorld 和部分可见的 MiniGrid 环境中展示有利的实验结果来支持我们的假设。
Jun, 2019
本文提出了基于信息论的速率畸变理论框架,它使得我们能够分析完全分散的政策能够重构最优解的程度,同时,该框架提供了自然的扩展解决了一个代理应该与哪些节点通信以提高其个体策略的性能的问题。
Jul, 2017
我们提出了一种计算多智能体系统中闭环最优策略的方法,并证明了在拥有无限个智能体的系统中成功收敛到最优行为,而且我们的方法具有完全分散的特性,能够在经济和控制理论中的实际应用中收敛到纳什均衡策略。
Mar, 2018