学会合作：基于多智能体强化学习的多场景排名

WWWSep, 2018

学会合作：基于多智能体强化学习的多场景排名

Learning to Collaborate: Multi-Scenario Ranking via Multi-Agent Reinforcement Learning

Jun Feng, Heng Li, Minlie Huang, Shichen Liu, Wenwu Ou...

TL;DR本文提出了一种能够对多种不同场景中排名策略进行联合优化的多智能体模型，其中包括了一个通信组件、多个私有智能体以及一个中央协调者，并通过在线评估结果证明了该模型能够显著提高整体性能。

Abstract

Ranking is a fundamental and widely studied problem in scenarios such as search, advertising, and recommendation. However, joint optimization for multi-scenario ranking, which aims to improve the overall performance of several ranking strategies in different scenarios, is rather untouc

multi-scenario ranking cooperative optimization multi-agent model communication component online evaluation

发现论文，激发创造

基于多智能体强化学习的多方案组合优化广告推荐系统

本文探讨了使用多智能体强化学习在大型平台上进行多场景优化的问题，通过将搜索、推荐和广告等不同场景视为一种合作的、部分可观察的多智能体决策问题进行研究。我们引入了多智能体递归确定性策略梯度（MARDPG）算法，以共享目标对不同场景进行整合，并允许策略间的通信以提高整体性能。我们的结果表明，在点击率（CTR）、转化率和总销售额等指标上，我们的方法在实际环境中具有显著改进的效果。

Jul, 2024

全链路推荐

本研究提出了一种基于多智能体强化学习的方法（DeepChain），应用模型为基础的强化学习技术，以解决现有强化学习模型中针对多场景推荐问题的数据大量需求和奖励分配不均衡等难题。实验结果表明该框架具有较好的推荐效果。

Feb, 2019

用于部分可观察环境和有限通信的 R-MADDPG

本文介绍了一种使用深度循环多智能体演员 - 评论家框架（R-MADDPG）处理部分可观测设置和有限通信下多智能体协调的方法，并探究了循环效应对团队智能体表现和通信使用的影响。研究结果表明，该框架可以学习随时间变化的依赖关系，处理资源限制，并在智能体之间开发不同的通信模式。

Feb, 2020

多智能体演员 - 评论家在混合协作竞争环境下的应用

本文研究深度强化学习在多智能体领域的应用，提出一种基于演员 - 评论家方法的适应性策略，可成功学习需要多智能体协作的复杂策略，并通过使用每个智能体的策略集进行训练，得到了更强大、更健壮的策略。在合作和竞争场景中，我们的方法相比现有方法能够发现各种物理和信息协调策略。

Jun, 2017

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018

未知环境映射的异构多智能体强化学习

本文提出了一种基于 actor-critic 算法的多智能体学习方法，可以让一组异构代理学习无人机覆盖未知环境的分散控制策略，此方法可被应用于国家安全和紧急响应组织中以提高在危险区域中的情境感知能力。

Oct, 2020

情景依赖的因果影响基础下的合作多智能体强化学习

提出了一种名为 Situation-Dependent Causal Influence-Based Cooperative Multi-agent Reinforcement Learning (SCIC) 的新型多智能体强化学习算法，通过基于因果关系干预和条件互信息，探测特定情况下智能体间的因果影响，从而促进智能体之间的合作。实验结果表明与其他算法相比，该方法优于目前最先进的方法。

Dec, 2023

多智能体强化学习中协作新兴行为的衡量

本研究介绍了一种新方法，用于定量评估多智能体强化学习算法在连续空间任务中的协作能力，提供一个有用的训练信号来增强机器间和人机间的未来协作。

Jul, 2018

完全去中心化的合作多智能体强化学习：调查

该论文系统地回顾了两种全面分散设置下的全面分散方法，即最大化所有代理的共享奖励和最大化所有代理的个人奖励之和，并讨论了未来研究方向。

Jan, 2024

CM3：合作多目标多阶段多智能体强化学习

本文提出了一种名为 CM3 的结构，包括单个代理目标达成先于多个代理协作的学习过程和一种新的多目标多代理政策梯度，具有局部信任分配的信用功能。该结构在解决多个多目标多代理问题方面具有明显优势。

Sep, 2018