MA4DIV：多智能体强化学习用于搜索结果多样化

Mar, 2024

MA4DIV：多智能体强化学习用于搜索结果多样化

MA4DIV: Multi-Agent Reinforcement Learning for Search Result Diversification

Yiqun Chen, Jiaxin Mao, Yi Zhang, Dehong MA, Long Xia...

TL;DR多智能体强化学习方法 MA4DIV 能够在搜索结果多样化过程中直接优化多样性指标，并在合作任务中实现高效培训，并在工业规模数据集上实现了比现有基线方法更高的效果和效率提升。

Abstract

The objective of search result diversification (SRD) is to ensure that selected documents cover as many different subtopics as possible. Existing methods primarily utilize a paradigm of "greedy selection", i.e., selecting one document with the highest diversity score at a time. These a

search result diversification multi-agent reinforcement learning ma4div cooperative task diversity metrics

发现论文，激发创造

共享多智能体强化学习中的多样性庆祝

本研究介绍了多智能体强化学习中多样性的重要性，并提出了信息理论正则化和共享神经网络架构中的代理特定模块的方法，以促进代理之间的协作和多样性，实验结果表明该方法在 Google Research Football 和超难的星际争霸 II 微观管理任务上取得了最先进的表现。

Jun, 2021

基于多智能体强化学习的多方案组合优化广告推荐系统

本文探讨了使用多智能体强化学习在大型平台上进行多场景优化的问题，通过将搜索、推荐和广告等不同场景视为一种合作的、部分可观察的多智能体决策问题进行研究。我们引入了多智能体递归确定性策略梯度（MARDPG）算法，以共享目标对不同场景进行整合，并允许策略间的通信以提高整体性能。我们的结果表明，在点击率（CTR）、转化率和总销售额等指标上，我们的方法在实际环境中具有显著改进的效果。

Jul, 2024

多智能体强化学习中的行为多样性控制

多智能体强化学习中行为多样性的研究是一个新兴且有潜力的领域。本研究提出了一种名为 DiCo 的多样性控制方法，通过在策略架构中应用约束，能够在不改变学习目标的情况下精确控制多样性，从而增加多智能体强化学习算法的性能和样本利用率。

May, 2024

多智能体强化学习中的策略蒸馏与价值匹配

本文提出了一种多智能体 Actor-Critic 算法，通过分解多智能体问题以及知识蒸馏和价值匹配等方法，使智能体之间能够共享信息并解决维度灾难问题，进而在离散和连续动作空间中实现更好的性能。

Mar, 2019

通过测量合作多智能体 RL 中角色多样性进行策略诊断

通过量化角色多样性作为度量多智能体任务特征的因素，我们发现，MARL 中的误差限可以分解为 3 个部分，并且这些分解因素对 3 个热门方向的政策优化具有显著影响，通过 MPE 和 SMAC 平台的实验验证，角色多样性可以作为多智能体协作任务特征的强劲度量，并帮助诊断政策是否适合当前的多智能体系统以实现更好的性能。

Jun, 2022

合作智能体的政策多样性

标准的多智能体强化学习方法旨在找到完成任务的最优团队合作策略。然而，在不同的合作方式中可能存在多种选择，这往往极大地增加了领域专家的任务复杂性。因此，我们提出了一种名为 Moment-Matching Policy Diversity 的方法，该方法通过形式化不同策略所选智能体的行为差异来生成不同的团队策略。理论上，我们证明了该方法是通过使用最大均值差异来实现约束优化问题的简单方式。我们的方法的有效性在一个具有挑战性的基于团队的射击游戏中得到了验证。

Aug, 2023

合作多智能体深度强化学习综述

本综述文章探讨了最新的多智能体强化学习算法，特别关注建模和解决合作多智能体强化学习问题的五种常见方法，以及 MARL 在真实世界应用中的成功，并提供了可用于 MARL 研究的环境列表和可能的研究方向。

Aug, 2019

合作任务中的多智能体深度强化学习算法评估

本研究提供一个系统化的评估来比较三种不同类别的多智能体深度强化学习算法（独立学习、集中式多智能体策略梯度、价值分解）在多样化的合作多智能体学习任务中的表现，为算法在不同学习任务中的预期性能提供参考，并提供了有关不同学习方法有效性的见解。我们开源了 EPyMARL，延伸了 PyMARL 代码库以包括其他算法，并允许对算法实现细节进行灵活配置，例如参数共享。最后，我们还开源了两个多智能体研究的环境，重点是在稀疏奖励下的协调。

Jun, 2020

最大和差异化，单调子模函数和动态更新

研究了一类问题，该问题的距离是一个度量，约束是一个 matroid 中的独立性，质量则由单调子模函数确定，多样性定义为 S 中物体之间的距离之和，提出了两种算法：基于基数约束的贪心算法和基于任意 matroid 约束的局部搜索算法，并证明了两种算法都达到了恒定的逼近比。

Mar, 2012

基于最大边际相关性引导的强化学习的多文档摘要

提出了 RL-MMR，一种将最大边际相关引导的强化学习与传统多文档摘要统计测量方法相结合的方法，以解决多文档摘要中的搜索空间问题和信息冗余问题，取得了最佳表现。

Sep, 2020