多智能体模仿学习：价值易得，遗憾难求

Jun, 2024

多智能体模仿学习：价值易得，遗憾难求

Multi-Agent Imitation Learning: Value is Easy, Regret is Hard

Jingwu Tang, Gokul Swamy, Fei Fang, Zhiwei Steven Wu

TL;DR协作学习中的多智能体模仿学习问题，以减小学习者和专家之间的价值差为目标，但无法保证对战略智能体的偏离具有鲁棒性。因此，研究了在马尔科夫博弈中以后悔差作为目标的代替方案，并提出了两种有效的方法来最小化后悔差。

Abstract

We study a multi-agent imitation learning (MAIL) problem where we take the perspective of a learner attempting to coordinate a group of agents based on demonstrations of an expert doing so. Most prior work in MAIL essentially reduces the problem to matching the behavior of the expert w

multi-agent imitation learning behavior matching strategic agents regret gap online convex optimization

发现论文，激发创造

多智能体合作学习系统的悔恨最小化算法

一个关于多智能体协同学习系统 (MACL) 的研究，重点探讨了序贯决策问题中低后悔率的学习算法对于通信网络设计的指导作用。

Oct, 2023

$\sqrt {n}$-Regret 算法在带有函数逼近和低 Bellman 等级的马尔可夫决策过程学习中的应用

本文提出了一种在线学习算法，即 Adaptive Value-function Elimination（AVE），用于大规模状态空间下的 Markov 决策过程（MDPs），形式化了 OLIVE 中的淘汰步骤为上下文乐队问题，从而在学习过程中实现了最优价值函数的学习和非常低的累积遗憾，这是首次在具有一般价值函数逼近的随机 MDPs 中以 Θ（√n）的累积遗憾结果呈现出增强学习。

Sep, 2019

网络学习和游戏中 LLM 代理的后悔案例研究

通过对大型语言模型代理在决策中的性能进行度量，我们提出通过性能指标 “遗憾” 在在线学习和博弈论的基准决策情景中研究它们的交互，以更好地了解这些交互环境中 LLM 代理的局限性。

Mar, 2024

无悔和奖励兼容的在线学习

本研究旨在应用赌注机制的类型建立算法，使学习算法对于观察到的事实的最佳专家后悔，并保证每个专家都以其真实信念的方式报告其每个事件的实现，从而实现在线学习环境中的学习。

Feb, 2020

未知马尔可夫博弈中的在线学习

本文研究未知马尔可夫博弈的在线学习问题以及提出了一种算法，实现了与后记中的最佳响应之间亚线性的最小化值的竞争。

Oct, 2020

超越价值函数差距：改进的基于实例的遗憾界限用于情节马尔可夫决策过程强化学习

为有限的 Merkov 决策过程中的强化学习提供了更好的基于间隙的遗憾度量方法。

Jul, 2021

逆因子化 Q-Learning 用于合作多智能体模仿学习

该论文提出了一种针对合作多智能体系统的新颖多智能体模仿学习算法，通过使用混合网络聚合分散的 Q 函数，实现了集中式学习，并在具有高度挑战性的竞争性和合作性多智能体游戏环境中进行了广泛实验，表明该算法相对于现有的多智能体模仿学习算法具有显著的有效性。

Oct, 2023

重复拍卖中的在线学习

该研究采用在线学习的方法，使用无差别反馈模型对 Vickrey 拍卖中的策略进行建模，对随机模型和对抗模型进行研究并设计相应的出价策略，为参与此类拍卖的竞标者提供了第一个完整的策略集。

Nov, 2015

一般和式马尔可夫博弈的遗憾最小化和均衡收敛

简而言之，本文提出了一种针对广义和博弈的、分散、计算高效的算法，其保证所有代理都使用时可以提供次线性遗憾保证，并且不需要代理之间的通信。该算法的主要观察结果是，通过马尔可夫游戏的在线学习基本上可以归结为一种加权遗憾最小化。

Jul, 2022

多智能体生成对抗模仿学习

本文提出了一种新的适用于多智能体环境的 Multi-Agent 模仿学习框架，它建立在广义反向强化学习的基础上，并引入了实用的多智能体演员 - 评论家算法。该方法可用于多个合作或竞争代理的高维环境中模仿复杂的行为。

Jul, 2018