在马尔可夫决策过程中学习协作

Jan, 2019

Learning to Collaborate in Markov Decision Processes

Goran Radanovic, Rati Devidze, David C. Parkes, Adish Singla

TL;DR针对一个由两个代理解决协作任务的两代理 MDP 框架，设计一种在线学习算法，使得当第二代理以未知的方式适应其策略时，第一代理能够轻松成功协作，保证了算法的收敛速度，并证明了这种方式的必要性和适用性。

Abstract

We consider a two-agent mdp framework where agents repeatedly solve a task in a collaborative setting. We study the problem of designing a learning algorithm for the first agent (A1) that facilitates a successful

mdp learning algorithm non-stationarity online learning regret

发现论文，激发创造

具有延迟反馈的对抗性马尔可夫决策过程学习

本文研究了具有未知转换和拥有无限制延迟反馈的分集式马尔可夫决策过程的在线学习，表现出基于策略优化的新算法，在完全信息反馈下实现了接近最优的高概率后悔情况，同时也是第一个考虑具有延迟反馈的 MDP 的后悔最小化设置。

Dec, 2020

合作游戏的交互式逆强化学习

该研究探讨了如何设计自主智能体，使其在没有访问联合奖励函数的情况下能够有效地与潜在的次优合作伙伴进行合作。我们将这个问题建模为一个合作的、情节性的两个代理 Markov 决策过程。我们分析了该交互式两个代理场景中关于奖励函数的信息如何被获得，结果显示学习代理的策略对转移函数具有显著影响时，奖励函数可以被高效地学习。

Nov, 2021

对抗性马尔科夫决策过程中的在线凸优化

本文研究了在线学习在没有循环的马尔可夫决策过程中的应用，提出了基于熵正则化方法实现的在线算法并给出了 $\tilde {O}(L|X|\sqrt {|A|T})$ 的遗憾界，通过处理凸性能标准并改进之前的遗憾界，扩展了对抗性 MDP 模型，并可以更好地处理单个 episode 的损失。

May, 2019

对抗性在线多任务强化学习

在此篇文章中，我们考虑对抗性在线多任务强化学习设置，每一次多任务中学习者需要在未知的有限数量 K 的 MDP 模型中，在有限的时间内学习到最优策略并减小遗憾值。我们提出了一种将模型从众多任务中分离开来的方法，并证明了任意学习算法的遗憾下界为 Ω(K√DSAH) 和一类均匀 - 好的聚类 - 学习算法的样本复杂度下界为 Ω(K/λ²)。最后，我们提出了一种算法，通过聚类阶段的规定数量和学习阶段的学习率，获得了与 K 和 λ² 的相关性最优的样本复杂度保证和遗憾保证。

Jan, 2023

同时学习具有已知转移的随机和对抗式连续决策问题

研究如何使用该算法在 stochastic losses 和 adversarial losses 的情况下同时获得最佳表现，并提出了一种新的混合正则化器，它基于 Zimmert 等人（2019a、2019b）的最新工作，但对于对角线海森矩阵逆运算比较复杂。

Jun, 2020

学习未知马尔可夫决策过程：一种汤普森抽样方法

本文提出了一种基于贝叶斯的 Thompson Sampling 加持的动态时段算法 (TSDE)，尝试在无限的时间尺度内解决了一个学习未知 MDP 的问题，实现了很好的性能并达到了理论界限。

Sep, 2017

马尔科夫决策过程中基于对手选择转移概率分布的在线学习

研究了在转换概率分布和损失函数是对手选择并随时间变化时，如何学习具有有限状态和动作空间的马尔可夫决策过程问题。介绍了一种算法，如果转换概率满足均匀混合条件，则任何比较类中的策略的后悔增长为比赛轮数的平方根。只要比较类是多项式级别且我们可以为每个策略计算样本路径的期望值，我们的方法就是有效的。对于一般情况的后悔小的高效算法仍然是一个开放的问题。

Mar, 2013

社交网络上随机赌博机的协同学习

本文研究了协作在线学习的方法，特别关注于使用多臂老虎机游戏对社交网络中的一组代理进行协作的情况，并对其使用的不同算法进行了遗憾分析。我们发现，单个代理学习策略的自然扩展在网络设置下表现不佳，我们提出了一类策略，并证明其在网络环境中容易遭受大量遗憾。同时，我们也提出了基于网络结构的学习算法，并在拥有不同拓扑结构的网络上进行了实验。

Feb, 2016

通过策略优化缩小对抗性和随机 MDP 之间的差距

通过使用 APO-MVP 算法和基于动态规划和黑盒在线线性优化策略的策略优化，本文在对手强 Markov 决策过程中提出了一个新的追悔边界概念，并且通过估计优势函数以避免典型的占有度量工具，实现了对状态和动作空间大小的优化，使得算法易于实现。

Jul, 2024

多人随机博弈中的学习

本文研究多人随机博弈中同时学习的问题，通过生成算法获得相关均衡，包括 extensive-form correlated equilibrium 和普通 coarse correlated equilbrium，并提供了一些能够多项式时间内解决的特殊情况。

Oct, 2022