可证明自我对弈算法用于竞争性强化学习

ICMLFeb, 2020

可证明自我对弈算法用于竞争性强化学习

Provable Self-Play Algorithms for Competitive Reinforcement Learning

Yu Bai, Chi Jin

TL;DR研究自博弈算法在 Markov 游戏中的应用，提出了 Value Iteration with Upper/Lower Confidence Bound (VI-ULCB) 算法和探索 - 开采算法，并证明了其在策略最佳化中的有效性和高样本利用率。

Abstract

self-play, where the algorithm learns by playing against itself without requiring any direct supervision, has become the new weapon in modern reinforcement learning (RL) for achieving superhuman performance in pr

self-play reinforcement learning markov games regret sample-efficient

发现论文，激发创造

使用自我博弈的近乎最优强化学习

本文提出了楽观的 Nash Q-learning 算法，并使用了新的 Nash V-learning 算法，解决了在马尔可夫博弈环境中的奖励学习优化问题，且这个算法的采样复杂度比现有算法还要低.

Jun, 2020

基于模型的自我对弈强化学习的严密分析

本文针对多智能体马尔科夫博弈提出了一种基于模型的算法 Nash-VI，在理论上证明其具有较高的样本利用率，并且在实验中证明了其优于现有的基于模型的方法和一些基于无模型的算法，输出单个 Markov 策略且易于存储和执行。

Oct, 2020

使用经验伯恩斯坦不等式的近乎最优乐观强化学习

本研究提出了一种基于方差置信区间的简单算法 UCRL-V，能够有效降低在未知有限通信 MDP 中的最优遗憾，并在多种环境下的实验证明 UCRL-V 算法优于现有算法。

May, 2019

上置信强化学习中的探索优化

UCRL3 算法是在 UCRL2 算法的基础上引入了专业时间均匀集中不等式和每个状态 - 动作对奖励和转移分布的置信区间等改进，以减少探索来优化分布，理论上改善了 UCRL2 算法，在标准环境下的数值实验也证明了 UCRL3 算法的实用性和有效性。

Apr, 2020

自适应约束下的自训练近最优强化学习

多智能体强化学习中，通过引入自适应约束，我们设计一种基于消除的算法，在低批次复杂度下实现了对马尔可夫博弈的极小后悔，并且证明了匹配上界的批次复杂度下限，进一步地在理解低适应性的多智能体强化学习方面提供了首个一系列结果。

Feb, 2024

排序奖励：为组合优化实现自我对弈强化学习

本文介绍了一个名为 Ranked Reward（R2）的算法，它能够将敌对自我博弈用于单人游戏，并将其应用于维度为 2 和 3 的装箱问题，证明该算法胜过基本的蒙特卡罗搜索、启发式算法、整数规划求解器，并对排名奖励机制进行了分析。

Jul, 2018

Q 学习是否可以被有效证明？

该研究论文探讨了模型无关的强化学习算法的样本效率问题，证明了 Q-learning 与 UCB 探索策略可以实现最优的样本效率，且无需模拟器，达到了根据有限状态和动作数量计算得到的仅有单一 $\sqrt {H}$ 因子的遗憾率。

Jul, 2018

使用通用价值函数逼近进行强化学习中的随机探索

提出了一种无模型强化学习算法，由于乐观原则和最小二乘价值迭代算法的启示，通过简单地使用谨慎选择的独立同分布的标量噪声扰乱训练数据来推动探索，在估计乐观值函数的同时引入了一种乐观的奖励采样过程，并证明了当数值函数可由函数类 \mathcal {F} 表示时，该算法实现了最坏情况下的遗憾度量边界，并在已知的难度探索任务上进行了实证评估。

Jun, 2021

可证明的无需重制强化学习算法

提出了一种重置免费的强化学习算法，将重置免费 RL 转化为两个玩家的博弈，以达到次线性性能失误和次线性重置总数。此外，提出的线性马尔可夫决策过程实例是第一个经过证明的重置免费 RL 算法。

Jan, 2023

通过自我博弈学习多智能体协商

这篇论文通过深度强化学习中的自我对战迭代程序展示了如何创建越来越多样化的交通场景并学习多智能体协作策略提高合并操作成功率。

Jan, 2020