竞技游戏离线虚构自我对弈

Feb, 2024

Offline Fictitious Self-Play for Competitive Games

Jingxiao Chen, Weiji Xie, Weinan Zhang, Yong yu, Ying Wen

TL;DR该研究介绍了 Off-FSP，这是第一个面向竞技游戏的实用无模型离线 RL 算法。通过调整固定数据集的权重以重要性采样的方式与各种对手进行模拟交互，学习最佳响应以及应用离线自我对弈学习框架，并进一步实现虚构自我对弈 (FSP) 以近似纳什均衡 (NE)，在部分覆盖的真实世界数据集中，我们的方法显示出通过融合任何单代理离线 RL 方法接近 NE 的潜力。在 Leduc Hold'em Poker 的实验证明了我们的方法与最先进的基准算法相比显著提高性能。

Abstract

offline reinforcement learning (RL) has received significant interest due to its ability to improve policies in previously collected datasets without online interactions. Despite its success in the single-agent setting, offline →

offline reinforcement learning multi-agent rl competitive games importance sampling fictitious self-play

发现论文，激发创造

不完美信息游戏中来自自我对弈的深度强化学习

本文介绍了一种可推广的终端到终端学习方法，结合了虚构自游戏和深度强化学习来学习近似 Nash 均衡。在 Leduc 扑克和真实规模的 Limit Texas Holdem 游戏中，NFSP 相比于传统强化学习方法，接近甚至超过了基于领域知识经验的超级算法。

Mar, 2016

ELF Mini-RTS 上的神经虚构自我对弈

本研究通过应用神经虚拟自我博弈（Neural Fictitious Self-Play，NFSP）和策略梯度强化学习方法，实现了在小型 RTS 游戏上寻找纳什均衡的目标，并且通过预先使用策略梯度自我博弈来预训练模型，成功提高 NFSP 的可扩展性。

Feb, 2019

离线均衡点寻找

我们提出了基于模型的框架来解决离线均衡点求解（OEF）问题，该框架可直接应用任何在线均衡点查找算法到 OEF 设置中，同时进行最小更改。 OEF-PSRO 和 OEF-CFR 构成了计算 Nash Equilibria（NEs）的两个广泛使用的算法的泛化，而 OEF-JPSRO 计算（粗糙）相关平衡点（（C）CEs）。我们还将行为克隆策略与模型策略相结合，以进一步提高性能并提供解决方案质量的理论保证。广泛的实验结果证明了我们的方法优于离线 RL 算法以及使用模型的方法解决 OEF 问题的重要性。

Jul, 2022

虚构交互：混合合作竞争游戏中全局纳什平衡的学习

该研究开发了一种新算法，名为 Fictitious Cross-Play（FXP），同时训练了基于自我博弈和交叉博弈的主策略和反应策略，并在矩阵游戏中证明了 FXP 能够收敛到全局纳什均衡点，而自我博弈方法则无法达到。

Oct, 2023

自博弈对抗评论家：可证明和可扩展的离线对齐语言模型

该研究探讨了将大型语言模型与离线喜好数据进行对齐的挑战，在特别关注强化学习从人类反馈中对齐的条件下。我们提出了一个新的离线偏好优化方法 SPAC，它通过自我对战来实现，灵感来自离线强化学习领域的平均悲观技术，将是第一个可证明且可扩展用于大规模应用的 LLM 对齐方法。我们在一款具有 Open LLM Leaderboard 评估的 7B Mistral 模型上对其收敛性进行了理论分析，并展示了其具有竞争性的实证性能。

Jun, 2024

利用离线数据进行在线强化学习

本文考虑了具有线性结构的 MDPs 的 FineTuneRL 设置，并开发了一种称为 FTPedel 的算法，用于结合脱机数据和在线 RL 以改进学习表现，结果证明了在线样本数的必要性以及在线 RL 和脱机数据结合的优越性，突出了在线 RL 和脱机 RL 之间的区别。

Nov, 2022

NeoRL: 一种近似于真实环境的离线强化学习基准

本文提出了一个名为 NeoRL 的近实际场景离线强化学习基准，对现有的离线 RL 算法进行了评估，并提出了应该将策略的性能与确定性行为策略版本相比较，从而在现实中实现 RL 技术应用的验证和部署。

Feb, 2021

S4RL：离线强化学习的惊人简单自监督

本文旨在通过对状态空间进行数据扩充来提高线下强化学习算法的泛化性能，并结合最先进的 Q-learning 技术，通过平滑学习到的状态 - 动作空间，实现在 MetaWorld 和 RoboSuite 等机器人学习环境以及 D4RL 数据集上显著的提升。

Mar, 2021

离线强化学习的极简主义方法

通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据，在保持简单性的同时，最大限度地提高了运行效率，从而实现了与现有离线 RL 算法相当的性能。

Jun, 2021

离线强化学习实践

此研究聚焦于离线强化学习，重点是离线学习方法的数据集属性和离线方法的成功相关性，实验证明离线 RL 的多样性和高回报的例子对于成功至关重要，并表明行为克隆仍然是竞争对手。

Nov, 2020