RLCard: 纸牌游戏中强化学习的工具包

AAAIOct, 2019

RLCard: 纸牌游戏中强化学习的工具包

RLCard: A Toolkit for Reinforcement Learning in Card Games

Daochen Zha, Kwei-Herng Lai, Yuanpu Cao, Songyi Huang, Ruzhe Wei...

TL;DRRLCard 是一个用于扑克类游戏强化学习研究的开源工具包，旨在将强化学习和非完全信息游戏联系起来，推动在多个代理、大状态和动作空间以及稀疏奖励等领域的强化学习研究。

Abstract

RLCard is an open-source toolkit for reinforcement learning research in card games. It supports various card environments with easy-to-use interfaces, including Blackjack, Leduc Hold'em, Texas Hold'em, UNO, Dou Dizhu and Mahjong. The goal of RLCard is to bridge →

reinforcement learning card games imperfect information games multiple agents sparse rewards

发现论文，激发创造

多阶段策略卡牌游戏的两阶段强化学习

这项研究介绍了一种针对《魔戒卡牌游戏》的两阶段强化学习策略，采用分阶段学习方法，通过在简化版本和完整的游戏环境中逐步学习，显著提高了人工智能代理在面对《魔戒卡牌游戏》的不可预测和具有挑战性的情境中的适应能力和表现。此外，论文还探讨了多智能体系统，其中不同的强化学习代理用于游戏的各个决策方面，并在一组 10,000 局随机游戏中实现了 78.5％的胜率提升。

Nov, 2023

OpenRL：一种统一的强化学习框架

OpenRL 是一个先进的强化学习框架，可以适应各种任务，从单智能体挑战到复杂的多智能体系统。它与自然语言处理（NLP）集成，使研究人员能够有效地处理强化学习训练和以语言为中心的任务的组合。通过借助 PyTorch 的功能，OpenRL 展示了模块化和以用户为中心的方法。它提供了一个简化用户体验的通用接口，适用于初学者，同时保持了专家所需的灵活性，以促进创新和算法开发。这种平衡增强了框架的实用性、适应性和可扩展性，树立了强化学习研究的新标准。

Dec, 2023

Karolos：一个开源的机器人任务强化学习框架

介绍了一个面向机器人应用的强化学习框架 Karolos，重点是转移场景、模块化环境架构和现有 RL 算法的实现，以及并行化环境的架构来加快实验速度。

Dec, 2022

Hearts Gym: 团队协作学习强化学习

在 COVID-19 疫情期间，本文作者为数据科学研究生组织了一门以强化学习（Reinforcement Learning, RL）为主题的课程，通过竞争式团队合作和实践操作活动，在最少的讲座背景下，构建了一个充满激情的学习体验，并对课程进行了定性评估。

Sep, 2022

二十一点游戏中强化学习表现的变化

通过对 deck size 的影响，我们研究了黑杰克游戏中最佳策略和 q 学习算法的学习收敛速度。

Aug, 2023

RLlib：分布式强化学习的抽象化

通过采用自上而下的分层控制算法，对 RL 组件进行可组合的分布式处理，RLlib 提供可扩展的软件基元，从而将并行性和资源需求封装在短暂的计算任务中，实现高性能、可扩展性和大量代码重用的广泛算法的实现。

Dec, 2017

CaiRL：高性能强化学习环境工具箱

本论文提出了 CaiRL 环境工具包作为一种有效、兼容性良好、可持续性更高的训练学习代理的替代方法，并提出了更高效环境模拟的方法，以解决当前强化学习工具包效率低下的问题。

Oct, 2022

学习击败 ByteRL：可收集卡牌游戏智能体的可利用性

通过对 ByteRL 在《法典传说》和《炉石传说》中的表现进行初步分析，我们发现这种技术在这类游戏中的可利用性很高。

Apr, 2024

JORLDY：一个完全可定制的强化学习开源框架

本文介绍了一种名为 JORLDY 的开源强化学习框架，提供了超过 20 种使用广泛的 RL 算法和多种 RL 环境，支持 PyTorch 平台，并支持算法组件自由定制，有助于推进 RL 领域的进一步发展。

Apr, 2022

面向外界开放的外科机器人强化学习环境

开发了第一个基于强化学习的外科手术机器人环境 ——dVRL，通过 RL 环境演示了在外科手术中实现自主机器人精准和协作问题的最新算法策略。

Mar, 2019