二十一点游戏中强化学习表现的变化
RLCard 是一个用于扑克类游戏强化学习研究的开源工具包,旨在将强化学习和非完全信息游戏联系起来,推动在多个代理、大状态和动作空间以及稀疏奖励等领域的强化学习研究。
Oct, 2019
这项研究介绍了一种针对《魔戒卡牌游戏》的两阶段强化学习策略,采用分阶段学习方法,通过在简化版本和完整的游戏环境中逐步学习,显著提高了人工智能代理在面对《魔戒卡牌游戏》的不可预测和具有挑战性的情境中的适应能力和表现。此外,论文还探讨了多智能体系统,其中不同的强化学习代理用于游戏的各个决策方面,并在一组 10,000 局随机游戏中实现了 78.5%的胜率提升。
Nov, 2023
本研究通过强化学习技术,使用离线学习策略,基于历史数据,针对银行问题,寻找最优信用卡额度调整策略,使用双 Q 学习代理可以优于其他策略,生成反映决策复杂性的最优决策策略,通过数据驱动方法而非仅仅依靠专家驱动系统进行决策。
Jun, 2023
提出了一个基于 Rock, Paper, Scissors 游戏重复比赛及 43 个竞赛选手的基准测试,用于多智能体学习的基准测试,通过度量平均收益和可利用性来评估智能体的质量,并展示了多种机器学习方法的学习能力和推广能力,但最终输给了表现最好的机器人,为多智能体学习研究提供了机会。
Mar, 2023
本论文针对 2048 游戏进行了深入的研究,提出了乐观时序差分学习等算法,并且发展了性能最好的学习型 2048 程序,同时探索了多个与 2048 有关的技术,包括元组网络集成学习,蒙特卡洛树搜索和深度强化学习。最后,本论文介绍了 2048 的教学应用,提出了教学设计,并对学生得到积极的反馈。
Dec, 2022
本研究采用蒙特卡罗、Q 学习和预期 Sarsa 等不同的方法来训练智能体,学习下古老的策略性游戏乌尔王的最优策略,并表现出不错的结果和学习能力。其中,预期 Sarsa 在学习速度方面表现出色。
Aug, 2022
该论文概述了最近在定价和对冲金融工具方面强化学习的最新进展,重点详细解释了 Halperin(2017)引入的 Q-Learning Black Scholes 方法,该方法将传统的 Black and Scholes(1973)模型与新颖的人工智能算法相结合,实现了完全无模型、数据驱动的期权定价和对冲。该论文还探讨了该算法在不同状态变量和欧式看跌期权场景下的表现。结果显示,该模型在不同波动率水平和对冲频率下是准确的估计器。此外,该方法在各种看跌期权价内外都表现出稳健的性能。最后,该算法考虑了比例交易成本,表明不同状态变量的统计特性对盈亏产生了不同的影响。
Oct, 2023