二十一点游戏中强化学习表现的变化

Aug, 2023

二十一点游戏中强化学习表现的变化

Variations on the Reinforcement Learning performance of Blackjack

Avish Buramdoyal, Tim Gebbie

TL;DR通过对 deck size 的影响，我们研究了黑杰克游戏中最佳策略和 q 学习算法的学习收敛速度。

Abstract

blackjack or "21" is a popular card-based game of chance and skill. The objective of the game is to win by obtaining a hand total higher than the dealer's without exceeding 21. The ideal blackjack strategy will m

blackjack optimal play q-learning deck size learning agent convergence

发现论文，激发创造

RLCard: 纸牌游戏中强化学习的工具包

RLCard 是一个用于扑克类游戏强化学习研究的开源工具包，旨在将强化学习和非完全信息游戏联系起来，推动在多个代理、大状态和动作空间以及稀疏奖励等领域的强化学习研究。

Oct, 2019

多阶段策略卡牌游戏的两阶段强化学习

这项研究介绍了一种针对《魔戒卡牌游戏》的两阶段强化学习策略，采用分阶段学习方法，通过在简化版本和完整的游戏环境中逐步学习，显著提高了人工智能代理在面对《魔戒卡牌游戏》的不可预测和具有挑战性的情境中的适应能力和表现。此外，论文还探讨了多智能体系统，其中不同的强化学习代理用于游戏的各个决策方面，并在一组 10,000 局随机游戏中实现了 78.5％的胜率提升。

Nov, 2023

多臂赌博机策略对深度循环强化学习的影响

使用深度递归 Q - 网络和多臂赌博策略，研究自主驾驶情景中平衡探索和利用的方法，以及部分可观测系统中预测方向盘的影响。

Oct, 2023

强化学习在针对对手目标下优化信用额度调整

本研究通过强化学习技术，使用离线学习策略，基于历史数据，针对银行问题，寻找最优信用卡额度调整策略，使用双 Q 学习代理可以优于其他策略，生成反映决策复杂性的最优决策策略，通过数据驱动方法而非仅仅依靠专家驱动系统进行决策。

Jun, 2023

教育中的强化学习：多臂赌博机方法

本研究通过上下文化和模拟累计奖励来解决教育上的干预建议问题，采用强化学习的代理模型结合混合学习方法，景点在线平台的自动化功能

Nov, 2022

赌徒问题及其延伸

分析了 Sutton 和 Barto（2018）中介绍的简单强化学习问题中赌徒问题的最优价值函数的确切公式，并发现它是分形的，并且是广义 Cantor 函数之一。

Dec, 2019

基于人口统计学的重复石头剪刀布作为多智能体强化学习基准

提出了一个基于 Rock, Paper, Scissors 游戏重复比赛及 43 个竞赛选手的基准测试，用于多智能体学习的基准测试，通过度量平均收益和可利用性来评估智能体的质量，并展示了多种机器学习方法的学习能力和推广能力，但最终输给了表现最好的机器人，为多智能体学习研究提供了机会。

Mar, 2023

强化学习在 2048 游戏中的应用

本论文针对 2048 游戏进行了深入的研究，提出了乐观时序差分学习等算法，并且发展了性能最好的学习型 2048 程序，同时探索了多个与 2048 有关的技术，包括元组网络集成学习，蒙特卡洛树搜索和深度强化学习。最后，本论文介绍了 2048 的教学应用，提出了教学设计，并对学生得到积极的反馈。

Dec, 2022

使用强化学习解决乌尔王宫游戏

本研究采用蒙特卡罗、Q 学习和预期 Sarsa 等不同的方法来训练智能体，学习下古老的策略性游戏乌尔王的最优策略，并表现出不错的结果和学习能力。其中，预期 Sarsa 在学习速度方面表现出色。

Aug, 2022

将强化学习应用于期权定价和对冲

该论文概述了最近在定价和对冲金融工具方面强化学习的最新进展，重点详细解释了 Halperin（2017）引入的 Q-Learning Black Scholes 方法，该方法将传统的 Black and Scholes（1973）模型与新颖的人工智能算法相结合，实现了完全无模型、数据驱动的期权定价和对冲。该论文还探讨了该算法在不同状态变量和欧式看跌期权场景下的表现。结果显示，该模型在不同波动率水平和对冲频率下是准确的估计器。此外，该方法在各种看跌期权价内外都表现出稳健的性能。最后，该算法考虑了比例交易成本，表明不同状态变量的统计特性对盈亏产生了不同的影响。

Oct, 2023