赌徒问题及其延伸

ICLRDec, 2019

The Gambler's Problem and Beyond

Baoxiang Wang, Shuai Li, Jiajin Li, Siu On Chan

TL;DR分析了 Sutton 和 Barto（2018）中介绍的简单强化学习问题中赌徒问题的最优价值函数的确切公式，并发现它是分形的，并且是广义 Cantor 函数之一。

Abstract

We analyze the gambler's problem, a simple reinforcement learning problem where the gambler has the chance to double or lose the bets until the target is reached. This is an early example introduced in the

reinforcement learning gambler's problem optimal value function fractal cantor functions

发现论文，激发创造

强化学习和最优控制中价值函数的连续性和光滑性

价值函数在强化学习和最优控制中是衡量代理人累积未来回报的关键指标，研究相邻状态的价值相似性以及价值函数的连续性具有重要意义。本文提供并验证了价值函数连续性的上界界限，并证明了在对底层系统有弱假设的情况下，价值函数总是 H"older 连续的，并且可以通过轻微扰动系统使非可微的价值函数变得可微。

Mar, 2024

通过寻求帮助避免连续空间中的灾难

通过假设每个回合的付出代表避免灾难的机会，我们提出了一种上下文匹配问题的变体，目标是尽量减少灾难的可能性，进而通过最大化付出的乘积来尽量避免灾难的总体机会。我们提供了一个算法，可以在时间范围增长时使后悔和对导师提问的频率都趋近于 0，假设有一个连续的 1D 状态空间和相对简单的付出函数。同时，我们提供了一个匹配的下界：在没有简单假设的情况下，任何算法要么持续寻求帮助，要么几乎肯定会造成灾难。最后，我们确定了将我们的算法推广到多维状态空间的关键障碍。

Feb, 2024

连续武装赌博机：函数空间视角

该论文研究了在更一般的平滑条件下使用 continuum-armed 摇臂赌博机优化未知的目标函数，包括优化 Lipschitz 连续的目标函数和具有 Besov 平滑性的目标函数，并在简单和累积后悔下导出了最小的极小值率。

Oct, 2020

关于价值函数和智能体 - 环境边界

本文针对强化学习中函数逼近问题的不同解决方式所带来的代理 - 环境边界界定问题，通过对 Fitted Q-Iteration 算法进行一个简单且新颖的边界不变量分析，解决了价值函数的定义不唯一的问题，并讨论了相关问题，如状态重置和蒙特卡罗树搜索等。

May, 2019

使用重复赌博区分风险偏好

从有限序列的重复赌博的观察选择中推测风险偏好的实际挑战是如何区分不同风险偏好的代理，并发现随着财富的增加，代理的风险偏好逐渐难以区分。

Aug, 2023

奖励学习作为双非参数赌博机：最佳设计和标度律

该文提出了一个理论框架来探究奖励学习和相关最优实验设计问题，利用非参数函数来模拟奖励模型和策略，借助岭回归算法开展无渐进过度风险边界分析，以此解决最优实验设计问题。文中应用这个理论框架探究高斯过程赌博优化问题，与泊松核已有研究进行了比较。

Feb, 2023

连续时间下的 q 学习

本研究基于王等人 2020 年提出的熵正则探索性扩散过程公式，研究了连续时间下的 Q 学习，构建了独立于时间离散化的 q 函数学习理论，并应用该理论设计了 actor-critic 算法来解决强化学习问题，同时通过模拟实验验证了算法性能。

Jul, 2022

利用深度强化学习进行无限时域达到 - 避免零和博弈

本文主要研究了无限时间视角下的 reach-avoid zero-sum 博弈问题，提出了基于收缩 Bellman backup 的价值函数和 Conservative Q-Learning 方法，求解约束条件下的到达目标集和控制策略的可行解。

Mar, 2022

解决贝尔曼方程的核损失

本文提出了一种新的损失函数，可以使用标准的梯度下降优化，避免了以往算法中需要双样本的问题，并可以与深度学习等函数类相结合，且在多个基准测试中表现可靠和有效。

May, 2019

二十一点游戏中强化学习表现的变化

通过对 deck size 的影响，我们研究了黑杰克游戏中最佳策略和 q 学习算法的学习收敛速度。

Aug, 2023