赌徒问题及其延伸
价值函数在强化学习和最优控制中是衡量代理人累积未来回报的关键指标,研究相邻状态的价值相似性以及价值函数的连续性具有重要意义。本文提供并验证了价值函数连续性的上界界限,并证明了在对底层系统有弱假设的情况下,价值函数总是 H"older 连续的,并且可以通过轻微扰动系统使非可微的价值函数变得可微。
Mar, 2024
通过假设每个回合的付出代表避免灾难的机会,我们提出了一种上下文匹配问题的变体,目标是尽量减少灾难的可能性,进而通过最大化付出的乘积来尽量避免灾难的总体机会。我们提供了一个算法,可以在时间范围增长时使后悔和对导师提问的频率都趋近于 0,假设有一个连续的 1D 状态空间和相对简单的付出函数。同时,我们提供了一个匹配的下界:在没有简单假设的情况下,任何算法要么持续寻求帮助,要么几乎肯定会造成灾难。最后,我们确定了将我们的算法推广到多维状态空间的关键障碍。
Feb, 2024
该论文研究了在更一般的平滑条件下使用 continuum-armed 摇臂赌博机优化未知的目标函数,包括优化 Lipschitz 连续的目标函数和具有 Besov 平滑性的目标函数,并在简单和累积后悔下导出了最小的极小值率。
Oct, 2020
本文针对强化学习中函数逼近问题的不同解决方式所带来的代理 - 环境边界界定问题,通过对 Fitted Q-Iteration 算法进行一个简单且新颖的边界不变量分析,解决了价值函数的定义不唯一的问题,并讨论了相关问题,如状态重置和蒙特卡罗树搜索等。
May, 2019
该文提出了一个理论框架来探究奖励学习和相关最优实验设计问题,利用非参数函数来模拟奖励模型和策略,借助岭回归算法开展无渐进过度风险边界分析,以此解决最优实验设计问题。文中应用这个理论框架探究高斯过程赌博优化问题,与泊松核已有研究进行了比较。
Feb, 2023
本研究基于王等人 2020 年提出的熵正则探索性扩散过程公式,研究了连续时间下的 Q 学习,构建了独立于时间离散化的 q 函数学习理论,并应用该理论设计了 actor-critic 算法来解决强化学习问题,同时通过模拟实验验证了算法性能。
Jul, 2022
本文主要研究了无限时间视角下的 reach-avoid zero-sum 博弈问题,提出了基于收缩 Bellman backup 的价值函数和 Conservative Q-Learning 方法,求解约束条件下的到达目标集和控制策略的可行解。
Mar, 2022