超越动态规划
本文提出了一种基于序列 / 筛选法的行动 - 值状态函数(Q 函数)来推导策略的置信区间以及递归更新估计策略及其价值估计器的 SequentiAl 值评估(SAVE)方法,以构建无限视野设置下策略价值的置信区间。在移动健康研究的数据集上进行了实验,结果表明强化学习算法有助于改善患者的健康状况。
Jan, 2020
研究了强化学习在连续时间和空间的设置下的应用,提出了购买力占据时间的概念,并进一步将其应用于策略梯度和 TRPO/PPO 方法中。通过数值实验,验证了此方法的有效性和优势。
May, 2023
传统上,强化学习集中于学习状态相关策略以解决闭环最优控制问题;本文提出了开环强化学习范式,通过学习固定行动序列,引入了三种新算法:一种鲁棒的基于模型的方法和两种高效的无模型方法。基于开环最优控制理论中的庞特里亚金原理,而非动态规划中的贝尔曼方程,我们提供了收敛性保证,并在振子摆起任务以及两个高维 MuJoCo 任务上通过实证评估展示了与现有基线方法相比显着的性能。
May, 2024
本文运用离散事件系统监控控制理论的概念,提出一种方法用于在有限状态的马尔可夫决策过程中,学习最优控制策略,并利用奖励机器的发展来处理状态限制。通过给定一个例子来阐明其应用性并在此设置中展示了仿真结果。
Jan, 2022
该研究探讨了具有连续状态和动作空间的离散时间贴现马尔可夫决策过程,并解决了从观察到的最优行为中推断成本函数的逆问题。研究首先考虑了完全掌握专家策略的情况,并通过使用职业度量、线性对偶和互补松弛条件来刻画逆问题的解集。为避免平凡解和不适当性,引入了自然线性标准化约束。这导致了一个无限维的线性可行性问题,并对其性质进行了深入分析。其次,采用线性函数逼近器和随机化方法,即场景方法和相关的概率可行性保证,为逆问题提供了 ε- 最优解。对于所需的近似精度,进一步讨论了样本复杂度。最后,针对只有有限一组专家示范和生成模型可供使用的更加现实的情况,给出了使用样本时产生的误差界限。
May, 2024
本文主要研究了无限时间视角下的 reach-avoid zero-sum 博弈问题,提出了基于收缩 Bellman backup 的价值函数和 Conservative Q-Learning 方法,求解约束条件下的到达目标集和控制策略的可行解。
Mar, 2022
该研究提出了首个离散时间无限时域金融指数跟踪问题的动态建模,解决了现有模型的局限性,具备考虑市场信息变量的时序动态性、计算交易成本、考虑跟踪误差和交易成本之间的权衡、有效利用长期数据等能力,并引入现金注入或提取的决策变量,通过 Banach 不动点迭代和深度强化学习方法解决了该模型并在综合实证研究中证明了该方法可以在追踪准确性方面超过基准方法,并通过现金提取策略获得额外收益的潜力。
Aug, 2023
本文将最近开发的策略镜像下降方法进行了实质性的推广以处理一般状态和行动空间下的强化学习(RL)问题,引入了新的方法将函数逼近与此方法相结合,从而完全不需要使用显式策略参数化。此外,还提出了一种新的政策对偶平均方法,其中可能可以应用更简单的函数逼近技术。在精确策略评估下,我们将这些方法应用于解决不同类别的 RL 问题,为这些方法的全局最优性或局部最优性建立线性收敛速度,探讨了逼近误差对这些方法在具有有限动作空间或连续动作空间的一般状态 RL 问题上的收敛的影响。据我们所知,这些算法框架的开发以及它们的收敛分析似乎是文献中新的。
Nov, 2022
本文提出了一种名为神经渐进对冲的框架,该框架在强化学习策略执行的在线阶段利用随机规划来确保对约束和风险为基础的目标的可行性,特别适用于序列资源分配问题等一些无法可扩展地强制执行常见资源约束条件的问题,实验证明该框架比起深度强化学习和其他基线方法更好地适应非平稳状态分布和约束条件,并具有易于实现和解释政策的优点。
Feb, 2022