- ICU-Sepsis:基于真实医疗数据构建的基准 MDP
ICU-Sepsis 是一个用于评估强化学习算法的基准环境,可以模拟 ICU 中脓毒症患者的个性化护理。它是一个轻量级的表格 MDP 环境,适用于各种强化学习算法,并且具有挑战性,可用于评估其性能。
- 在线强化学习中的复位的力量
使用局部模拟器访问(或本地规划)的在线强化学习协议探索了模拟器在高维度域中的力量,并通过一个计算效率低的算法取得了具有低覆盖性的 MDPs 的有效学习和可追溯性,同时利用 RVFS 算法提供了在推进覆盖性的统计假设下的可靠样本复杂度保证。
- 可扩展的在线探索
探索是强化学习中的一个主要挑战,该研究提出了探索目标 —— 一种能够使任何奖励函数最大化的政策优化目标,作为一个概念框架来系统研究探索。在这个框架中,引入了一个新的目标 $L_1$-Coverage,它推广了以前的探索方案并支持三个基本的愿 - 全局收敛性:在平均奖励马尔可夫决策过程中的策略梯度
该研究报告首次提出了有限时间全局收敛分析方法,针对无限时间平均奖励马尔可夫决策过程中的策略梯度方法。具体而言,我们关注的是具有有限状态和动作空间的遍历型表格型马尔可夫决策过程。我们的分析表明,策略梯度迭代以 O (log (T)) 的子线性 - 基于局部李雅普诺夫条件的得分感知策略梯度方法与性能保证:应用于产品形式随机网络和排队系统
通过利用底层 MDP 的结构,引入了一种新的梯度估计器家族 ——SAGEs,它们可以在无需依赖于值函数估计的情况下估计策略梯度,相较于经典的 actor-critic 等策略梯度方法具有更快的收敛速度,并通过数值比较证明了其优越性。
- 使用经验分类训练非马尔可夫任务
我们提出了一种新颖的强化学习方法,用于实现基于 LTL$_f$(有限轨迹线性时态逻辑)的非马尔可夫奖励,通过 LTL$_f$ 到 MDPs(马尔可夫决策过程)的线性复杂度编码,利用自动机结构(与 LTL$_f$ 规范语义等价)的优先经验回放 - RLHF 是否比标准 RL 更困难?
这篇文章证明了,对于广泛的偏好模型,我们可以使用现有的算法和技术,直接解决基于偏好的强化学习问题,具有小的或没有额外成本。
- 基于模型的价值函数不确定性
在模型基强化学习中,我们考虑了如何量化累积奖励的不确定性,并提出了一种新的不确定 Bellman 方程来弥补现有工作的不足,该方法能够更准确地告诉我们此前探索的不足。实验表明,这种更精确的不确定性估计方法能够提高样本效率。
- 间歇可观察的马尔科夫决策过程
本文研究了在不稳定状态信息下的 MDP,提出了一种基于树组织结构和值迭代算法的有限状态近似方法来寻找最优策略。
- 低秩 MDP 中的密度特征强化学习
这篇论文研究了具有低秩转移矩阵的 MDPs,尤其是密度特征的样本高效学习,提出了一种算法来处理非勘探性数据的离线场景和逐层构建勘探数据分布的在线算法。
- 平均受限策略优化
本论文提出针对平均准则的受约束 MDPs 的一种新的(可能是第一种)策略优化算法 —— 平均约束策略优化(ACPO)算法,通过对平均 MDP 的基本灵敏度理论进行开发并在算法的设计中使用相应的界限,提供其性能的理论保证,并通过在各种具有挑战 - ICLR用于脱机策略评估的变分潜在分支模型
本篇论文探讨了利用变分潜在分支模型(VLBM)学习(行动)决策过程的转移函数,并通过轨迹模拟评估其性能,表明 VLBM 优于现有 OPE 方法。
- 运算分裂价值迭代
介绍一种基于近似环境模型的规划与强化学习算法,名为 Operator Splitting Value Iteration (OS-VI),能更快地达到收敛,同时提出了针对采样的版本 OS-Dyna 用于处理模型误差问题。
- 利用离线数据进行在线强化学习
本文考虑了具有线性结构的 MDPs 的 FineTuneRL 设置,并开发了一种称为 FTPedel 的算法,用于结合脱机数据和在线 RL 以改进学习表现,结果证明了在线样本数的必要性以及在线 RL 和脱机数据结合的优越性,突出了在线 RL - 解缠(非)可控特征
本文提出一种表示学习算法,该算法可以将隐含特征分解为可控和不可控两个部分,从而提高表示的可解释性并有效学习和规划。通过在三个不同的环境中展示该算法的分解性质,强调了该方法的优势。
- 元强化学习和贝叶斯优化设计生物序列
本文通过 MetaRLBO,提出了一种对于生物序列的加速设计方法,使用 Meta-Reinforcement Learning 训练自回归生成模型,以 Bayesian Optimization 为辅助选择出有前途的序列,获得较强的鲁棒性和 - 蒙特卡罗随机长度情节 MDPs 的 UCB 收敛性
通过使用 MC-UCB 算法,可以在一大类马尔可夫决策问题(包括像 Go 和黑杰克这样的) 中,使 Q 函数收敛到最优,从而改善强化学习的效果。
- 具可实现性和单策略集中性的离线强化学习
本文研究除去 Bellman-completeness 和 all-policy concentrability 强假设是否可以在两个因素上弱化假设,结果证明基于 MDPs 的原始 - 对偶算法可以实现针对单策略可集中性的多项式样本复杂度, - 同伦策略镜像下降:策略收敛,隐含正规化和改进样本复杂度
提出了一种新的策略梯度方法 —— 同伦策略镜像下降 (HPMD),用于解决具有有限状态和动作空间的折扣、无限时间 MDPs,并具有多种计算性质。该方法在全局和局部上均具有收敛性,并且能够在一定条件下证明和表征极限策略。同时,使用该方法可同时 - ICML稀疏奖励任务的最短路径约束强化学习
提出了 k-SP 约束条件,这是一种新颖的约束条件,可以提高稀疏奖励 MDP 中的样本效率。在数值实验中,通过减少策略的轨迹空间,实现了抑制冗余探索和利用,提高了样本效率,并展示了优于传统算法的成果。