- 线性贝尔曼完备性足以实现少动作高效在线强化学习
这篇研究论文介绍了线性贝尔曼完备性下强化学习中的值迭代算法,并提供了首个多项式时间复杂度的算法。
- 线性函数逼近下离线强化学习中固有贝尔曼误差的作用
在这篇论文中,我们研究了具有线性函数逼近的离线强化学习问题。我们的主要结构性假设是 MDP 具有低固有贝尔曼误差,这意味着线性值函数对于贪婪策略具有线性的贝尔曼备份。我们提供了一种计算效率高的算法,可以在数据集的单策略覆盖条件下成功,输出的 - 有效性视野解释随机环境中的深度强化学习表现
解释为什么深度强化学习算法在实践中表现良好,介绍一种新的强化学习算法 SQIRL,它通过随机探索收集数据,并在这些数据上执行有限次数的值迭代来学习接近最优的策略。
- 具有顺序最优遗憾界限的核化强化学习
针对使用核回归时的强化学习问题,我们提出了一种乐观性的改进最小二乘法值迭代方法,我们证明了其在一般情况下具有一阶最优遗憾保证,其结果比现有技术有显着的多项式改进。
- 利用锚定技术加速价值迭代
本篇论文提出了第一个适用于 Bellman 一致性和最优性算子的加速 VI 方法,称为 Anc-VI,该方法基于一种称为 "锚定" 机制的创新方法,除了快速降低 Bellman 误差外,在近似 VI 和 Gauss- Seidel VI 设 - 具有量化目标的随机博弈价值迭代的停止准则
本文提出了应用于马尔可夫决策过程和随机游戏的价值迭代算法的停止准则,这是该领域首个用于计算总体回报和平均回报的任何时刻算法。我们的方法通过将问题降低到马尔可夫决策过程领域和直接应用于随机游戏领域中,统一了先前的算法并提出了目标独立的概念。
- 具有理论保证的多智能体策略互惠
本文提出了一种新的多智能体策略互惠(PR)框架,其中每个智能体可以在不匹配的状态下充分利用跨智能体策略,并定义了一个不匹配状态的邻接空间并设计一个即插即用模块的值迭代,以提高 PR 的可扩展性和稳定性,实验证明 PR 在离散和连续环境中优于 - GPU 加速的价值迭代与模拟,在保质期库存控制中实现更远更快的前进
利用 GPU 加速技术运行价值迭代算法可以节省时间和计算资源,我们使用 Python 库 JAX 实现了该算法的高级 API,并依靠该库的函数转换和编译器来高效地利用 GPU 硬件。通过将该算法应用于实际场景,我们的研究表明这种方法的普惠性 - Forward-PECVaR 算法:CVaR SSPs 的精确评估
本文提出了一种新的算法 Forward-PECVaR,用于确切评估具有非均匀成本的 CVaR-SSPs 的稳态策略,并通过实证评估 CVaR Value Iteration 算法的质量以及算法参数对解决方案的质量和可伸缩性的影响。
- ICLRVIPeR: 基于神经函数近似的离线强化学习可证明高效算法
该研究提出了一种称为 VIPeR 的新算法,将悲观主义原则与值函数的随机扰动相结合,用于弥补当前离线 RL 算法在使用神经网络近似值函数的复杂问题上无法轻松扩展的局限,实现了具有集成学习功能的离线 RL 算法。
- 针对指数代价风险敏感 MDP 的修改策略迭代算法
本文针对指数成本的风险敏感 MDP 问题,首次提供了 MPI 在有限状态和动作空间中收敛的证明,其收敛证明与已有的折扣和风险中性平均费用问题不同,也提供了风险敏感 MDP 的近似 MPI 证明。
- 递归优化等效性下的马尔科夫决策过程遗憾界限
本文提出了一种新的基于表格化马尔可夫决策过程的递归 OCE 的情节式风险敏感强化学习公式,并设计了一个高效的基于值迭代和上限置信度的学习算法,该算法实现了与场景数和动作数的最优依赖关系。
- 通过冻结慢状态实现更快的近似动态规划
论文提出了一种基于动态规划算法框架的近似方法,针对具有快慢结构的无穷状态空间的马尔可夫决策过程,其中 “冻结” 慢状态,通过解决一组简单的有限时段 MDP 以及在一个慢时间尺度(上层 MDP)上进行价值迭代的辅助 MDP 等步骤,生成有效策 - 具有连续行动空间的区间马尔科夫决策过程
通过引入连续动作 Interval Markov Decision Processes (caIMDP) 以及研究求解最大化预期累积奖励的 value iteration 问题,我们证明了在动态系统控制抽象中使用线性规划等方法可以高效地实现 - 轨迹 - wise 奖励的可证明高效离线强化学习
本文提出了一种新颖的离线 RL 算法,PARTED,可将轨迹回报分解为逐步代理奖励,具有一定的收敛上界,该算法可以有效地处理观察到的轨迹奖励问题。
- 零和神经符号并发随机博弈策略综合(扩展版)
提出了一种新的建模形式,称为神经符号并发随机博弈(NS-CSG),旨在解决一些形式化的问题,如证明 NS-CSG 在 Borel 可测性和分段常数限制下的存在价值,并开发了新的算法来解决非可数状态空间的 NS-CSG 博弈中的最优策略选择问 - IJCAI调和奖励与预测状态表示
描述了一种可准确模拟 POMDP 奖励并且能够用于控制、规划或强化学习的预测状态表示 (R-PSR) 方法,通过 R-PSR 准确模拟 POMDP 观察和奖励之间的关系,展示了与近似奖励导出的最优 PSR 策略与最优 POMDP 策略之间的 - 带有函数逼近的可证明高效合作多智能体强化学习
本文介绍了采用价值迭代和信息交流来解决固定通信预算下,多智能体强化学习问题,并证明了在有限信息交流的异构合作场景下,可以实现 Pareto 最优无悔学习。这个工作将多智能体情境和多武器武装带宽文献中的几个思想推广到了 MDP 和强化学习领域 - ICML图神经网络诱导价值迭代
通过引入图神经网络,该论文提出的价值迭代算法执行图神经网络,跨越任意环境模型,并在 VI 的中间步骤上受到直接监督,证明了具有强监督的 GNN 执行者是深度强化学习系统中可行的组成部分。
- 可规划的 MDP 同态逼近:在行动下的等变性
该研究利用行动等变性原理进行表示学习,提出了一种对学习到的表示进行行动等变性限制的对比损失函数并证明了当损失函数为零时的决策过程是同态的。该方法能够获得效果更好的表示并具有更好的泛化能力。