具有短期记忆的可证明强化学习
本文介绍了一种基于 LSTM-TD3 的方法,该方法引入了记忆组件以应对部分可观察 MDPs,相比其他 DRL 算法,在具有部分可观察 MDPs 的情况下,该方法具有显著的优势,包括处理丢失和噪声观察数据的能力。
Feb, 2021
该论文介绍了应用于部分可观测的情况下的强化学习模型,探讨了在一些特殊情况下该模型的使用,提出了一种通过乐观估计与极大似然估计相结合的简单算法,能够保证在这些特殊情况下有多项式样本复杂度可行的方法。
Apr, 2022
本研究旨在解决强化学习中部分可观察马尔可夫决策过程带来的性能下降问题,并通过对表示视图的利用提出了一种可行的强化学习算法,可在部分观测输入下实现比现有算法更高的性能,推动可靠强化学习在实际应用中的应用。
Nov, 2023
本文提出一个结合推断和强化学习的框架,通过深度强化学习对 POMDP 问题进行鲁棒解决。通过 Markov Chain Monte Carlo 抽样来联合推断出所有的转换和观察模型参数,并将参数分布通过域随机化融入到模型不确定性的解决中,解决该方法适用于铁路资产维护规划等实际问题。
Jul, 2023
通过将动作序列纳入来解决部分可观察马尔可夫决策过程,本研究提出了几种结构和方法来扩展最新的深度强化学习算法与 LSTM 网络,结果显示这些算法提升了控制器对不同类型外部干扰的鲁棒性。
Jul, 2023
本研究利用 RNN 与反向传播算法,扩展了两个连续控制的无模型算法,能够成功地解决大量的物理控制问题,包括部分受到噪声干扰而需要信息短暂整合的问题,以及需要在多个时间步骤中保留信息的长期记忆问题,并且使用简化版本的 Morris 水迷宫任务进行了探索与记忆结合问题的研究。同时,通过直接从像素中学习,能够处理高维度的观测问题。
Dec, 2015
本研究提出一种新的强化学习模型,将上下文逐步演化到顺序决策制定,通过分析最小二乘值淘汰算法表明,在某些特定情形,强化学习方法的范数较优行为可以在多项式时间内学习。
Feb, 2016
本文研究了在线强化学习在部分可观测动态系统中的应用,提出了一种基于模型的算法,通过可观测量学习了一个近似最优策略,其样本复杂度与系统的有关参数呈多项式关系。该算法自然地支持函数逼近,可处理具有潜在大状态和观测空间的系统,并且在一些特殊模型中也得到了有效应用。
Jul, 2022
本文提出了一个基于强化学习的路径规划方法,可以应用到多经纬系统,通过训练一个连续状态和动作的策略网络,使其具有理想的路径规划行为,该方法通过 LSTM 模块来编码不特定数量的状态,可以扩展到具有无限数量代理和维度的情形,同时使用低成本的硬件平台进行实现。实验表明所提出的方法能成功地使 4 个自主导航的飞行器在现实世界环境中无碰撞地导航。
Mar, 2022
本文研究了部分可观的强化学习问题,并提出了首个具有多项式边界的算法,用于处理一类重要的 POMDP 问题,该算法基于最近的方法学方法来估计潜在变量模型。
May, 2016