机器人控制的 DRL 过程中的部分可观测性
研究了多智能体下的多任务增强学习问题,提出了一种去中心化的单任务学习方法,并介绍了一种将单任务策略转化为适用于多个相关任务的统一策略的方法,无需明确标识任务身份。
Mar, 2017
该论文介绍了应用于部分可观测的情况下的强化学习模型,探讨了在一些特殊情况下该模型的使用,提出了一种通过乐观估计与极大似然估计相结合的简单算法,能够保证在这些特殊情况下有多项式样本复杂度可行的方法。
Apr, 2022
本文提出了一种在部分可观察环境下应用深度强化学习解决机器人控制任务的算法,该算法包含了两个部分,即可变循环模型和强化学习控制器;实验证明,该算法比其他方法在数据效率和策略学习上表现更好。
Dec, 2019
提出了 Action-specific Deep Recurrent Q-Network (ADRQN) 的新体系结构,该体系结构使用 LSTM 层来学习潜在状态,以增强在多个部分可观察领域的学习性能,包括 Atari 游戏。
Apr, 2018
通过提出一种新的基于双线性 Actor-Critic 框架的学习算法,该算法可以对部分可观察的动态系统进行部分可观察的强化学习,并且在特定的情形下(如欠完备的可观察性模型)具有较高的性能表现。
Jun, 2022
将生理计算融入混合主动型人机交互系统中,通过将实时特征作为人体状态观察纳入决策系统,为自主任务分配提供了有价值的优势。通过在代理之间智能地分配任务来减轻人员认知负担。然而,应对具有不同生理和行为测量的多样化人员池的挑战较大。为了解决这个问题,需要采用概率框架,考虑到人的状态的内在不确定性和部分可观察性。最近的研究表明,可以从以前收集的经验数据集中学习部分可观察马尔科夫决策流程模型,并使用离线强化学习方法来解决该模型。在本研究中,我们不仅强调部分可观察表示和生理测量能够改进人员状态估计和绩效,而且还能增强人机团队的整体任务效果。值得注意的是,由于固定的数据集可能无法完整表示复杂的随机过程,因此我们提出了一种方法来考虑模型不确定性,从而实现风险敏感的序列决策。在模拟机器人远程操作环境下对 26 名参与者进行了实验,结果获得了该方法的实证证据。获得的自适应任务分配策略导致的得分显著高于用于收集数据集的策略,可以在多样化参与者之间进行推广,并考虑风险敏感的指标。
Feb, 2024
本文提出了一种基于 Q-learning 和 IoAlergia 的强化学习方法,用于处理部分可观察环境下的控制系统策略生成,将 RL 与学习环境模型相结合以提供抽象的环境状态获取。实验结果表明,该方法在性能表现上优于六种当下的深度 RL 技术。
Jun, 2022
本文研究了强化学习系统在现实世界中部署的中心挑战 —— 泛化,并展示了强化学习问题的时序结构需要新的泛化方法,同时介绍了一种新的部分可观察马尔可夫决策过程(POMDP)解决方案 —— 认知 POMDP,通过简单的基于集成的技术解决了部分可观测性问题,证明了所提出的算法对 Procgen 基准套件的表现相比现有方法有显著提高。
Jul, 2021
本研究旨在解决强化学习中部分可观察马尔可夫决策过程带来的性能下降问题,并通过对表示视图的利用提出了一种可行的强化学习算法,可在部分观测输入下实现比现有算法更高的性能,推动可靠强化学习在实际应用中的应用。
Nov, 2023
本文介绍了一种基于 LSTM-TD3 的方法,该方法引入了记忆组件以应对部分可观察 MDPs,相比其他 DRL 算法,在具有部分可观察 MDPs 的情况下,该方法具有显著的优势,包括处理丢失和噪声观察数据的能力。
Feb, 2021