本文提出了一种基于 Q-learning 和 IoAlergia 的强化学习方法,用于处理部分可观察环境下的控制系统策略生成,将 RL 与学习环境模型相结合以提供抽象的环境状态获取。实验结果表明,该方法在性能表现上优于六种当下的深度 RL 技术。
Jun, 2022
通过将动作序列纳入来解决部分可观察马尔可夫决策过程,本研究提出了几种结构和方法来扩展最新的深度强化学习算法与 LSTM 网络,结果显示这些算法提升了控制器对不同类型外部干扰的鲁棒性。
Jul, 2023
通过搜索假设,本研究基于版本空间发展了一种行动模型学习理论,解释了具有完全可观察性的行动模型学习问题,并通过在线算法实例化了该理论,证明了给定足够的示例,确定性和非确定性模型都会收敛于相同的真实模型,并证明了它们在一系列计划领域的实用性。
Apr, 2024
本文研究如何使智能代理能够在真实环境中自主行动,提出一种通过学习状态转换函数从而得到明确的 STRIPS 规则的方法,能够应对真实环境中嘈杂的或不完全的观察数据。模拟实验表明该方法能够学习有用的环境模型描述。
Oct, 2012
使用离散自编码器来处理动作在随机环境中引起的多种可能性,再结合随机版 Monte Carlo 树搜索算法规划代理的动作和代表环境反应的离散潜变量,明显优于 MuZero 在处理随机国际象棋和 DeepMind Lab 等部分观测模型的 RL 问题中的表现。
Jun, 2021
通过推断专家演示背后的行动选择过程,学习具有一定不确定性的部分可观测环境中的任务,可以更准确地估计 POMDP 参数并从短暂演示中获得更好的策略,与仅从环境反应学习的方法相比更为有效。
Jun, 2012
通过提出一种新的基于双线性 Actor-Critic 框架的学习算法,该算法可以对部分可观察的动态系统进行部分可观察的强化学习,并且在特定的情形下(如欠完备的可观察性模型)具有较高的性能表现。
提出了 Action-specific Deep Recurrent Q-Network (ADRQN) 的新体系结构,该体系结构使用 LSTM 层来学习潜在状态,以增强在多个部分可观察领域的学习性能,包括 Atari 游戏。
Apr, 2018
本文提出了一种基于 MAX-SAT 框架的方法,用于自动学习规划系统的领域模型,通过输入一组含有无序动作和噪声的计划迹线来输出最佳的动作模型,并通过系统实证评估证明了该方法的有效性
Aug, 2019
本文探讨发展在复杂世界中可以学习行动的代理程序的目标,并开发了一种概率关系计划规则表示,以紧凑地模拟有噪声,不确定性的行动效果,并展示了这种规则的有效学习方法。通过在简单规划领域和具有逼真物理的三维模拟块世界的实验,我们证明了这种学习算法使代理程序能够有效地模拟世界动态。
Oct, 2011