关键词partially observable mdps
搜索结果 - 6
- 多任务强化学习在非马尔可夫决策过程中的可证明收益
多任务强化学习在马尔可夫决策过程中的应用揭示了共享潜在结构可以显著提高对样本的利用效率,并探讨了在部分可观察的 MDPs 和预测状态表示中这种好处是否能扩展。
- 通过词典目标实现强化学习的观察稳健性和不变性
本文研究了部分可观测马尔可夫决策问题中的策略鲁棒性,并提出了一种能够兼顾奖励性能和稳健性的方案,能够应用于任何策略梯度算法,并且保持原动态规划算法的收敛性。经过对安全关键 RL 环境的数值实验表明,本文提出的方法能够在引入策略滚动中的状态误 - 基于记忆的深度强化学习在 POMDPs 中的应用
本文介绍了一种基于 LSTM-TD3 的方法,该方法引入了记忆组件以应对部分可观察 MDPs,相比其他 DRL 算法,在具有部分可观察 MDPs 的情况下,该方法具有显著的优势,包括处理丢失和噪声观察数据的能力。
- MM通过概率动作语言桥接常识推理和概率规划
本研究介绍了一个统一框架来集成先前的 commonsense reasoning and probabilistic planning(icorpp)框架的推理和计划组件,并扩展了概率动作语言 pBC+ 以表达常识知识,避免手动努力。
- 元强化学习作为任务推断
本文提出一种在元强化学习中用于解决任务信息受限问题的方法,通过利用各种特权信息,分别学习策略和任务信念来解决部分可观测马尔可夫决策问题,从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。
- 学习部分可观测环境的有限状态控制器
本文介绍了使用有限状态自动机表示具有有限记忆的策略学习算法,具体探讨在部分可观测的 MDP 问题中,基于随机梯度下降的 VAPS 算法进行本地优化的通用有限状态自动机控制器的问题。并进一步讨论了在何种条件下随机梯度下降将优于精确梯度下降的问