partially observable | BriefGPT

关键词partially observable

搜索结果 - 9

高效的递归离策略强化学习需要一个上下文编码器特定的学习率
使用一种称为 RESeL 的方法改善了循环强化学习（RL）中的训练稳定性问题，并在部分可观察的决策任务中获得了显著的性能改进。
PDFa month ago
不断变化的难以预测环境中的学习与规划
在不确定、随机和时变环境中，自主系统的最优决策面临重大挑战。本研究通过将时变 Markov 决策过程（TVMDP）的概念与部分可观测性相结合，提出了时变部分可观测 Markov 决策过程（TV-POMDP）来建模此类环境，并通过模拟和实际硬
PDF7 months ago
基于 ODE 的无模型循环强化学习在 POMDP 中的应用
通过结合神经常微分方程和无模型强化学习，我们提出了一种新颖的基于 ODE 的循环模型用于解决部分可观察的马尔可夫决策过程，通过模型推断从历史过渡中提取不可观测的动态相关信息，并通过多个实验验证了方法的有效性和鲁棒性，尤其在处理不规则采样的时
PDF9 months ago
基于图注意力的部分可观察性均值场多智能体强化学习
本研究提出了一种使用图形注意力机制的新型多智能体强化学习算法（Partially Observable Mean Field Multi-Agent Reinforcement Learning based on Graph-Attenti
PDFa year ago
MACQ: 模型获取技术的整体视角
本文针对数据驱动模型获取方法的各种复杂技术进行了深入的研究，提出了自动行动模型获取的统一框架并重新实现了一些重要的方法，从而提供了深入洞见和研究机会。
PDF2 years ago
弱合作多智能体交通控制问题的独立强化学习
本研究使用独立强化学习解决复杂的交通协同控制问题，提出了一种部分可观测弱协同交通模型来优化一组路口的整体交通状况，并提出了 Cooperative Important Lenient Double DQN（CIL-DDQN）算法来应对其他智
PDF3 years ago
用于深度多智能体强化学习的 Q 值路径分解
本论文提出一种名为 Q-value Path Decomposition（QPD）的方法，该方法利用集成渐变归因技术对深度多智能体强化学习中的全局 Q 值进行分解，以便为代理分配信用，解决了多智能体信用分配的关键挑战，该方法在 StarCr
PDF4 years ago
汤普森抽样在一般环境中是渐近最优的
本研究提出了一种 Thompson 抽样的变种，用于非参数强化学习中的一类计数的随机环境中，实现了学习环境类的效果，同时假设为可恢复情况下遗憾率是亚线性的。
PDF8 years ago
部分可观马尔可夫决策过程中最优稳态控制的几何与确定性
本研究旨在解决部分可观测的马尔科夫决策过程中最大化期望奖励的问题，将其转化为线性规划问题，并研究了用于减少搜索空间的有限随机性的最优无记忆策略的几何框架，进而通过实验说明了该方法有助于更好更快地收敛到策略梯度。
PDF9 years ago