关键词partially observable environments
搜索结果 - 30
- 利用演示高效解决难度探索问题
介绍了 R2D3,这是一种代理程序,可有效利用演示来解决部分可观测环境下高度可变的难解探索问题。我们还介绍了一套结合这三个属性的八项任务,并展示了 R2D3 可以解决多项任务,在其他现有方法(无论是否使用演示)经过数十亿步探索后,仍无法看到 - 重新思考部分可观测多智体决策的形式模型
介绍了一种基于事实观测随机博弈(FOSG)建模的解决方案,该解决方案的优势在于可以轻松分解问题,且与博弈树等其他建模方式相关联,这为多智能体决策制定提供了启示。
- 部分可观测环境下的策略梯度:近似和收敛
本研究针对部分可观察环境进行了政策梯度算法的开发和分析,使用马尔可夫策略类,对于开发技术工具和分析算法的效果进行了评估并进行了理论拓展,为政策梯度算法在现实应用中的使用提供了新的认识。
- 关于提高 POMDP 上深度强化学习的方法
提出了 Action-specific Deep Recurrent Q-Network (ADRQN) 的新体系结构,该体系结构使用 LSTM 层来学习潜在状态,以增强在多个部分可观察领域的学习性能,包括 Atari 游戏。
- 记忆增强控制网络
该文章介绍了一种名为 Memory Augmented Control Network (MACN) 的神经网络,通过卷积特征提取、基于神经网络的规划和网络控制器学习,解决了计划问题和部分可观测环境下的推理问题,该网络在离散的网格世界环境中 - 基于递归卷积神经网络的强化学习
使用递归卷积神经网络的值迭代,以及部分可观测环境下的状态信念传递和最佳行动选择来更好地利用强化学习问题的固有结构,通过 RCNNs 回传梯度允许系统显式地学习与底层 MDP 相关联的变换模型和奖励函数,这是经典基于模型的 RL 的一种优秀替 - 一种适用于情节式 POMDP 的 PAC RL 算法
本文研究了部分可观的强化学习问题,并提出了首个具有多项式边界的算法,用于处理一类重要的 POMDP 问题,该算法基于最近的方法学方法来估计潜在变量模型。
- 通过策略搜索学习合作
本文提出了一种基于梯度的分布式策略搜索方法,用于合作博弈中的部分可观测环境,比较了本地最优和纳什均衡的概念,实验结果表明该方法的有效性。
- 利用模型等价性求解交互动态影响图
本文围绕多智能体设计的交互式动态影响图模型进行讨论,提出了两种模型空间压缩方法:行为模式等效聚合和聚合行动等效模型,以提高问题求解效率。
- 宏操作下的不确定性高效规划
本文介绍了一种前向搜索算法 Posterior Belief Distribution,可以有效计算后验信念分布并规划多个操作步骤,可用于控制大型部分可观察域的机器人直升机目标监测等领域。