- 通过同态 POMDP 诱导个体学生的学习策略
基于多种认知模式构建同态 POMDP 模型,提高个性化学习策略的精确性。
- 利用贝叶斯强化学习辅助导航以避免盲点中的人群
本研究介绍了一种新的算法 BNBRL+,基于部分可观测的马尔科夫决策过程框架评估不可见区域的风险,并在不确定性下制定移动策略,通过将信念算法与贝叶斯神经网络相结合,根据人类的定位数据以概率推断信念,进一步整合机器人、人类和推断信念之间的动力 - 经证明高效的部分可观察风险敏感强化学习与事后观测
该论文通过引入后见观察机制,研究了部分可观测环境下风险敏感强化学习的悔恨分析,提出了在部分可观测马尔可夫决策过程框架下优化累积奖励的新方法。通过严格的分析证明了算法在模型降级为风险中性或完全可观测设置时,能够实现多项式悔恨。该研究对强化学习 - 语言条件下的视觉目标搜索观测模型
在这项研究中,我们将物体搜索问题视为部分可观察的马尔可夫决策过程(POMDP),其中物体检测器和观察模型中的视觉传感器噪声由基于复杂语言描述的单个深度神经网络确定。通过我们的语言条件观察模型(LCOM),任何物体的语言描述都可以用来生成适当 - MM用于 NOMA-URLLC 网络中上行调度的深度强化学习
通过提出一种名为 NOMA-PPO 的新型深度强化学习调度算法,本文解决了无线网络中超可靠低延迟通信(URLLC)的问题,也就是在物联网(IoT)应用中施加的严格约束。该方法通过将 NOMA-URLLC 问题转化为部分可观察马尔可夫决策过程 - 部分可观察马尔可夫决策过程中的动态深度强化学习算法
通过将动作序列纳入来解决部分可观察马尔可夫决策过程,本研究提出了几种结构和方法来扩展最新的深度强化学习算法与 LSTM 网络,结果显示这些算法提升了控制器对不同类型外部干扰的鲁棒性。
- 全局状态预测的分布式多智能体强化学习
本文探讨了应用深度强化学习(Deep reinforcement learning, DRL)到机器人群体控制中的挑战,并提出了一种基于部分可观察马尔科夫决策过程(Partially Observable Markov Decision P - 一个惊人简单的连续行为 POMDP 求解器:基于策略树的惰性交叉熵搜索
本研究提出了一种名为 LCEOPT 的简单在线 POMDP 求解器,通过使用迭代更新策略的分布,从而能够更好地解决具有连续动作空间的问题。
- 基于目标的冗余观测环境推断
通过观察其余状态以有效学习核心状态之间的状态转移规则,针对部分可观测马尔科夫决策过程 (POMDP) 提出一种面向目标的强化学习方法。 在逐步添加新的核心状态到转换图中的同时,本模型仅包含核心状态,它监督一小部分核心状态以了解动态环境并获得 - POMDPs 和可解释的代理的端到端策略梯度方法
一个 RL 算法,可以通过端到端训练来估算隐藏状态,并将估算可视化为状态转换图。 实验结果表明,该算法可以解决简单的 POMDP 问题,并使代理行为可解释给人类。
- 利用领域知识提高 POMDP 信念估计
使用 Jeffrey 的规则和标准化,将领域专业知识整合到部分可观察马尔科夫决策过程中概率信念更新的新方法,表明领域知识可以减少数据需求,提高使用强化学习的 POMDP 策略学习的性能。
- 利用随机潜在表示从像素学习安全强化学习
本文提出了一种基于像素观察安全的强化学习方法,在部分可观察的马尔可夫决策过程框架下,使用一种新颖的安全评估方法来训练安全策略,使用基准数据证明了其相对于现有方法具有竞争性的性能和满足安全约束条件。
- 机器人中的部分可观察马尔可夫决策过程:综述
这篇综述文章研究多种机器人领域中使用部分可观察马尔可夫决策过程(POMDP)的数学模型和算法,分析它们的特点,并提供适用的决策任务的关键任务特性。
- 朝着在 POMDP 中使用完全可观察策略
本文提出了基于多模式信念的偏差可观察马尔可夫决策过程 (POMDP) 的解决方法,该方法基于全可观察版本的策略,并定义了一个基于价值函数的混合值函数,可以使用相应的贪心策略解决 POMDP。作者发展了必要的数学框架,并介绍了在 Reconn - 形式化副作用约束问题
我们提出了一个通过协助博弈框架来规范 AI 副作用的正式标准,通过权衡 “制造多大混乱” 与代理目标的代理目标来解决部分可观察马尔可夫决策过程(POMDP)表示的不确定性问题。我们展示了通过在两个格网环境中使用 ground-truth 评 - 带拓展空间 POMDP 规划的人群意图感知导航
本文提出了一种混合在线部分可观察马尔可夫决策过程规划系统,针对多模态不确定性对自主导航的影响。通过使用多查询运动规划和在线 POMDP 求解器,我们实现了更加灵活和高效的实时方法,从而更好地解决了密集人群和障碍物之间的自主导航问题,并获得了 - ICML强化学习中基于语言模型的历史压缩
文章介绍了一种使用预训练语言变换器(PLT)来表示历史信息以提高采样效率的方法,该方法名为 HELM,通过自动关联筛选过后的预训练标记嵌入,使 actor-critic 网络模型不必学习过去的信息,从而达到比竞争对手更高的采样效率和更好的实 - POMDP 中的期望总奖励欠估计算
本文研究了如何通过计算部分可观察马尔可夫决策过程的总期望奖励的下界来解决通常难以解决的问题,提供了两种技术:使用良好策略的简单技术和使用概率之间的最小移位的更高级别的技术。同时,本文还使用混合整数线性规划找到这样最小概率移位,并在实验中表明 - ICLR无记忆随机策略优化在无限时域 POMDP 中的几何
本研究考虑了有限状态和动作空间的无穷时部分观察到的马尔可夫决策问题中,根据折扣或平均收益准则找到最佳的无记忆随机策略并描述了优化问题作为可行状态 - 动作频率空间中的线性优化问题并使用了多项式优化的最大化奖励来解决导航问题。
- MM毫米波波束跟踪和训练的学习和适应性:双时间尺度变分框架
本文提出了一个学习和适应框架,使用长期和短期两种时间尺度学习和优化自适应波束跟踪和训练,利用深度递归变分自编码器和部分可观察马尔可夫决策过程生成一种概率预测的最强波束对,从而在毫米波车载网络中实现低开销,近乎最优的频谱效益。