通过同态 POMDP 诱导个体学生的学习策略
从 POMDP 执行的痕迹中学习得到高质量的启发式方法,通过转换为逻辑语义并利用数据和时间高效的归纳逻辑编程生成可解释的基于信念的策略规范,以在线方式引导 POMDP 求解器的行动选择过程。使用 Answer Set Programming (ASP) 表达的学习启发式方法展现了性能优于神经网络且与最佳手工设计的任务特定启发式方法相当的特点。
Feb, 2024
部分可观察马尔科夫决策过程(POMDP)的策略通常需要记忆,本文介绍了一种使用 L*- 算法学习策略的自动机表示的方法,相比于策略的表格表示,生成的自动机规模更小、更易解释,同时在学习过程中,我们的启发式方法甚至可以改善策略的性能,相较于直接从 POMDP 综合出自动机以解决问题的方法,我们的方法具有更高的可扩展性。
Jan, 2024
本文针对传统 POMDP 学习在简单环境下的效率问题,提出了一种新的算法 HOMDP,并在考虑了过去的观测维度后有效地降低了算法的计算复杂度。
Jan, 2023
本研究提出 DELIP 作为 POMDP 模型学习的方法,利用摊销结构化变分推理,模型结合最先进的规划器能够在不确定性环境下获得有效的控制策略。
May, 2018
通过简化解决方案与理论上最优解之间的确定性关系,解决了在计算上昂贵的部分可观测马尔可夫决策过程(POMDPs)困难,为自主代理在不完全信息环境下的规划提供了确定性界限。
Oct, 2023
该研究针对学习中的部分可观察马尔可夫决策过程的样本效率进行了研究,并提出了一种增强的反馈模型,可在后见中收集多个额外观察量来实现样本高效学习。该模型适用于两个新的 POMDP 子类:多观察揭示 POMDP 和可区分 POMDP,同时这两个子类也放宽了传统的揭示 POMDP 的要求。
Jul, 2023
使用 Jeffrey 的规则和标准化,将领域专业知识整合到部分可观察马尔科夫决策过程中概率信念更新的新方法,表明领域知识可以减少数据需求,提高使用强化学习的 POMDP 策略学习的性能。
Feb, 2023
该论文提出了一种使用 POMDP 模型进行基础设施维护规划的方法,通过使用 MCMC 采样来从实际监控数据中直接估计模型参数并解决模型不确定性问题,最终成功地应用于铁路轨道资产的维护规划。
Dec, 2022
本文介绍了如何使用归纳逻辑编程从 POMCP 执行的跟踪中学习规则并将它们集成到 POMCP 中,以提供对有前途的动作的软性策略偏向,我们在两个基准情景下说明,从小任务实例中学习到的规则的集成可以提高性能,并且需要更少的蒙特卡罗模拟并且处理更大的任务实例。
Mar, 2023
该研究使用生成对抗(GAN)深度神经网络引导非马尔可夫策略策略的置信度表示,在一定程度上解决了部分可观察马尔可夫决策过程(POMDP)中的模仿学习问题。
Jun, 2019