本文提出了一种新算法,用于部分可观测的马尔可夫决策过程中的反向强化学习,可增加数据效率并减少信息不对称,通过融合时间逻辑表达式作为先验信息,使用因果熵而不是熵,防止算法复杂度的通用来源,有效地解决了非凸问题,并在高级 Unity 仿真器中进行了实验,结果表明该算法具有较高的性能。
Dec, 2022
本篇研究针对专家行为与训练代理之间的差异,提出了一种基于无配对无对齐的轨迹,以及循环一致性限制的框架,来学习对应关系以解决领域差异的问题,并通过实验证明了该方法的有效性。
May, 2021
通过推断专家演示背后的行动选择过程,学习具有一定不确定性的部分可观测环境中的任务,可以更准确地估计 POMDP 参数并从短暂演示中获得更好的策略,与仅从环境反应学习的方法相比更为有效。
Jun, 2012
从 POMDP 执行的痕迹中学习得到高质量的启发式方法,通过转换为逻辑语义并利用数据和时间高效的归纳逻辑编程生成可解释的基于信念的策略规范,以在线方式引导 POMDP 求解器的行动选择过程。使用 Answer Set Programming (ASP) 表达的学习启发式方法展现了性能优于神经网络且与最佳手工设计的任务特定启发式方法相当的特点。
Feb, 2024
在模仿学习中,我们使用基于样本的方法开发了一种基于策略梯度的算法,即通过学习专家的样本轨迹,找到至少与专家策略一样好的参数化随机策略;该算法可以应用于高维度环境,并保证收敛到局部最小值。
May, 2016
利用模拟器训练代理人以学习强健的策略是解决医疗、自动驾驶等高风险环境下数据实验不可行的问题。本篇研究以生成模型的形式将训练环境表达,并提出了一种基于博弈论的算法解决了在测试中出现的扰动与环境不确定性的问题,得到了一个近似最优的强健决策。
Mar, 2022
该研究针对学习中的部分可观察马尔可夫决策过程的样本效率进行了研究,并提出了一种增强的反馈模型,可在后见中收集多个额外观察量来实现样本高效学习。该模型适用于两个新的 POMDP 子类:多观察揭示 POMDP 和可区分 POMDP,同时这两个子类也放宽了传统的揭示 POMDP 的要求。
Jul, 2023
该论文介绍了一种基于近似多项式时间算法的部分可观测马可夫决策过程无预言学习算法,该算法不是基于传统的探索 - 利用原则,而是采用几何拓扑中的重心跨度技术构建策略套接,并且通过对状态分布和观测分布的假设来保证合理性。
Jun, 2022
本文提出了一种基于生成式反向动力学模型的行为克隆方法以解决自我学习表现不佳的问题,利用模型产生短期想象轨迹进行训练,提高了模型的健壮性和适应性。
Oct, 2022
通过提出一种新的基于双线性 Actor-Critic 框架的学习算法,该算法可以对部分可观察的动态系统进行部分可观察的强化学习,并且在特定的情形下(如欠完备的可观察性模型)具有较高的性能表现。