本文研究了在马尔可夫决策过程中多项专家经验和仿真学习设置下的表征学习,并将其实例化到行为克隆和仅观测的仿真学习设置中。理论上,我们展示了在两种设置下,表征学习可以为仿真学习提供样本复杂性优势,并提供了具体实验来验证我们的理论。
Feb, 2020
本文提出了 Wasserstein-Belief-Updater (WBU),一种强化学习算法,它学习 POMDP 的潜在模型和信仰更新的近似,并具有理论保证,确保输出的信仰可以学习最优值函数。
Mar, 2023
使用 Jeffrey 的规则和标准化,将领域专业知识整合到部分可观察马尔科夫决策过程中概率信念更新的新方法,表明领域知识可以减少数据需求,提高使用强化学习的 POMDP 策略学习的性能。
Feb, 2023
本文提出了一种新算法,用于部分可观测的马尔可夫决策过程中的反向强化学习,可增加数据效率并减少信息不对称,通过融合时间逻辑表达式作为先验信息,使用因果熵而不是熵,防止算法复杂度的通用来源,有效地解决了非凸问题,并在高级 Unity 仿真器中进行了实验,结果表明该算法具有较高的性能。
Dec, 2022
本文探讨了使用现代神经网络结构学习信念表示的可能性,并使用一步帧预测和两个变体的对比预测编码作为目标函数来学习表示。我们发现,神经表示能够捕获到环境的信念信息,这有潜力在部分可观测领域中促进学习和规划的新进展。
Nov, 2018
学习代理中心状态表示的关键挑战在于在强化学习算法扩展和高效应用于下游任务时,仅对相关信息进行编码而舍弃无关信息。该研究考虑在更具挑战性的高维非马尔可夫环境中,从过去观察序列中译码状态的发现代理中心状态问题,并通过适应广义逆模型来解决此任务。研究结果包括确定性动力学环境下的渐近理论以及对替代直观算法的反例。我们通过对所提出的不同替代方案的代理中心状态发现能力进行了彻底的实证研究,其中对过去行动的分析尤为引人注目:我们表明,当正确使用时,过去行动可以使算法更加成功,而错误使用时则会导致严重的失败。
Apr, 2024
本研究提出 DELIP 作为 POMDP 模型学习的方法,利用摊销结构化变分推理,模型结合最先进的规划器能够在不确定性环境下获得有效的控制策略。
May, 2018
从 POMDP 执行的痕迹中学习得到高质量的启发式方法,通过转换为逻辑语义并利用数据和时间高效的归纳逻辑编程生成可解释的基于信念的策略规范,以在线方式引导 POMDP 求解器的行动选择过程。使用 Answer Set Programming (ASP) 表达的学习启发式方法展现了性能优于神经网络且与最佳手工设计的任务特定启发式方法相当的特点。
Feb, 2024
本文提出了一种基于循环神经网络(RNN)的近似因果状态算法,该方法学习从 POMDP 中的历史动作和观察预测未来观察情况的因果状态表示。实验证明,所学习的状态表示可用于有效学习具有丰富观察空间的强化学习问题,并与之前的方法进行比较。
Jun, 2019
该论文提出了一个面向物理系统的专门框架,利用 Bayesian reinforcement learning(BRL)和专家知识对机器人的学习进行优化,实现了在人机交互任务中的快速学习和处理环境中的不确定性。
Jul, 2023