强化学习中任务规范的统一
我们提出了一个新颖的归纳一般化框架,用于从逻辑规范中进行强化学习。该框架通过利用归纳任务之间的关系,学习生成适应归纳任务实例的策略生成器,以实现对长期任务中未见策略的广义化。
Jun, 2024
提出了一个形式框架,为定义不同形式目标的 RL 任务之间的转换提供了形式化定义,研究了这种转换的保持最优策略、收敛和稳健性的概念,证明了从 LTL 规范到基于奖励的规范的某些缩减不存在,证明了 RL 算法不存在 PAC-MDP 保证安全规范。
Oct, 2021
通过广泛比较 17 种强化学习目标规范形式的表达能力,我们发现不同形式主义存在多种限制,并未找到一种同时具有主导性表达能力和当前技术下优化简便性的形式主义。这些发现对策略优化和奖励学习有重要影响,并强调了未来研究在奖励学习方法中适应多种形式主义的需求,因为许多现有奖励学习方法隐含地假设所需目标可以用马尔可夫奖励来表达。我们的工作有助于更全面地了解不同强化学习目标规范形式的成本和收益。
Oct, 2023
本文研究如何自动化减少任务的状态表达,以将通用的智能学习机设定为 MDP 框架,从而扩大许多现有强化学习算法和使用它们的机器人的范围,并开发一种形式化的客观标准作为搜索可行 MDPs 的指导,并在算法中将各个部分整合到一起。
Jun, 2009
提出了一种可验证和组合强化学习的框架,其中包含一组学习单独子任务的子系统,并填充入标准任务的高层模型,将各个子任务组合成全部任务,成功证明了该框架的实用性和有效性。
Jun, 2021
本文提出一种在元强化学习中用于解决任务信息受限问题的方法,通过利用各种特权信息,分别学习策略和任务信念来解决部分可观测马尔可夫决策问题,从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。
May, 2019
本文提出了一种名为 PUnS 的规划方法,可解决非 Markovian 规范的挑战,它们被表达为线性时间逻辑(LTL)公式的信念。该方法可以用于应对许多现实应用中的模糊任务规范,我们提出了四个标准来捕捉不同应用程序的规范信念的语义,最终,我们演示了我们的方法,通过机器人从人类演示中推断任务规范来自动设置晚餐桌。
Jun, 2019
我们提出了一个可验证和组合的强化学习框架,其中一组强化学习子系统被组合起来以实现整体任务,子系统之间通过定义接口和部分可观察性相互交互。实验结果展示了该框架在各种环境中的新颖功能。
Sep, 2023
本研究探讨如何更准确地评估深度强化学习方法在真实世界中的应用,并提出了考虑参数化 MDP 家族的方法。研究结果表明,在 MDP 家族上对 DRL 方法进行评估,相对于在用户选择的 MDP 实例上进行评估,往往可以得到不同的方法排名,这为强化学习的实证研究提出了新的挑战。
Oct, 2022