可验证的组合性强化学习系统
介绍了一种RL任务形式化的方法,通过简单的构造实现了不同任务设置的统一,包括状态转移折扣的概括;并拓展了标准学习构造和部分理论结果,提供了一个可理解和可靠的形式化框架来构建理论和简化算法使用和开发。
Sep, 2016
本文提出了使用语言作为抽象概念的层次强化学习方法,通过学习基本概念和子技能来解决时间延长的任务,构建了开源对象交互环境,证明了采用这种方法,代理可以从原始像素观察中学习解决多样化的任务,语言的组合性质使得学习多种子技能变得关键。
Jun, 2019
提出了一种可验证和组合强化学习的框架,其中包含一组学习单独子任务的子系统,并填充入标准任务的高层模型,将各个子任务组合成全部任务,成功证明了该框架的实用性和有效性。
Jun, 2021
该研究提出了一种基于任务实体组成结构的框架和适当的策略设计,旨在解决通过目标配置来规范控制、机器人和规划的任务,此策略运用Deep Sets和Self Attention等结构,在模拟机器人操作任务的训练中,成功率更高且泛化能力更强。
Mar, 2022
本文介绍CompoSuite,一个开源的模拟机器人操作基准测试,用于对复合多任务强化学习进行基准测试,评估现有单任务、多任务和组合学习算法在不同训练设置下的能力,并评估它们对未见任务的组成归纳能力,以此暴露现有RL方法在组合性方面存在的缺陷及问题。
Jul, 2022
该论文提出了一种从代理环境经验中学习非马尔可夫任务规范的新方法,可以将任务拆分为其构成子任务,提高了RL代理后续合成最优策略的速率,并提供了一个可解释的编码高级环境和任务特征的方式。
Aug, 2022
本文利用分类学的方法,构建了一个强化学习的可组合性框架,研究了分解问题为子任务并在这些任务上运用学习策略的方法。文章针对贝尔曼最优方程而研究在组合模型下的可行性,探讨使用一些纤维积和推出操作使得组合现象更明显,并且通过引入的zig-zag连线模拟了MDP中的连续式任务完成方式。
Aug, 2022
我们提出并展示了一种用于训练和验证强化学习系统的组合框架,在多功能度的仿真到实际应用中,以便在物理硬件上部署可靠和适应性强的强化学习策略。通过将复杂的机器人任务分解为组成子任务,并定义它们之间的数学接口,该框架允许对相应的子任务策略进行独立训练和测试,同时可以对其组合所产生的整体行为提供保证。通过使用多功能度仿真管道验证这些子任务策略的性能,该框架不仅可以实现高效的强化学习训练,还可以根据仿真和实际之间的差异挑战对子任务及其接口进行改进。在实验案例研究中,我们将该框架应用于训练和部署一个成功驾驶Warthog无人地面机器人的组合式强化学习系统。
Dec, 2023
基于逻辑规范引导的动态任务采样(LSTS)是一个新颖的方法,不像以前的方法,LSTS不需要关于环境动态或奖励机器的信息,并且通过动态采样有希望导致成功目标策略的任务,来引导代理从初始状态到目标状态。在格局世界的评估中,LSTS在复杂的顺序决策问题上表现出了比最先进的RM和自动机引导的RL基线更好的时间到达阈值性能,并且在部分可观测的机器人任务和连续控制机器人操纵任务中也比RM和自动机引导的RL基线表现出更高的样本效率。
Feb, 2024
本研究解决了基于逻辑规范的组合任务泛化政策学习中的问题,尤其是在子目标之间依赖关系和长期任务完成上的挑战。提出了一种新型层次化强化学习框架,并设计了一种隐式规划者来有效选择和估计后续子任务的回报。实验结果表明,该框架在效率和最优性上优于现有方法。
Oct, 2024