可验证和组合的强化学习系统
我们提出了一个可验证和组合的强化学习框架,其中一组强化学习子系统被组合起来以实现整体任务,子系统之间通过定义接口和部分可观察性相互交互。实验结果展示了该框架在各种环境中的新颖功能。
Sep, 2023
本文利用分类学的方法,构建了一个强化学习的可组合性框架,研究了分解问题为子任务并在这些任务上运用学习策略的方法。文章针对贝尔曼最优方程而研究在组合模型下的可行性,探讨使用一些纤维积和推出操作使得组合现象更明显,并且通过引入的 zig-zag 连线模拟了 MDP 中的连续式任务完成方式。
Aug, 2022
我们提出并展示了一种用于训练和验证强化学习系统的组合框架,在多功能度的仿真到实际应用中,以便在物理硬件上部署可靠和适应性强的强化学习策略。通过将复杂的机器人任务分解为组成子任务,并定义它们之间的数学接口,该框架允许对相应的子任务策略进行独立训练和测试,同时可以对其组合所产生的整体行为提供保证。通过使用多功能度仿真管道验证这些子任务策略的性能,该框架不仅可以实现高效的强化学习训练,还可以根据仿真和实际之间的差异挑战对子任务及其接口进行改进。在实验案例研究中,我们将该框架应用于训练和部署一个成功驾驶 Warthog 无人地面机器人的组合式强化学习系统。
Dec, 2023
提出了一个形式框架,为定义不同形式目标的 RL 任务之间的转换提供了形式化定义,研究了这种转换的保持最优策略、收敛和稳健性的概念,证明了从 LTL 规范到基于奖励的规范的某些缩减不存在,证明了 RL 算法不存在 PAC-MDP 保证安全规范。
Oct, 2021
本文提出了一种基于神经模块的组成式学习方式,探讨了在连续强化学习模型下的可重复利用子问题解决方案,并且通过离线重放经验保持表现以加速未来任务学习的累积神经组件复合持续强化学习方法。
Jul, 2022
这篇论文提出了一种通用的学习框架,用于终身学习功能本质组合结构,分别研究了有监督学习和强化学习的应用,同时拓展到了非静态环境下。在评估实验中,展示了这种框架的优越性,取得了较好的效果。
Jul, 2022
本研究探讨了改进多任务训练以及在强化学习环境中的传递的潜力,提出了一种参数组合的方法来处理这一挑战,并通过在不同的操作任务上进行传递实验以证明其有效性。
Jun, 2023
通过学习神经网络策略及其与 rech-avoid 超融合 (Probabilistic Reach-Avoid Supermartingales, RASM) 的组合,提供了一种新的方法来保证复杂控制任务中神经网络策略的行为满足特定规范的概率,并在 Stochastic Nine Rooms 环境中进行了评估。
Dec, 2023
介绍了一种 RL 任务形式化的方法,通过简单的构造实现了不同任务设置的统一,包括状态转移折扣的概括;并拓展了标准学习构造和部分理论结果,提供了一个可理解和可靠的形式化框架来构建理论和简化算法使用和开发。
Sep, 2016
本文介绍 CompoSuite,一个开源的模拟机器人操作基准测试,用于对复合多任务强化学习进行基准测试,评估现有单任务、多任务和组合学习算法在不同训练设置下的能力,并评估它们对未见任务的组成归纳能力,以此暴露现有 RL 方法在组合性方面存在的缺陷及问题。
Jul, 2022