介绍了一种RL任务形式化的方法,通过简单的构造实现了不同任务设置的统一,包括状态转移折扣的概括;并拓展了标准学习构造和部分理论结果,提供了一个可理解和可靠的形式化框架来构建理论和简化算法使用和开发。
Sep, 2016
本文提出了使用语言作为抽象概念的层次强化学习方法,通过学习基本概念和子技能来解决时间延长的任务,构建了开源对象交互环境,证明了采用这种方法,代理可以从原始像素观察中学习解决多样化的任务,语言的组合性质使得学习多种子技能变得关键。
Jun, 2019
提出了一种可验证和组合强化学习的框架,其中包含一组学习单独子任务的子系统,并填充入标准任务的高层模型,将各个子任务组合成全部任务,成功证明了该框架的实用性和有效性。
Jun, 2021
该研究提出了一种基于任务实体组成结构的框架和适当的策略设计,旨在解决通过目标配置来规范控制、机器人和规划的任务,此策略运用Deep Sets和Self Attention等结构,在模拟机器人操作任务的训练中,成功率更高且泛化能力更强。
Mar, 2022
本文介绍CompoSuite,一个开源的模拟机器人操作基准测试,用于对复合多任务强化学习进行基准测试,评估现有单任务、多任务和组合学习算法在不同训练设置下的能力,并评估它们对未见任务的组成归纳能力,以此暴露现有RL方法在组合性方面存在的缺陷及问题。
Jul, 2022
这篇论文提出了一种通用的学习框架,用于终身学习功能本质组合结构,分别研究了有监督学习和强化学习的应用,同时拓展到了非静态环境下。在评估实验中,展示了这种框架的优越性,取得了较好的效果。
我们提出了一个可验证和组合的强化学习框架,其中一组强化学习子系统被组合起来以实现整体任务,子系统之间通过定义接口和部分可观察性相互交互。实验结果展示了该框架在各种环境中的新颖功能。
Sep, 2023
通过对离散表示法进行彻底的实证研究,我们发现,与传统连续表示法相比,在世界模型学习、无模型强化学习和连续强化学习问题中,将观测数据表示为分类值向量能更准确地模拟世界,并且使用离散表示法训练的智能体能够更好地学习策略和使用更少的数据,在连续强化学习中表现出更快的适应性。此外,我们的分析表明,性能改进可能归因于潜在向量中包含的信息和离散表示本身的编码方式。
Dec, 2023
本研究针对强化学习中任务组合的难题,提出了一种通过类别理论来解决任务高维度、奖励稀缺和系统脆弱性等挑战的新方法。研究表明,使用马尔可夫决策过程的类属特性,可以有效将复杂任务分解为可管理的子任务,提高系统的鲁棒性,并实现技能的减少、重用和回收,从而推动复杂机器人任务的学习。
Aug, 2024
本研究解决了基于逻辑规范的组合任务泛化政策学习中的问题,尤其是在子目标之间依赖关系和长期任务完成上的挑战。提出了一种新型层次化强化学习框架,并设计了一种隐式规划者来有效选择和估计后续子任务的回报。实验结果表明,该框架在效率和最优性上优于现有方法。
Oct, 2024