综合先前策略解决新任务
本研究提出了一种名为“Actor-Mimic”的多任务学习和迁移学习方法,通过深度强化学习和模型压缩技术来训练一个单一的策略网络,并通过多个专家教师的指导来学习在不同任务中的行为,并使用先前的知识解决新任务。研究结果表明,该方法的表征能力可以通过无先验的专家指导来推广到新的任务并加速学习。本方法可以应用于多样的问题,为了说明其效果,我们在Atari游戏上进行了测试。
Nov, 2015
本文提出了一种用于有效的多任务强化学习的新框架,该框架可以训练代理人使用分层策略,决定何时使用先前学习的策略和何时学习新技能。该方法通过给代理人提供随机时间语法来帮助代理人学习分层策略中必要的复杂时间依赖关系,并在Minecraft游戏中进行了验证。
Dec, 2017
本文提出一种基于KL正则化预期奖励目标的强化学习代理方法,它可以利用先验知识并在解决方案空间中利用可重复使用的结构,同时讨论了在增加潜在变量的情况下如何实现分层结构的不同归纳偏置以及其中的置换学习问题。实验证明,这种代理方法可以应用于不同的连续控制任务中,获得更快的学习和置换效果。
Mar, 2019
本文提出一种在元强化学习中用于解决任务信息受限问题的方法,通过利用各种特权信息,分别学习策略和任务信念来解决部分可观测马尔可夫决策问题,从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。
May, 2019
在未知环境中提出了快速任务解决的挑战, 引入了两个具有挑战性的任务领域进行研究, 发现深度强化学习算法无法在其中表现出色, 提出了一种名为EPN的新模型优于深度强化学习算法.
Jun, 2020
我们提出了一种在多个领域中比现有方法更出色的技能转移方法,通过学习现有的时间扩展技能序列来进行探索,并直接从原始经验中学习最终策略,实现快速适应和高效数据收集。
Nov, 2022
通过使用调解者选择异质性模块和平稳地融合不同类型的知识,提出了增强型模块化强化学习(AMRL)框架,并引入了选择机制的变体,即记忆增强型调解者,以利用时间信息,评估结果表明增强传统模块化RL的其他形式的异质知识可以提高性能
Jun, 2023
深度强化学习的关键问题包括忘记和样本效率低下,该研究通过发现并利用空间信息推导任务特定规则,提出了一个通用框架来帮助智能体在新环境中自主学习并增加适应速度。该框架的实现之一是基于规则驱动的深度Q学习代理,它在实验中表现出明显更强的抵抗新鲜事物和适应新情况的能力。
Nov, 2023
当代人工智能系统的不断发展需要相应的资源、大量数据集和计算基础设施,特别是在限制环境下的基础研究和应用中,知识的表示通过各种模态呈现,包括动力学和奖励模型、价值函数、策略和原始数据。该论文系统地讨论了这些模态,并基于其固有属性和与不同目标和机制之间的相互关系来进行讨论,以实现知识的迁移和推广,并分析了特定形式的转移出现或稀缺的原因,并强调从设计到学习的转移的重要性。
Dec, 2023