研究了机器人如何通过无监督学习和条件目标设定模型自主地学习和实践行为,从而掌握丰富的技能和处理不同的任务和环境。
Oct, 2019
本研究提出一种基于奖励机制的自适应学习算法,它可以通过自动生成特定上下文概率分布的课程来提高强化学习的数据效率,并在长期规划任务中取得了可靠的最优行为。
May, 2023
通过生成和学习有用的辅助任务,最大化经验重用,从而学习解决给定任务的方法,通过计数推理和离线策略方法同时学习这些辅助任务,从而实现多任务强化学习的新框架。
Mar, 2023
提出了一种新颖的自主强化学习算法,能够根据智能体的学习进展生成自适应课程,使智能体能够高效地解决稀疏奖励迷宫导航任务,同时减少了手动复位。
Nov, 2023
本文介绍了一种训练 RL 代理器的方法,通过使用 meta-reinforcement 学习、基于注意力的内存结构和有效的自动课程表,该代理器可以快速适应开放式的 3D 问题,并具有自适应性。
Jan, 2023
介绍了一种师徒模仿式学习方法和一种将强化学习模型转化为自然语言理解模型的方法,使得上下文化语言模型能够被引入顺序决策问题空间中,实现更好的学习速度和泛化能力。
Oct, 2020
基于强化学习算法的学习历史的监督预训练,通过与环境的交互,能够捕捉学习过程并在上下文中改善对新任务的处理。然而,现有文献在上下文泛化到新行为空间方面仍存在差距。本研究旨在开发一种专门用于泛化到新行为空间的架构和训练方法,通过预测行为嵌入来消除对行为数量的依赖,并使用随机嵌入来增加对上下文的语义推理能力和准备测试时的新未见嵌入。通过多臂赌博环境的实验,证明了我们的模型能够在不需要重新训练的情况下达到数据生成算法的性能。
Dec, 2023
本文研究了如何在有限的标注数据下,通过半监督强化学习及反强化学习等方法,使机器人等强化学习智能体在探索未知领域时能够获得更好的泛化效果,并评估了该方法在基于图像的控制任务上的表现。
Dec, 2016
通过与环境的交互实现对未知任务的概括,我们提出了一种方法 AD^ε,该方法通过人类示范的较差策略引入噪音并逐渐改进,实现了多任务环境下的增量式学习。在 Dark Room 和 Dark Key-to-Door 环境中,我们的方法相比于最佳策略改进了 2 倍。
该论文提出了一种用于强化学习中学习动态全局模型的方法,通过将学习全局动态模型的任务分解为学习本地动态的上下文潜向量和条件预测下一个状态来实现此目的,并通过鼓励上下文潜向量在预测正向和反向动态方面有用来编码动态特定信息。该方法在各种模拟机器人控制任务中实现了优异的泛化能力,超过了现有的强化学习方案。
May, 2020