我们提出了一种简单、实用和直观的强化学习领域自适应方法,通过修改奖励函数,使用辅助分类器来区分源域和目标域,对源域中不可能出现的状态进行惩罚,适用于连续状态和动作的域,可扩展至高维任务。
Jun, 2020
本研究主要关注于如何使用深度增强学习的方法,通过神经网络策略来训练机器人获取新的技能。同时,通过迁移学习,可以实现技能和机器人之间的信息共享,从而使用 mix-and-match 模块来解决新的机器人环境和任务组合的问题。
Sep, 2016
该论文提出了一种用于强化学习中学习动态全局模型的方法,通过将学习全局动态模型的任务分解为学习本地动态的上下文潜向量和条件预测下一个状态来实现此目的,并通过鼓励上下文潜向量在预测正向和反向动态方面有用来编码动态特定信息。该方法在各种模拟机器人控制任务中实现了优异的泛化能力,超过了现有的强化学习方案。
May, 2020
通过解决源模拟和目标环境之间的动力学差异问题,提出一种简单但有效的方法,通过偏向和扩展源支持以减轻支持缺陷,以适应大的动力学差异,从而在目标领域中制定出有效的策略。
Feb, 2024
本文介绍了一种解耦环境特征与任务特定特征的方法,使得代理能够在同一环境下更好的进行任务迁移和新任务风险降低,研究结果表明,此方法能够更安全地利用先前知识。
Aug, 2017
本研究旨在探究在不同动作空间领域之间进行知识传递的可能性和有效性,提出了一种基于源嵌入相似性的奖励塑形方法,可适用于具有离散和连续动作空间的领域。在 Acrobot-v1 和 Pendulum-v0 领域上,基于两个基线的比较表明我们的方法没有在连续动作空间中取得更好的结果,但在离散动作空间中确实表现出了改进。
Feb, 2022
该研究提出了一种基于生成对抗网络模型的一对一转移学习方法,旨在解决深度强化学习中新任务的知识重用和泛化问题。
Sep, 2022
通过对跨领域强化学习的了解和分类,以及对数据假设需求进行特征分析,本文全面系统地介绍了不同领域知识传递方法的研究,讨论了交叉领域知识传递的主要挑战以及未来研究方向。
Apr, 2024
本研究主要关注在强化学习中存在动力学不匹配的问题,提出了一种基于解耦表示学习的方法,通过在目标领域中进行表示学习并测量与源领域的过渡的表示差异,将表示差异作为奖励惩罚项,该方法在具有运动学和形态学不匹配的环境中表现出良好的性能。
May, 2024
通过将复杂任务分解为多个子任务并在交通路口模拟中引入多智能体训练机制,本研究提出了两种方法来近似强化学习问题并改善代理人在复杂任务中的性能,从而减少潜在的安全问题。
Nov, 2023