像素到策略:用于跨游戏和游戏内强化学习的 DQN 编码器
本研究主要关注于如何使用深度增强学习的方法,通过神经网络策略来训练机器人获取新的技能。同时,通过迁移学习,可以实现技能和机器人之间的信息共享,从而使用 mix-and-match 模块来解决新的机器人环境和任务组合的问题。
Sep, 2016
本研究旨在探究在不同动作空间领域之间进行知识传递的可能性和有效性,提出了一种基于源嵌入相似性的奖励塑形方法,可适用于具有离散和连续动作空间的领域。在 Acrobot-v1 和 Pendulum-v0 领域上,基于两个基线的比较表明我们的方法没有在连续动作空间中取得更好的结果,但在离散动作空间中确实表现出了改进。
Feb, 2022
通过使用函数编码器来表示奖励函数或转换函数,学习代理机器人在运行时如何与先前的任务相关联的方法,并通过在强化学习算法中引入功能编码器任务表示来展示最先进的数据效率、渐近性能和训练稳定性。
Jan, 2024
该研究提出了一种名为向量量化的强化学习插件框架,基于向量量化编码的辅助分类任务将状态特征聚类,以提高深度强化学习方法的可解释性,并引入了两种正则化方法以帮助增加聚类之间的区分度和避免 VQ 训练所涉及的风险,该方法在模拟中证明了其提高了可解释性,并研究了其对深度 RL 鲁棒性和泛化能力的影响。
Nov, 2022
通过将视觉迁移任务与控制策略分离,使用不对齐的 GANs 对目标到源域的视觉映射,再使用不完美演示的模仿学习进一步改进,提高了 Deep RL 在 Breakout 合成视觉变体和 Road Fighter 的传输行为中的样本效率和迁移能力。
May, 2018
探究并适应新任务在传递学习设置中是强化学习中的一个核心挑战。针对该问题,我们利用在贝叶斯深度强化学习模式下模拟策略分布的想法提出了一种传输策略。我们通过在完全可见的 GridWorld 和部分可见的 MiniGrid 环境中展示有利的实验结果来支持我们的假设。
Jun, 2019
通过提出 Shared Learning 框架,在 $Q$-ensemble 算法中实现了传输学习,以此达到提高深度强化学习的数据效率和加速学习过程的目的,而不需要大量数据的使用。
Sep, 2017
该论文探讨了使用深度强化学习智能体将知识从一个环境转移到另一个环境的方法,其中使用异步优势演员 - 评论家架构来使用在 Atari 中训练的代理来将目标游戏进行泛化,并使用多个代理在视觉映射 transferred targets 的基础上训练模型,以提高性能、数据效率和稳定性。该架构的功能在 OpenAI gym 中的 Atari 游戏 Pong-v0 和 Breakout-v0 中进行了演示。
Sep, 2018