使用 Q 网络表示的转移强化学习在不同操作空间中的应用

Feb, 2022

使用 Q 网络表示的转移强化学习在不同操作空间中的应用

Transfer Reinforcement Learning for Differing Action Spaces via Q-Network Representations

Nathan Beck, Abhiramon Rajasekharan, Hieu Tran

TL;DR本研究旨在探究在不同动作空间领域之间进行知识传递的可能性和有效性，提出了一种基于源嵌入相似性的奖励塑形方法，可适用于具有离散和连续动作空间的领域。在 Acrobot-v1 和 Pendulum-v0 领域上，基于两个基线的比较表明我们的方法没有在连续动作空间中取得更好的结果，但在离散动作空间中确实表现出了改进。

Abstract

transfer learning approaches in reinforcement learning aim to assist agents in learning their target domains by leveraging the knowledge learned from other agents that have been trained on similar source domains.

transfer learning reinforcement learning reward shaping continuous and discrete action spaces domain transfer

发现论文，激发创造

基于相似度的知识转移用于跨领域强化学习

通过开发半监督对齐损失来匹配不同空间的一组编码器 - 解码器，本研究研究了如何衡量跨领域强化学习任务之间的相似性，以选择能够提高学习代理性能的知识源。实验结果表明，在各种 Mujoco 控制任务中，我们的方法能够有效地选择和传递知识，而无需与专家策略相匹配、配对或收集数据的监督。

Dec, 2023

利用强化学习学习不变特征空间进行技能转移

本文介绍了一个强化学习算法，用于在不同形态的机器人中传递知识并实现多种技能的学习。模拟实验结果表明，我们可以在不同连接数和肌腱驱动和扭矩驱动机器人的模拟环境中传递知识和技能。

Mar, 2017

学习具有行动嵌入的可转移动作策略

本文提出了一种通过学习状态嵌入和动作嵌入来跨不同状态和动作空间传递策略的方法，实验结果表明该方法不仅可以学习有用的动作嵌入，而且可以加速策略学习。

Sep, 2019

通过撤销映射形式主义进行迁移强化学习

提出了一个名为 TvD 的框架，通过分布匹配实现智能体在交互域之间的知识转移，其基于优化目标推导出了一种新的策略更新机制，该机制可以有效地解决任务差异性的影响。

Nov, 2022

跨领域强化学习的知识迁移：系统综述

通过对跨领域强化学习的了解和分类，以及对数据假设需求进行特征分析，本文全面系统地介绍了不同领域知识传递方法的研究，讨论了交叉领域知识传递的主要挑战以及未来研究方向。

Apr, 2024

参数化深度 Q-Networks 学习：离散 - 连续混合动作空间增强学习

在本文中，我们提出了一种带参数的深度 Q 网络（P-DQN）框架，用于处理混合行动空间，此算法无需任何逼近或者弛豫，充分发挥 DQN 和 DDPG 精神，并且在 RoboCup 足球和王者荣耀游戏中的仿真实验证明了我们方法的有效性。

Oct, 2018

强化学习领域中的在线迁移学习

本文提出了一种在线传输框架来捕捉代理之间的交互，并显示强化学习中的当前传输学习是在线传输的一种特殊情况。此外，本文将现有的代理 - 代理方法重新定位为在线传输，并分析了其中一种教学方法的三种方法。最后，还有理论结果的经验验证。

Jul, 2015

参数化行动空间下的深度强化学习

该论文研究了在 RoboCup 足球模拟领域中使用深度强化学习中的深度神经网络来处理参数化连续动作空间，成功地拓展了深度强化学习到参数化行动空间 MDPs 的类别，并比 2012 RoboCup 冠军代理更可靠地得分。

Nov, 2015

跨领域和任务传递表示的有效学习

该研究提出了一种跨不同领域和任务学习可转移表示的框架，借助度量学习的方法为新任务和领域泛化嵌入，通过对抗损失解决了域偏移问题，在标记源数据和目标域中的未标记或稀疏标记的数据上进行同时优化。该方法在只有每类很少标记实例的情况下，对新领域内的新类提供了令人信服的结果，优于现有的微调方法，并证明了该框架在从图像对象识别到视频动作识别的转移学习任务中的有效性。

Nov, 2017

基于多源转移学习的深度模型强化学习

本研究旨在提出多源模块化转移学习技术，以减少强化学习所需的环境交互次数并提高知识重用。我们支持这一技术的有效性，并进行了广泛而具有挑战性的视觉控制跨领域实验。

May, 2022