学习具有行动嵌入的可转移动作策略

Sep, 2019

学习具有行动嵌入的可转移动作策略

Learning Action-Transferable Policy with Action Embedding

Yu Chen, Yingfeng Chen, Zhipeng Hu, Tianpei Yang, Changjie Fan...

TL;DR本文提出了一种通过学习状态嵌入和动作嵌入来跨不同状态和动作空间传递策略的方法，实验结果表明该方法不仅可以学习有用的动作嵌入，而且可以加速策略学习。

Abstract

transfer learning (TL) is a promising way to improve the sample efficiency of reinforcement learning. However, how to efficiently transfer knowledge across tasks with different →

transfer learning reinforcement learning knowledge transfer state-action spaces action embeddings

发现论文，激发创造

自适应策略转移的高效深度强化学习

本研究提出了一种名为 “Policy Transfer Framework” 的框架，该框架采用多策略转移方式对强化学习中的目标策略进行直接优化，可以很方便地与现有的深度强化学习方法相结合，实验结果表明，该框架明显加速了学习过程，并在离散和连续动作空间中超越了现有的策略转移方法，具有较高的学习效率和最终性能。

Feb, 2020

使用 Q 网络表示的转移强化学习在不同操作空间中的应用

本研究旨在探究在不同动作空间领域之间进行知识传递的可能性和有效性，提出了一种基于源嵌入相似性的奖励塑形方法，可适用于具有离散和连续动作空间的领域。在 Acrobot-v1 和 Pendulum-v0 领域上，基于两个基线的比较表明我们的方法没有在连续动作空间中取得更好的结果，但在离散动作空间中确实表现出了改进。

Feb, 2022

基于动作嵌入的多领域对话策略的强化学习

该研究提出使用跨领域数据的方法来优化强化学习中基于任务的对话策略并减少所需数据量，具体方法为学习领域无关的动作嵌入，这些嵌入能够更快速准确地在模拟环境中训练策略。

Jul, 2022

自省行为指导的可解释迁移学习

本篇文章提出了一种基于动作建议的深度强化学习任务之间的迁移学习替代方法，该方法可提高 Gridworld 和 Atari 环境下的收敛速率并提供知识迁移情况的洞见。

Jun, 2023

强化学习的动作表示学习

研究了在没有给定先验结构的情况下，如何基于状态表示和行为表示实现模型无关的强化学习方法，并提供了相应的算法和收敛条件。

Feb, 2019

跨身份机器人操作技能的潜空间对齐传输

本文的研究重点是在具有不同形态的机器人操纵器之间传递控制策略。通过将源机器人和目标机器人的状态和动作空间投影到一个共同的潜在空间来实现跨机器人的策略转移。我们使用编码器、解码器和潜在空间控制策略同时进行训练，利用任务表现、潜在动力学一致性和编码器 - 解码器能力来重构原始状态和动作。为了转移学得的控制策略，我们只需要训练目标编码器和解码器来将新的目标领域对齐到潜在空间。我们使用生成对抗训练，通过循环一致性和潜在动力学损失，在目标领域中无需访问任务奖励或奖励调整，展示了模拟环境到真实环境以及不同状态、动作和形态的机器人之间的策略转移。

Jun, 2024

针对连续动作空间的表示学习有助于有效的策略学习

本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法，扩展了状态表示以达到更好的策略泛化能力，同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后，在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。

Nov, 2022

DCT: 大离散行动空间的强化学习行动嵌入的双通道训练

本文提出了一种新颖的框架来 efficiently learn action embeddings，并且成功地在 2D maze 环境和真实世界的电子商务交易数据中实现了更干净的 action embeddings 和更好的策略学习。

Jun, 2023

动态感知嵌入

本文提出一种自监督表示学习方法，通过正向预测目标同时学习环境状态和动作序列的嵌入表示，以提高强化学习的采样效率和策略学习性能。研究表明，使用本文提出的动作嵌入表示已经能够在低维状态下有效提高模型无关的强化学习的采样效率和峰值性能。同时，结合状态嵌入和动作嵌入表示可以在只进行 100-200 万次环境步骤的情况下，快速、高效地学习高质量的基于目标条件的连续控制策略。

Aug, 2019

Deep Reinforcement Learning 中的状态行为表示学习

本文介绍了一种名为 SALE 的新方法，用于学习嵌入，以从低级状态中进行有效的表示学习，并将其与一种自适应检查点方法相结合，形成 TD7 算法，用于连续控制问题，并在 OpenAI gym 基准任务上表现出了显着提高。

Jun, 2023