学习具有行动嵌入的可转移动作策略
本研究提出了一种名为 “Policy Transfer Framework” 的框架,该框架采用多策略转移方式对强化学习中的目标策略进行直接优化,可以很方便地与现有的深度强化学习方法相结合,实验结果表明,该框架明显加速了学习过程,并在离散和连续动作空间中超越了现有的策略转移方法,具有较高的学习效率和最终性能。
Feb, 2020
本研究旨在探究在不同动作空间领域之间进行知识传递的可能性和有效性,提出了一种基于源嵌入相似性的奖励塑形方法,可适用于具有离散和连续动作空间的领域。在 Acrobot-v1 和 Pendulum-v0 领域上,基于两个基线的比较表明我们的方法没有在连续动作空间中取得更好的结果,但在离散动作空间中确实表现出了改进。
Feb, 2022
该研究提出使用跨领域数据的方法来优化强化学习中基于任务的对话策略并减少所需数据量,具体方法为学习领域无关的动作嵌入,这些嵌入能够更快速准确地在模拟环境中训练策略。
Jul, 2022
本篇文章提出了一种基于动作建议的深度强化学习任务之间的迁移学习替代方法,该方法可提高 Gridworld 和 Atari 环境下的收敛速率并提供知识迁移情况的洞见。
Jun, 2023
本文的研究重点是在具有不同形态的机器人操纵器之间传递控制策略。通过将源机器人和目标机器人的状态和动作空间投影到一个共同的潜在空间来实现跨机器人的策略转移。我们使用编码器、解码器和潜在空间控制策略同时进行训练,利用任务表现、潜在动力学一致性和编码器 - 解码器能力来重构原始状态和动作。为了转移学得的控制策略,我们只需要训练目标编码器和解码器来将新的目标领域对齐到潜在空间。我们使用生成对抗训练,通过循环一致性和潜在动力学损失,在目标领域中无需访问任务奖励或奖励调整,展示了模拟环境到真实环境以及不同状态、动作和形态的机器人之间的策略转移。
Jun, 2024
本文提出了一种在潜在状态和动作空间中进行高效策略学习的方法,扩展了状态表示以达到更好的策略泛化能力,同时通过将整个学习任务划分为无监督学习和强化学习来减小了训练规模。最后,在 MountainCar、CarRacing 和 Cheetah 实验中证明了该方法的有效性。
Nov, 2022
本文提出了一种新颖的框架来 efficiently learn action embeddings,并且成功地在 2D maze 环境和真实世界的电子商务交易数据中实现了更干净的 action embeddings 和更好的策略学习。
Jun, 2023
本文提出一种自监督表示学习方法,通过正向预测目标同时学习环境状态和动作序列的嵌入表示,以提高强化学习的采样效率和策略学习性能。研究表明,使用本文提出的动作嵌入表示已经能够在低维状态下有效提高模型无关的强化学习的采样效率和峰值性能。同时,结合状态嵌入和动作嵌入表示可以在只进行 100-200 万次环境步骤的情况下,快速、高效地学习高质量的基于目标条件的连续控制策略。
Aug, 2019
本文介绍了一种名为 SALE 的新方法,用于学习嵌入,以从低级状态中进行有效的表示学习,并将其与一种自适应检查点方法相结合,形成 TD7 算法,用于连续控制问题,并在 OpenAI gym 基准任务上表现出了显着提高。
Jun, 2023