- 跨身份机器人操作技能的潜空间对齐传输
本文的研究重点是在具有不同形态的机器人操纵器之间传递控制策略。通过将源机器人和目标机器人的状态和动作空间投影到一个共同的潜在空间来实现跨机器人的策略转移。我们使用编码器、解码器和潜在空间控制策略同时进行训练,利用任务表现、潜在动力学一致性和 - 策略学习在缺乏支持下的离散的 RL 中的应用
通过解决源模拟和目标环境之间的动力学差异问题,提出一种简单但有效的方法,通过偏向和扩展源支持以减轻支持缺陷,以适应大的动力学差异,从而在目标领域中制定出有效的策略。
- Vid2Act:激活离线视觉强化学习视频
Vid2Act 是一种基于模型的强化学习方法,其使用世界模型作为行为学习的模拟器并使用它们来衡量动力学表示转移和策略转移的域相关性,以将有价值的动作条件动态和潜在有用的行动演示从离线到在线环境进行转移。
- 强化学习中的策略转移的小样本图像到语义翻译
本研究探讨采用图像到语义翻译技术进行政策传递,缓解基于视觉的机器人控制代理的学习困难问题。通过学习从图像到语义的映射,我们可以将在模拟器中预先训练的政策传递到现实世界中,从而消除学习花费和风险高的现实世界上策略的实时交互学习。此外,使用图像 - 利用新兴的外在灵巧性学习抓取难以抓取的物体
本文基于强化学习训练了一个具有外部灵活性的简单机械手实现了 “遮挡抓取” 任务,其学到的策略能够成功地转移到物理机器人上,具有较好的推 generalizability
- 快速策略迁移的相关策略转化优化
研究基于马尔科夫决策过程之间的策略迁移问题,引入一个引理来衡量两个任意 MDPs 之间的相关性,并提出 RPO 和 RTO 两种新算法以及相对策略转移优化 (RPTO) 的完整算法,通过在 OpenAI gym 的经典控制任务上创建具有不同 - 重生强化学习:重复利用过去计算以加速进展
提出转世强化学习理论作为强化学习(RL)研究的另一种工作流程或问题类别,以便能够在设计迭代之间或不同代理之间重复使用或转移先前的计算工作(例如,学习策略); 研究关注现有子优政府的有效传输,并提出了一种简单的算法来解决其限制,最后,在 At - ICMLREvolveR:机器人间策略转移的连续进化模型
通过在物理模拟器中使用连续进化的模型来实现机器人策略的传递,可以在新机器人上实现优秀的样本利用率,特别是在稀疏奖励的情况下,可以显著减少探索。
- ICLR增强世界模型促进从单个脱机环境实现零样本动态泛化
本论文介绍了如何在在线环境中使用增强世界模型来改善零样本泛化,从而提高强化学习的性能。
- AAAI通过潜在的统一状态表示在强化学习中进行领域自适应
通过使用两个阶段的深度强化学习代理,其中第一阶段学习统一的状态表示,第二阶段在一个源域中基于此状态表示进行强化学习训练,以实现异构领域上的零样本策略转移,该方法已经在 CARLA 自动驾驶模拟器中得到验证。
- 鲁棒受限制马尔科夫决策过程:在模型不确定性下进行软受限制鲁棒策略优化
本文介绍了一个基于 Constrained Markov Decision Process(CMDP)和 Robust Markov Decision Process(RMDP)的框架,即 Robust Constrained-MDPs(R - 机器人深度强化学习中的模拟到真实转移:一项调查
本篇综述涵盖了深度强化学习中模拟转真实环境的基本背景,包括不同方向的方法和应用场景,重点讨论了域随机化、域自适应、模仿学习、元学习和知识蒸馏等方法及其存在的机遇和挑战。
- 基于仿真的强化学习在自主驾驶中的应用
采用强化学习和模拟技术开发驾驶系统,使用合成数据进行训练并验证了其在真实道路环境中的稳健性与有效性。
- KDD运用强化学习和迁移学习的制造调度
本文针对制造业生产中派工问题,运用强化学习提出了一种新的设计方法,将车间状态表示为 2D 矩阵,设计了适用于派工目的的延迟和超时奖励函数,并采用调度策略转移方法增强模型泛化能力和节省模型训练和数据收集时间。实验结果显示该方法在总折扣奖励和平 - 闭环模拟与实现:将模拟随机化应用于现实世界的经验中
本文提出了一种基于模拟场景的策略转移方法,通过改变模拟参数分布并结合少量真实世界回合的训练,以实现在不同机器人任务中的可靠策略转移。
- ADAPT: 随机动态系统的零 - shot 自适应策略转移
本文介绍了一种名为 Adaptive Policy Transfer for Stochastic Dynamics(ADAPT)的算法,它可以实现零 - shot 安全、鲁棒、动态可行的 RL 策略转移至具有动态误差的新领域。ADAPT