从多个 MDPs 转移
本研究旨在提出多源模块化转移学习技术,以减少强化学习所需的环境交互次数并提高知识重用。我们支持这一技术的有效性,并进行了广泛而具有挑战性的视觉控制跨领域实验。
May, 2022
本研究探讨了强化学习中的表征传递问题,提出了一种基于预训练和生成访问的新方法,可以帮助在源任务中发现一个共享表征来快速收敛到一个接近最优策略的目标任务中。
May, 2022
本文提出了一种算法,通过生成一个小且有效的源子集,以实现在强化学习中的全生命周期,基于策略重用的传递学习,从而代表已经学习完最佳策略的一组 MDP。同时,提出了一个聚类的框架,用于提取源子集,并通过在监控领域的实验证实了算法的有效性。
Nov, 2013
本研究提出了一种名为 “Policy Transfer Framework” 的框架,该框架采用多策略转移方式对强化学习中的目标策略进行直接优化,可以很方便地与现有的深度强化学习方法相结合,实验结果表明,该框架明显加速了学习过程,并在离散和连续动作空间中超越了现有的策略转移方法,具有较高的学习效率和最终性能。
Feb, 2020
本文介绍了一种基于多个技能先验的强化学习方法,通过学习每个任务所需技能的先验分布,并将任务的相似性与先前的任务进行比较,以指导在新任务上学习策略,从而更好地推广到训练中从未遇到的新任务。
Sep, 2022
本文研究分层强化学习的并行传输学习框架,提出了新的在线学习算法以及转移来源选择机制来实现对高层任务的常数后悔性,在多低层任务的情况下也能获得更大的状态行为空间的利益。
Feb, 2023
本论文提出了一种基于深度强化学习技术的 MDP planning domains 的无模型迁移学习算法,通过利用 RDDL 表示中的符号状态配置和转移函数,使得零 / 极少量训练和无需使用领域模拟器的迁移成为可能。
Oct, 2018
通过开发半监督对齐损失来匹配不同空间的一组编码器 - 解码器,本研究研究了如何衡量跨领域强化学习任务之间的相似性,以选择能够提高学习代理性能的知识源。实验结果表明,在各种 Mujoco 控制任务中,我们的方法能够有效地选择和传递知识,而无需与专家策略相匹配、配对或收集数据的监督。
Dec, 2023