提出了一种名为 Critic-guided Policy 的算法用于处理深度强化学习中的策略重用问题,通过使用评论家来评估并选择源策略,避免了训练额外的组件,该算法在有效的策略搜索方面表现出良好性能,胜过其它基准算法。
Oct, 2022
本研究提出了一种名为 “Policy Transfer Framework” 的框架,该框架采用多策略转移方式对强化学习中的目标策略进行直接优化,可以很方便地与现有的深度强化学习方法相结合,实验结果表明,该框架明显加速了学习过程,并在离散和连续动作空间中超越了现有的策略转移方法,具有较高的学习效率和最终性能。
Feb, 2020
本文提出了一种在线多臂赌博机方法并结合 Q-learning 算法实现源策略的选择,证明了其最优选择过程和收敛到最优策略的理论保证,同时通过与最先进的传递学习方法在机器人导航领域上的实验比较,证明了其高效性和鲁棒性。
Sep, 2017
本文提出了一种基于收益的策略转移算法 APT-RL,用于在固定领域环境中的强化学习,通过使用 “优势” 作为正则项,避免了启发式选择算法设计,并提出了一种新的转移性能度量来评估算法的性能并统一现有的转移强化学习框架,实验证明在大多数任务上 APT-RL 的性能优于现有的转移强化学习算法,并且比从零开始学习更加高效。
Nov, 2023
提供了一个通用框架用于学习可转移的运动策略,旨在适应一些相似的场景,以解决自主机器行为的问题,并通过户外杂乱环境中的大量实际飞行实验证明了该方法的有效性。
Aug, 2016
我们提出了一种基于仿真的新方法,通过知识图和实体嵌入来表示异构上下文,并使用并行运行的代理集合对需求进行上下文感知型策略的组合。在 “Virtual Home” 数据集上的评估表明,需要在不同上下文之间无缝切换的代理可以即时请求组合策略,以成功完成适应上下文的活动,而无需通过冗长的训练步骤和场景学习这些策略,与应用强化学习的代理不同。
Aug, 2023
探讨了一种通过 Bayesian 优化和策略重用实现长期自主智能的方法,在短期任务执行中,利用一个预先训练的策略库中的策略来响应在线新任务实例,并通过探索和利用平衡策略库性能,实现了对交互式、短期连续任务领域的快速收敛。
May, 2015
本研究旨在提出多源模块化转移学习技术,以减少强化学习所需的环境交互次数并提高知识重用。我们支持这一技术的有效性,并进行了广泛而具有挑战性的视觉控制跨领域实验。
May, 2022
我们提出了一种使用未配对数据学习领域之间状态和动作空间的映射函数的新方法,通过对过渡效果进行对称优化结构的方案,将机器人策略从源领域无缝转移到目标领域,实现了对于不同状态和动作空间的机器人之间的迁移学习和显著降低对齐误差的方法。
Mar, 2024
本文介绍了一种名为 Uncertainty-aware policy search 的策略搜索方法,通过结合与给定环境相关的 UPN 策略,采用类似 DR 的方法,使用鲁棒性贝叶斯优化来制定强鲁棒性策略。在一系列嘈杂的连续控制环境中的实验证明了该方法的有效性。
Feb, 2022