本文提出了一种在线多臂赌博机方法并结合 Q-learning 算法实现源策略的选择,证明了其最优选择过程和收敛到最优策略的理论保证,同时通过与最先进的传递学习方法在机器人导航领域上的实验比较,证明了其高效性和鲁棒性。
Sep, 2017
本篇论文介绍了一种将在线增强学习与经典控制的元素(基于 Lyapunov 稳定性理论)进行结合的方法,可在不进行长期预训练的情况下为移动机器人提供稳定的控制能力,并通过实验研究证明了该方法的有效性。
Jul, 2022
本文介绍了一种名为 EF-OnTL 的无专家自动选择知识传递源和知识传递方式的算法,以及一种名为 sars-RND 的方法来提高不确定性估计,通过在 Cart-Pole,mt-pp 和 HFO 数据集上进行的实验,证明了该算法相对于无传递情景的改善。
Mar, 2023
本研究旨在探究在不同动作空间领域之间进行知识传递的可能性和有效性,提出了一种基于源嵌入相似性的奖励塑形方法,可适用于具有离散和连续动作空间的领域。在 Acrobot-v1 和 Pendulum-v0 领域上,基于两个基线的比较表明我们的方法没有在连续动作空间中取得更好的结果,但在离散动作空间中确实表现出了改进。
Feb, 2022
本文研究分层强化学习的并行传输学习框架,提出了新的在线学习算法以及转移来源选择机制来实现对高层任务的常数后悔性,在多低层任务的情况下也能获得更大的状态行为空间的利益。
Feb, 2023
调查了深度强化学习中迁移学习方法的最新进展,提供了对目标,方法,兼容强化学习骨架以及实际应用等方面分析的框架,并从强化学习的角度探讨了迁移学习与其他相关话题之间的联系和潜在挑战。
Sep, 2020
我们提出了一种学习模仿专家行为并能在以前未见过的领域进行迁移学习的算法。通过使用 AnnealedVAE 来学习一个解缠缚状态表示,并通过学习一个单一的 Q 函数来模仿专家,我们结合了深度强化学习中的最新进展,从而克服了奖励函数设计的困难、在不同领域部署已学习策略的困难,以及直接在现实世界中学习由于安全问题而昂贵或不可行的问题。在 3 个环境中展示了我们方法的有效性,这些环境的难度和迁移知识类型各不相同。
Oct, 2023
通过对跨领域强化学习的了解和分类,以及对数据假设需求进行特征分析,本文全面系统地介绍了不同领域知识传递方法的研究,讨论了交叉领域知识传递的主要挑战以及未来研究方向。
Apr, 2024
本研究旨在提出一种模型基础的强化学习元学习方法,以在明显减少样本数量的情况下实现机器人在线适应新任务,并证明该方法在模拟和实际机器人中的有效性。
Mar, 2018
本文研究了在混合设置中对表格强化学习算法的探讨,通过利用已有的离线数据集以及未知环境中的在线交互,提出了一种高效的三阶段算法,不需要在数据收集期间提供任何奖励信息并且减少了样本的复杂度。
May, 2023