介绍了一种新的多任务算法用于强化学习任务,该算法显着减少了探索的每个任务的样本复杂性,并保证不会出现负转移,与对应的单任务算法相比具有可比性。
Sep, 2013
Leap是一个基于元学习的框架,通过在学习过程中跨任务间传递知识,从而在计算机视觉任务上优于竞争方法,且可以在涉及数百万梯度步骤的强化学习环境中实现跨学习过程的知识转移。
Dec, 2018
调查了深度强化学习中迁移学习方法的最新进展,提供了对目标,方法,兼容强化学习骨架以及实际应用等方面分析的框架,并从强化学习的角度探讨了迁移学习与其他相关话题之间的联系和潜在挑战。
Sep, 2020
本文探索了使用网络蒸馏作为特征提取方法的转移学习,发现蒸馏不妨碍知识转移,包括从多个任务到一个新任务的转移,结果比没有使用蒸馏更优。
Oct, 2022
探索利用平衡是强化学习领域中一个著名且被广泛研究的问题,该研究旨在探讨探索策略在在线任务迁移中的作用并分析探索方法的不同之处以期为未来的研究提出方向。
本文研究分层强化学习的并行传输学习框架,提出了新的在线学习算法以及转移来源选择机制来实现对高层任务的常数后悔性,在多低层任务的情况下也能获得更大的状态行为空间的利益。
Feb, 2023
使用混合模型驱动的继任特征算法和不确定性感知探索的方法,能够在具有不同转换动力学或/和奖励函数的任务之间实现高效的知识传输,并且在决策时间上所需的计算量较少。通过与最近的继任特征算法和模型驱动方法进行对比,结果表明我们的算法能够在不同的转换动力学中泛化知识,使用明显更少的样本学习下游任务,并且优于现有方法。
Oct, 2023
当代人工智能系统的不断发展需要相应的资源、大量数据集和计算基础设施,特别是在限制环境下的基础研究和应用中,知识的表示通过各种模态呈现,包括动力学和奖励模型、价值函数、策略和原始数据。该论文系统地讨论了这些模态,并基于其固有属性和与不同目标和机制之间的相互关系来进行讨论,以实现知识的迁移和推广,并分析了特定形式的转移出现或稀缺的原因,并强调从设计到学习的转移的重要性。
Dec, 2023
量化和比较强化学习算法通过知识传递在探索和学习方面的努力,并使用基于最优输运的度量方法比较强化学习和监督学习算法在数据分布空间中的路径总长度,从而提供有关强化学习算法的探索行为的洞见并比较不同算法的探索行为。
Feb, 2024
通过分析探索算法的特点和效果,我们研究了深度强化学习中的在线迁移学习,发现某些特征与多种迁移任务的有效性和效率改善相关,为特定迁移情况提供了有针对性的探索算法特征建议。
Apr, 2024