Nov, 2023

一种基于优势的强化学习策略迁移算法及其可迁移性度量

TL;DR本文提出了一种基于收益的策略转移算法 APT-RL,用于在固定领域环境中的强化学习,通过使用 “优势” 作为正则项,避免了启发式选择算法设计,并提出了一种新的转移性能度量来评估算法的性能并统一现有的转移强化学习框架,实验证明在大多数任务上 APT-RL 的性能优于现有的转移强化学习算法,并且比从零开始学习更加高效。