May, 2024

深度终身强化学习的统计上下文检测

TL;DR在线的深度强化学习环境中,使用最优输运方法中的距离度量来测量过去和当前数据流中数据点组合之间的距离,并使用经过适应的 Kolmogorov-Smirnov 计算进行统计测试,以为经验序列分配标签。任务检测和策略部署的结合允许优化终身强化学习代理,无需提供任务标签的 oracle。该方法在两个基准测试中得到验证,结果表明与相关上下文检测算法相比,最优输运统计方法为在线上下文检测和奖励优化提供了可解释且合理的程序。