ICMLMay, 2023

分位数时序差分学习在价值估计中的统计优势

TL;DR本研究探讨了强化学习中基于时间差分的策略评估问题,并分析了一种分布式强化学习算法 —— 量化时间差分学习 (QTD) 在此任务中的应用。研究得出了令人惊讶的结论,即使从业者对返回分布的平均值以外的部分不感兴趣,QTD(能够学习返回值的完整分布)在平板设置中也可以表现出优于只预测平均返回值的方法 (如传统的 TD 学习) 的性能。