ICMLJan, 2023

关于时序差分学习的统计优势

TL;DR本文介绍了使用 TD 方法估计值函数的优势,即使用一种新的度量方法 - 问题的轨迹跨越时间,可以在一定程度上提高两个状态的值差的测量准确性。