Aug, 2023

贝尔特反例已解决:附带两个时间尺度算法调试示例

TL;DR针对 Baird 反例问题,研究解决了 TD 算法在该问题上发散以及收敛速度缓慢的问题,并提出了具有收敛保证和快速收敛率的算法解决了 Baird 反例问题。