May, 2023

TD-learning 下表示动态的更好理解

TL;DR探讨了 TD-learning 对时间序列中状态表示的影响,特别是在环境可逆的情况下,TD-learning 可以严格减少价值近似误差,同时将其与转移矩阵的谱分解相联系,并用随机生成的奖励拟合多个值函数来辅助表征学习。