Dec, 2023

从过去到未来:重新思考资格追踪

TL;DR我们介绍了对信用分配和政策评估挑战的新视角,并引入了双向值函数的概念,它可以同时考虑未来期望回报和过去累计回报,通过实验证明这种价值函数在增强政策评估过程中的有效性。