Jun, 2024

强化学习中的时间离散化特异性

TL;DR我们考虑了连续时间和离散时间回报的定义之间的关系,并注意到简单的修改如何更好地对齐回报的定义。这个观察在处理时间离散化粒度是一个选择的环境,或者粒度本身是随机的情况下,具有实际意义。