Jun, 2023

强化学习目标的一般视角

TL;DR该论文提出了一种泛化的强化学习目标函数,其中包括标准的目标定义、扩展的λ回报版本和通过统一前两个版本提出的强化学习的目标函数,它可以高级地理解强化学习的目标,并连接一些广泛使用的强化学习技术(例如TD(lambda)和GAE),这个目标函数可能适用于广泛的强化学习算法。