Jul, 2023

子模强化学习

TL;DR在强化学习中,通过使用次模式集函数来捕捉递减回报值,我们提出了SubRL的范例,该范例旨在优化非加性的奖励,通过贪婪地最大化边际收益,我们的算法SubPO能够处理非加性奖励并且恢复出亚模拟赌博的最优恒定因子逼近,我们还引入了一种自然的政策梯度方法来在大型状态和行动空间下优化SubRL实例,我们将SubPO应用于生物多样性监测、贝叶斯实验设计、信息路径规划和覆盖最大化等多个应用中,结果表明我们的方法在样本效率和可伸缩性方面都表现出良好的性能。