Dec, 2023

强化学习中的全局自由和实例相关固定函数逼近的遗憾界限

TL;DR通过提出 UCRL-WVTR 算法,解决强化学习中长期规划问题;该算法实现了无视时间限制和依赖实例的特点,且具有计算效率;算法设计和细致分析基于函数近似,达到了无时间限制、依赖实例和尖锐后悔界限的目标;理论研究得到了大量的实验验证。