Oct, 2023

具有延迟反馈的后验抽样用于线性函数逼近的强化学习

TL;DR使用后验采样算法处理强化学习中的延迟反馈问题,通过线性函数逼近在减少样本复杂性的同时实现更好的性能表现,并在未知随机延迟的情况下具有最坏情况遗憾上界。