Jun, 2024

模拟引理的最优紧密度界限

TL;DR我们提出了一种关于模型误差的值预测误差的边界,包括常数因子。这是强化学习中的基础结果 “模拟引理” 的直接改进。我们通过谨慎考虑这个数量本身,而不是作为值误差的子组件,推导出一种与转换函数误差相关的次线性边界,并在相关的分层抽象子领域证明了这种技术的更广泛适用性。