ICMLJun, 2022

函数逼近的 Epsilon-Greedy 强化学习保证

TL;DR本文针对 RL 领域中近视探索政策(如 epsilon-greedy、softmax 或 Gaussian noise)在实际应用中表现出全部、部分失败的情况,提出了一种称为 “myopic exploration gap” 的新复杂度度量方式,探讨了它们在特定任务中表现出良好性质和优势。