Jul, 2024

优先重放与泛化之间的相互作用研究

TL;DR经验回放在强化学习中广泛应用,本论文通过研究多种优先级经验回放的变体,尝试理解优先级经验回放的适用性和效果。研究结果表明,在预测任务中,优先级经验回放可以改善表格设置中的值传播,但在与神经网络结合时存在显著区别。虽然一些缓解措施可以避免优先级经验回放和神经网络中出现大的误差峰值,但总体而言,它们通常不如均匀回放策略。在控制任务中,没有证据表明任何优先级变体能够一致地优于均匀回放。