May, 2019

批量强化学习中的信息论考虑

TL;DR本文探讨了在批处理模式下操作的值函数逼近方法,在有限样本和保证的前提下,分析了分布变化和强表示条件等假设的必需性和自然性,并提供了相关的理论结果。