Mar, 2024

切换损失减少批处理强化学习成本

TL;DR我们提出使用对数损失函数训练拟合 Q - 迭代(FQI-LOG)进行批量强化学习。我们证明了使用 FQI-LOG 学习接近最优策略所需要的样本数量与最优策略的累积成本成比例,而在问题中,如果行为最优则可以达到目标且不会产生成本,所以最优策略的累积成本为零。通过这样做,我们为批量强化学习中的 “小成本” 界限提供了一个通用框架,即与最优可达成成本成比例的界限。此外,我们经验证明,在最优策略可靠达到目标的问题上,FQI-LOG 使用的样本比使用平方损失训练的 FQI 要少。