May, 2019

解决贝尔曼方程的核损失

TL;DR本文提出了一种新的损失函数,可以使用标准的梯度下降优化,避免了以往算法中需要双样本的问题,并可以与深度学习等函数类相结合,且在多个基准测试中表现可靠和有效。