ICMLMar, 2020

时间差分学习中的干涉与泛化

TL;DR研究了时间差分学习中概括和干扰之间的联系,发现时间差分学习容易导致低干扰,欠缺概括性的参数,而这一效应在监督学习中则相反。此现象可以追溯到干扰和自举之间的相互作用,并在实验证实,希望这些新的发现可以指导未来方向的自举方法的发现。