ICMLFeb, 2022

应对马尔科夫数据随机优化中的混合时间

TL;DR本研究提出了一种新颖的多层蒙特卡罗渐进优化方法,针对含有 Markov 链随机数据的优化问题,能够在不知道 Markov 链混合时间的情况下获得最佳渐进收敛速率,并适用于非凸优化求解及在时间差分 (TD) 学习中获取更好的混合时间依赖性。