Jan, 2024

加速近似汤普森抽样与欠阻尼 Langevin 蒙特卡洛

TL;DR使用欠阻尼 Langevin Monte Carlo 的近似 Thompson 抽样策略,改善了高维问题中需求高准确性时的可扩展性问题,并通过合成实验在高维赌博问题中经验验证了该算法的可扩展性和鲁棒性。