ICMLJun, 2023

Thompson 采样在 GFlowNets 中的应用提高探索性能

TL;DR本文提出了一种基于多臂赌博机思想的贝叶斯技术算法(TS-GFN),将训练过程中的轨迹选择视为主动学习问题,从学习策略的近似后验分布中采样轨迹来提高探索效率,进而比过去的离线探索策略更快地收敛至目标分布,在两个领域的实验中证明了其优越性。