Feb, 2020

基于种群的赌博机在线超参数优化的可证明有效性

TL;DR本论文提出了 Population-Based Bandits (PB2) 这一算法,采用概率模型来更高效地搜索超参数配置,从而在计算资源有限的情况下发现高性能的超参数配置。在一系列强化学习实验中,证明了 PB2 可以在适度的计算预算下实现高性能。