Apr, 2019

基于在线离线实验的策略搜索贝叶斯优化

TL;DR使用离线模拟器并应用多任务贝叶斯优化改进在线机器学习系统的方法,较之仅进行在线实验,能够更有效地探索复杂、多维度的策略空间,并通过学习曲线表明离线实验可以显著提高在线实验结果的准确性和优化速度。