基于在线离线实验的策略搜索贝叶斯优化
本研究基于贝叶斯优化框架,建立高斯过程模型,通过前期实验获得的信息来优化机器学习算法的超参数调整,作者提出可以超过经验人类调参表现的自动算法,并介绍收集实验信息、利用多核心并行实验等新算法。
Jun, 2012
本文介绍一种基于贝叶斯优化的机器学习超参数搜索方法,在训练过程中根据部分信息决定是否暂停、新建模型,以及恢复之前考虑过的模型。该方法特别适合机器学习问题,通过开发一种新的正定协方差核来捕捉多种训练曲线,并开发了一个能够与额外时间观察优雅扩展的高斯过程先验。此外,我们提供了一个信息理论的框架来自动化决策过程。在多种常见的机器学习模型上的实验表明,我们的方法在实践中非常有效。
Jun, 2014
研究在线预测学习的问题,讨论利用新的目标函数进行的非固定、非线性函数近似的脱机学习的关键技能,提供了两个具有挑战性的微观世界中的实证研究结果,总结了脱机学习的相关方法,提供了新的见解,使从业者能够成功应用于大规模应用。
Nov, 2018
本文提出一种结合局部优化与定制内核设计的新型解决方案,有效应对高维分类和混合搜索空间,同时保留样本效率,经实验证明在性能、计算成本等方面优于当前基准。
Feb, 2021
提出了一种基于概率模型的算法,结合了强化学习中的政策梯度方法和贝叶斯优化中的权衡充分利用已知信息选取样本的方法,实现了通过主动挑选样本来提高梯度估计的效果和减少样本复杂度,具有广泛的应用前景。
Jun, 2021
我们研究高维和非稳态情景下的贝叶斯优化。我们提出了一个名为BALLET的框架,通过自适应过滤高置信度感兴趣区域(ROI)来解决现有算法在这些情景中通常需要大量超参数调整的问题。我们的方法易于调整,并能够聚焦于可以应用现有贝叶斯优化方法处理的优化空间的局部区域。关键思想是使用两个概率模型:一个粗糙的高斯过程(GP)用于识别ROI,一个局部化的GP用于ROI内的优化。我们理论上证明了BALLET可以有效缩小搜索空间,并且能够比没有ROI过滤的标准贝叶斯优化展现更紧的遗憾界限。我们通过合成和实际优化任务的实证研究证明了BALLET的有效性。
Jul, 2023
该论文研究了在在线环境中无需探索的情况下,从已记录的反馈中学习互动推荐系统的问题,并提出了一种通用的离线强化学习框架用于推荐,可以通过最大化累积用户奖励来解决问题。为了更有效地进行离线学习,我们提出了五种方法来最小化记录策略和推荐策略之间的分布不匹配:支持约束、监督正则化、策略约束、双重约束和奖励外推。我们在两个公开的现实世界数据集上进行了广泛的实验,证明了所提出的方法在推荐方面相对于现有的监督学习和强化学习方法具有优越的性能。
Oct, 2023
本文研究了在线强化学习问题在无限时间段环境中的高效解决方法,其中假设有一个离线数据集作为起点,由一个未知能力水平的专家生成,我们展示了如果学习代理建模了专家使用的行为策略,它可以在最小化累计遗憾方面表现得更好,我们建立了一个前瞻性依赖先验的遗憾界限,提出了近似的被告知RLSVI算法,可以解释为使用离线数据集进行模仿学习,然后进行在线学习。
Oct, 2023