AlphaGo 中的贝叶斯优化
本文提出使用基于人口的训练 (PBT) 方法动态调整超参数并在训练过程中提高模型性能,证明该方法在 9x9 Go 上获得了更高的胜率,在 19x19 Go 上相比于 AlphaZero 的饱和版本获得了更高的胜率 (74% vs 47%)
Mar, 2020
本研究基于贝叶斯优化框架,建立高斯过程模型,通过前期实验获得的信息来优化机器学习算法的超参数调整,作者提出可以超过经验人类调参表现的自动算法,并介绍收集实验信息、利用多核心并行实验等新算法。
Jun, 2012
本文提出了一种基于贝叶斯优化的方法,该方法可以利用学习算法的迭代结构来有效地调整超参数。在深度强化学习和卷积神经网络训练中,我们的算法通过选择最佳超参数的方式,以最小时间成本实现了调优。
Sep, 2019
该研究介绍了使用新的 AlphaZero 算法以及无领域知识的方式进行强化学习,让计算机在三个领域的棋类游戏:围棋、象棋和将棋中均以超级专业水平进行游戏。
Dec, 2017
在这项工作中,我们提出了一种基于 GoOSE 算法的实时纯数据驱动的自适应控制方法,用于在线调整低级控制器参数,从而处理性能和稳定性的要求,并通过修改负载和参考步长将其与插值约束优化方法进行比较,用于评估算法在半导体行业应用中实现的真实精密运动系统的性能。
Apr, 2024
采用 AlphaZero 算法中的深度神经网络和引导树搜索,结合深度前瞻技术, 实现了量子优化过程的全新探索方式。AlphaZero 算法在三类控制问题上经过应用和基准测试, 能够显著提高优质解集的质量和数量,并能够自主学习预期外的隐藏结构和全局对称性。
Jul, 2019
本文介绍了 NeurIPS 2020 的黑盒优化挑战赛结果和洞见,强调了评估无导数优化器以调整机器学习模型的超参数的重要性,并在真实数据集上基于多个标准机器学习模型的调整性能进行了排名。
Apr, 2021
使用搜索算法和深度强化学习,本文提出并分析了使用 AlphaZero 和 Descent 算法自动学习多人版围棋。进一步展示了搜索算法和深度强化学习提高了棋局水平的结果。
May, 2024