AlphaGo 中的贝叶斯优化

Dec, 2018

Bayesian Optimization in AlphaGo

Yutian Chen, Aja Huang, Ziyu Wang, Ioannis Antonoglou, Julian Schrittwieser...

TL;DR通过贝叶斯优化，不断调节 AlphaGo 的众多超参数，从而在自我博弈过程中显著提高了其胜率，为 Go 爱好者提供了一些启示和灵感。

Abstract

During the development of alphago, its many hyper-parameters were tuned with bayesian optimization multiple times. This automatic tuning process resulted in substantial improvements in →

alphago bayesian optimization playing strength lee sedol self-play games

发现论文，激发创造

使用基于人口的训练加速和改进 AlphaZero

本文提出使用基于人口的训练 (PBT) 方法动态调整超参数并在训练过程中提高模型性能，证明该方法在 9x9 Go 上获得了更高的胜率，在 19x19 Go 上相比于 AlphaZero 的饱和版本获得了更高的胜率 (74% vs 47%)

Mar, 2020

机器学习算法的实用贝叶斯优化

本研究基于贝叶斯优化框架，建立高斯过程模型，通过前期实验获得的信息来优化机器学习算法的超参数调整，作者提出可以超过经验人类调参表现的自动算法，并介绍收集实验信息、利用多核心并行实验等新算法。

Jun, 2012

迭代学习的贝叶斯优化

本文提出了一种基于贝叶斯优化的方法，该方法可以利用学习算法的迭代结构来有效地调整超参数。在深度强化学习和卷积神经网络训练中，我们的算法通过选择最佳超参数的方式，以最小时间成本实现了调优。

Sep, 2019

加速围棋自我博弈学习

通过改进 AlphaZero 的过程和架构，我们在 Go 中极大地加速了自我博弈学习，与类似方法相比，计算量减少了 50 倍。

Feb, 2019

使用通用增强学习算法通过自我对弈掌握国际象棋和将棋

该研究介绍了使用新的 AlphaZero 算法以及无领域知识的方式进行强化学习，让计算机在三个领域的棋类游戏：围棋、象棋和将棋中均以超级专业水平进行游戏。

Dec, 2017

自适应贝叶斯优化在高精度运动系统中的应用

在这项工作中，我们提出了一种基于 GoOSE 算法的实时纯数据驱动的自适应控制方法，用于在线调整低级控制器参数，从而处理性能和稳定性的要求，并通过修改负载和参考步长将其与插值约束优化方法进行比较，用于评估算法在半导体行业应用中实现的真实精密运动系统的性能。

Apr, 2024

AlphaZero 深度探索下的量子动力学全局优化

采用 AlphaZero 算法中的深度神经网络和引导树搜索，结合深度前瞻技术，实现了量子优化过程的全新探索方式。AlphaZero 算法在三类控制问题上经过应用和基准测试，能够显著提高优质解集的质量和数量，并能够自主学习预期外的隐藏结构和全局对称性。

Jul, 2019

在线微调的游戏求解

应用在线微调的方法解决游戏问题，在计算时间上相比基准方法仅使用了 23.54%，表明节约的规模与问题的大小成正比。

Nov, 2023

贝叶斯优化在机器学习超参数调节方面优于随机搜索：对 2020 年黑匣子优化挑战的分析

本文介绍了 NeurIPS 2020 的黑盒优化挑战赛结果和洞见，强调了评估无导数优化器以调整机器学习模型的超参数的重要性，并在真实数据集上基于多个标准机器学习模型的调整性能进行了排名。

Apr, 2021

5*5 多人围棋的深度强化学习

使用搜索算法和深度强化学习，本文提出并分析了使用 AlphaZero 和 Descent 算法自动学习多人版围棋。进一步展示了搜索算法和深度强化学习提高了棋局水平的结果。

May, 2024