Mar, 2024

不完美代理的合作贝叶斯优化

TL;DR我们提出了一种合作的贝叶斯优化问题,用于优化两个变量的黑盒函数,其中两个代理一起选择在哪些点查询函数,但每个代理只能控制一个变量。这个设置受到人工智能与人类合作的启发,在这种简单情况下进行协同优化。我们将解决方案制定为顺序决策过程,我们控制的代理将用户建模为一个具有先验知识的计算有理主体。我们展示了通过战略查询规划可以更好地识别函数的全局最大值,只要用户避免过度探索。这种规划是通过使用贝叶斯自适应蒙特卡洛规划以及赋予代理用户模型来实现的,该用户模型考虑了保守的信念更新和查询点的探索性采样。