AAAIMay, 2024

离线基于模型的优化:通过策略引导梯度搜索

TL;DR离线优化是一个新兴的问题,在许多实验工程领域,包括蛋白质、药物或飞机设计,由于在线实验以收集评估数据费时或危险,必须在仅有一组固定输入的离线评估基础上优化一个未知函数。为了避免这种情况,可以学习一个未知函数的代理模型并对其进行优化,但这种简单的优化器容易对离线数据集之外的输入过于高估代理模型(可能会因为在有偏函数评估样本上过度拟合)。为填补这一重要空白,我们将离线优化重新定义为一个离线强化学习问题,引入了一种新的学习搜索视角。我们的建议是通过明确学习从离线数据创建的代理模型中获得最佳策略来进行梯度搜索。我们对多个基准测试的实证结果表明,所学习的优化策略能够与现有的离线代理模型相结合,显著提高优化性能。