离线基于模型的优化：通过策略引导梯度搜索

AAAIMay, 2024

离线基于模型的优化：通过策略引导梯度搜索

Offline Model-Based Optimization via Policy-Guided Gradient Search

Yassine Chemingui, Aryan Deshwal, Trong Nghia Hoang, Janardhan Rao Doppa

TL;DR离线优化是一个新兴的问题，在许多实验工程领域，包括蛋白质、药物或飞机设计，由于在线实验以收集评估数据费时或危险，必须在仅有一组固定输入的离线评估基础上优化一个未知函数。为了避免这种情况，可以学习一个未知函数的代理模型并对其进行优化，但这种简单的优化器容易对离线数据集之外的输入过于高估代理模型（可能会因为在有偏函数评估样本上过度拟合）。为填补这一重要空白，我们将离线优化重新定义为一个离线强化学习问题，引入了一种新的学习搜索视角。我们的建议是通过明确学习从离线数据创建的代理模型中获得最佳策略来进行梯度搜索。我们对多个基准测试的实证结果表明，所学习的优化策略能够与现有的离线代理模型相结合，显著提高优化性能。

Abstract

offline optimization is an emerging problem in many experimental engineering domains including protein, drug or aircraft design, where online experimentation to collect evaluation data is too expensive or dangerous. To avoid that, one has to optimize an unknown function given only its

offline optimization surrogate model learning-to-search reinforcement learning optimization performance

发现论文，激发创造

工业过程控制可靠的离线基于模型的优化

利用条件生成对抗网络集成的动态模型和基于信息不确定性的奖励评估函数，实现离线建模优化在工业过程控制中的精确应用。

May, 2022

基于在线离线实验的策略搜索贝叶斯优化

使用离线模拟器并应用多任务贝叶斯优化改进在线机器学习系统的方法，较之仅进行在线实验，能够更有效地探索复杂、多维度的策略空间，并通过学习曲线表明离线实验可以显著提高在线实验结果的准确性和优化速度。

Apr, 2019

百人为导师，百万人引领：自适应离线强化学习与专家指导

离线强化学习中典型问题是分布转移问题，我们提出了一种名为 Guided Offline RL（GORL）的新方法，使用引导网络和少数专家演示样本，自适应确定每个样本的策略改进和策略约束的相对重要性。在各种环境上进行的大量实验表明，GORL 可在大多数离线强化学习算法上轻松安装，并实现统计上显著的性能提升。

Sep, 2023

带有梯度惩罚和约束松弛的鲁棒离线强化学习

本文介绍了解决离线强化学习面临的数据污染问题的一系列技术，包括梯度惩罚和批评家权重约束松弛等方法，并在 D4RL Mujoco 和 Adroit 数据集上进行了实验验证。

Oct, 2022

离线在线强化学习的自适应策略学习

本文介绍了一种名为自适应策略学习的框架，可用于离线学习与在线学习的融合，并通过采用乐观 / 贪心和悲观更新策略来提高离线数据集的质量，进而通过将值或基于策略的 RL 算法嵌入其中来实现。在各种连续控制任务上进行的实验表明，该算法可以在离线数据集质量较差的情况下实现高样本效率。

Mar, 2023

离线监督学习 VS 在线直接策略优化：神经网络最优反馈控制的比较研究和统一训练范式

本文旨在寻找以神经网络为基础的反馈控制器，以高效地解决最优控制问题。研究表明，在线直接政策优化和离线监督学习这两种方法中，离线监督学习的优化和训练时间更具优势，并提出了一种称为 'Supervised Pre-train and Fine-tune' 的训练方法，可显著提高性能和鲁棒性。

Nov, 2022

离线基于模型的强化学习中设计选择的重新审视

本研究比较不同的不确定性启发式方法，并设计新的协议来研究它们与其他超参数的交互作用，使用这些洞见，我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置，这与现有手动调整的最先进方法大不相同，从而实现了大幅度的强化学习。

Oct, 2021

MOPO: 基于模型的离线策略优化

本文提出了一种基于模型的离线策略优化算法 (MOPO)，通过将模型地图上未知点处的即时报酬设置为高风险，从而优化模型训练过程中的代理策略，以解决离线数据分布发生漂移的问题，并在现有数据集和具有挑战性的连续控制任务中获得了最佳表现。

May, 2020

从函数到分布建模：离线优化的 PAC - 生成方法

该研究论文探讨了离线优化的问题，其中目标函数除了一系列 “离线” 数据示例外是未知的。与近年来关于将各种机器学习技术应用于离线优化问题的研究相比，大多数工作集中于学习未知目标函数的替代模型，然后应用现有的优化算法。与学习未知目标函数并优化它的想法相比，本文采用了一种不太直观但更直接的观点，即优化可以被视为从生成模型中进行采样的过程。通过对离线数据示例进行有效的生成模型学习，我们考虑了 “重新加权” 的标准技术，并且我们的主要技术贡献是对自然优化目标的可能近似正确 (PAC) 下界的确定，这使得我们能够共同学习一个加权函数和基于分数的生成模型。通过使用标准离线优化基准进行的实证研究证明了所提方法的稳健竞争性能。

Jan, 2024

使用策略梯度的端到端离线目标导向型对话策略学习

本文提出了一种离线强化学习方法，可从未标注的语料库中学习，既可以在话语级别上进行优化又可以在对话级别上进行优化，解决了现有方法对话级别考虑不足的问题，并使用了一种新的奖励函数和在线 / 离线策略梯度来学习无需在线用户交互或显式状态空间定义的策略。

Dec, 2017