模拟、快慢学习：学习黑箱优化的策略

Jun, 2024

模拟、快慢学习：学习黑箱优化的策略

Simulating, Fast and Slow: Learning Policies for Black-Box Optimization

Fabio Valerio Massoli, Tim Bakker, Thomas Hehn, Tribhuvanesh Orekondy, Arash Behboodi

TL;DR通过学习主动学习策略和使用代理模型的梯度从而使用梯度下降法优化模拟参数，本文引入了一种新的方法来解决类似黑盒优化问题的一类问题。经过训练后，相对于局部代理模型方法、数值优化和贝叶斯方法，基于黑盒模拟器的问题的下游优化仅需要约 90％较少的昂贵模拟调用。

Abstract

In recent years, solving optimization problems involving black-box simulators has become a point of focus for the machine learning community due to their ubiquity in science and engineering. The simulators descri

black-box simulators optimization problems gradient descent active learning policy surrogate-based approaches

发现论文，激发创造

带有并行可微模拟的加速策略学习

本文提出 SHAC 算法，该算法基于高性能可微分模拟器，可以有效利用模拟梯度，避免局部最小值问题，并通过截断学习窗口来避免梯度消失或爆炸。在控制任务中表现出更高的样本效率和更短的训练时间。

Apr, 2022

AutoSimulate:（快速）学习合成数据生成

通过一种新的可微分逼近目标的方法，提出了一种有效的用于生成最优合成数据的替代方法，该方法可通过优化非可微模拟器，在每个迭代中仅需一个目标评估带有小的开销，在真实测试数据集上可以以较少的训练数据生成更快的理想数据分布（高达 50 倍）并具有更高的准确率（+ 8.7％），比以前的方法更好地解决了模拟机器学习算法中大型标记数据集的生成问题。

Aug, 2020

学习模拟

本研究提出了一种基于强化学习的方法，用于自动调整非可微模拟器的参数，从而控制合成数据的分布以最大化模型的精度，相较于现有技术，该方法全面控制模拟器以最大化精度。

Oct, 2018

多层次约束优化问题中的随机黑盒模拟器

利用 Scout-Nd 算法进行多维随机约束优化，通过有效估计梯度、降低梯度估计噪声和应用多保真度方案，减少计算工作量，在标准基准测试中验证了该方法的有效性，表现出优于现有方法的性能。

Nov, 2023

无模型模仿学习与策略优化

在模仿学习中，我们使用基于样本的方法开发了一种基于策略梯度的算法，即通过学习专家的样本轨迹，找到至少与专家策略一样好的参数化随机策略；该算法可以应用于高维度环境，并保证收敛到局部最小值。

May, 2016

学习主动任务导向的探索策略，弥合模拟与现实之间的差距

本文提出并分析了一种基于任务导向探索的框架，该框架通过在模拟环境中学习任务导向的探索策略来标识任务相关的系统参数，并将这些参数用于在现实世界中进行基于模型的轨迹优化。实验表明，任务导向的探索有助于在系统参数未知时，使基于模型的策略适应更好，从而实现更好的任务表现。

Jun, 2020

模拟未知目标模型进行查询效率高的黑盒攻击

研究了在黑盒情况下深度神经网络的安全问题，并提出一种称为 “模拟器” 的广义替代模型来模拟任何未知目标模型的功能，从而降低了大量查询的复杂度。

Sep, 2020

从隐式模型中挖掘金子，以改善无似然推理

介绍了一种新型的基于模拟的推断技术，在高维情况下，这种技术超越了传统的近似贝叶斯计算方法，并扩展了基于神经网络的代理模型的方法，并演示了这些新技术比传统方法更具样本效率和提供更高保真度的推断。

May, 2018

基于最优模拟的贝叶斯决策

通过学习预期效用（或其分布）作为动作和数据空间的函数的代理模型，我们提出了一个高效计算在难以计算的似然函数下的最优贝叶斯决策的框架。我们利用基于模拟的推断和贝叶斯优化的最新进展，开发了主动学习方案来选择参数和动作空间中要模拟的位置，从而尽可能少地进行模拟来学习最优动作。该框架非常高效，通常需要的模型调用次数比相关的后验推断任务少，并且比基于蒙特卡洛方法的方法高出 100-1000 倍。我们的框架为进行贝叶斯决策提供了新的能力，特别是在似然函数难以处理且模拟昂贵的挑战性领域。

Nov, 2023

通过部分模拟的外推为模拟优化器提供非正式安全保证

自我监督学习是最先进的语言建模的基础。本文利用嵌入式智能体的笛卡尔框架模型，将单智能体世界扩展至多智能体世界，提出了一种名为 Cartesian object 的变体用于表示模拟，其中函数如令牌选择和模拟复杂性在模拟器的行为中进行了形式化，并通过 L"obian 障碍证明了通过设计检查模拟之间的一致性是不可能的。接着，提出了一种名为 Partial Simulation Extrapolation 的方案，旨在通过评估低复杂度的模拟来规避 L"obian 障碍。

Nov, 2023