零阶 Oracle 学习到学习

ICLROct, 2019

Learning to Learn by Zeroth-Order Oracle

Yangjun Ruan, Yuanhao Xiong, Sashank Reddi, Sanjiv Kumar, Cho-Jui Hsieh

TL;DR本文将 learning to learn（L2L）框架扩展到零阶（ZO）优化设置，其中没有明确的梯度信息，并将学习的优化器建模为循环神经网络（RNN），通过 ZO 梯度估算器近似梯度，并利用以前迭代的知识产生参数更新，进一步引入另一个 RNN 来学习高斯采样规则并动态指导查询方向采样。我们的学习优化器在合成和实际 ZO 优化任务中表现出优异的收敛率和最终解决方案，特别是在 Black-box Adversarial Attack 任务中。

Abstract

In the learning to learn (L2L) framework, we cast the design of optimization algorithms as a machine learning problem and use deep neural networks to learn the update rules. In this paper, we extend the L2L framework to zeroth-order (ZO) optimization setting, where no explicit

learning to learn zeroth-order optimization recurrent neural network gradient algorithm

发现论文，激发创造

DeepZero：扩展零阶优化以提升深度模型训练

DeepZero 是一个基于 Zeroth-order optimization 的深度学习框架，通过三个主要创新使得 ZO 优化可用于深度神经网络的训练，同时实现了与一阶优化相当的性能，其优点包括坐标梯度估计（CGE）在训练准确性和计算效率上的优势，以及利用模型剪枝方法扩展稀疏 DL 先验信息的 ZO 训练协议，并通过特征重用和前向并行化方法提高 ZO 训练的实际实施。

Oct, 2023

零阶优化迎接人类反馈：通过排名预言实现可证明的学习

研究使用一个新的零阶优化算法来解决只有排名反馈的黑盒子目标函数，并将其应用于强化学习中的政策搜索问题以及提高扩散生成模型生成图像质量方面的有效性的问题。

Mar, 2023

信号处理和机器学习中零阶优化入门

本文综述了零阶优化的方法，重点介绍了其优化思想、原则以及近年来的收敛分析进展。此外还介绍了零阶优化的一些应用，例如评估深度学习模型的鲁棒性、生成黑盒模型的解释以及在线传感器管理等。

Jun, 2020

重新考虑用于内存高效 LLM 微调的零阶优化：基准测试

本研究旨在提出一种采用零阶优化的方法，以减少在大规模语言模型训练中由反向传播算法所引起的显著内存开销，从而实现内存更高效的模型微调。

Feb, 2024

构建数学结构以实现学习优化

本文提出了一种基于数学原理的 L2O 模型，通过数值模拟验证了该模型的理论发现并展示了其超越普通 L2O 模型的优越性。

May, 2023

基于 Hessian 感知的零阶优化黑盒对抗攻击

本文提出了一个基于 Hessian 矩阵的零阶优化算法 ZO-HessAware，用于黑盒对抗攻击，该算法的实验证明在结构化 Hessian 逼近的情况下，具有更好的零阶收敛率和查询复杂度。

Dec, 2018

零阶演员 - 评论家

提出了一种新的零阶演员评论家算法（ZOAC），将进化型的零阶优化方法和基于政策梯度的一阶方法统一到一个政策演员结构中，解决了两种算法的缺陷，获得了更高的样本效率和更强的鲁棒性。

Jan, 2022

ZOO: 无需训练替代模型的基于零阶优化的黑盒攻击深度神经网络

本文提出了零阶优化的黑盒攻击方法，该方法不需要训练替代模型而直接估计目标 DNN 的梯度来生成对抗性例子，实验结果表明该攻击方法在 MNIST、CIFAR10 和 ImageNet 的数据集上与白盒攻击方法效果相当且明显优于现有的替代模型的黑盒攻击方法。

Aug, 2017

零阶极度稀疏 LLMs 的微调

本研究通过将稀疏性和量化技术整合到零阶优化（ZO）细调的大型语言模型（LLM）中，从而解决在内存受限环境（如移动电话和笔记本电脑）中使用 ZO 细调的挑战。研究结果表明，使用 ZO 对 LLM 进行 0.1% 敏感参数细调能优于全面细调，并同时提供加速的速度。此外，结合 4 位量化技术，ZO 对 Llama2-7B 模型的高效细调在 GPU 设备上不到 8 GB 内存的限制下实现了显著降低的延迟。

Jun, 2024

ZO-AdaMM：零阶自适应动量方法用于黑盒优化

该研究提出了一种名为 ZO-AdaMM 的零阶梯度黑盒优化方法，它将 AdaMM 通用于无梯度形式的场景，并阐述了它的收敛率问题以及在非凸约束优化问题中的适用性，最终通过 ImageNet 数据的两个实验应用证明了 ZO-AdaMM 的高精确度和快速收敛能力。

Oct, 2019