ICLROct, 2019
零阶 Oracle 学习到学习
Learning to Learn by Zeroth-Order Oracle
Yangjun Ruan, Yuanhao Xiong, Sashank Reddi, Sanjiv Kumar, Cho-Jui Hsieh
TL;DR本文将 learning to learn(L2L)框架扩展到零阶(ZO)优化设置,其中没有明确的梯度信息,并将学习的优化器建模为循环神经网络(RNN),通过 ZO 梯度估算器近似梯度,并利用以前迭代的知识产生参数更新,进一步引入另一个 RNN 来学习高斯采样规则并动态指导查询方向采样。我们的学习优化器在合成和实际 ZO 优化任务中表现出优异的收敛率和最终解决方案,特别是在 Black-box Adversarial Attack 任务中。