ICLROct, 2019

零阶 Oracle 学习到学习

TL;DR本文将 learning to learn(L2L)框架扩展到零阶(ZO)优化设置,其中没有明确的梯度信息,并将学习的优化器建模为循环神经网络(RNN),通过 ZO 梯度估算器近似梯度,并利用以前迭代的知识产生参数更新,进一步引入另一个 RNN 来学习高斯采样规则并动态指导查询方向采样。我们的学习优化器在合成和实际 ZO 优化任务中表现出优异的收敛率和最终解决方案,特别是在 Black-box Adversarial Attack 任务中。