高效内存可微分 Transformer 架构搜索

ACLMay, 2021

高效内存可微分 Transformer 架构搜索

Memory-Efficient Differentiable Transformer Architecture Search

Yuekai Zhao, Li Dong, Yelong Shen, Zhihua Zhang, Furu Wei...

TL;DR本文提出了一种结合可微分架构搜索（DARTS）和多分裂可逆网络的算法，以提高在序列到序列数据集上的性能，并优于传统 Transformers。

Abstract

differentiable architecture search (DARTS) is successfully applied in many vision tasks. However, directly using DARTS for transformers is memory-intensive, which renders the search process infeasible. To this en

differentiable architecture search transformers reversible network sequence-to-sequence experimental results

发现论文，激发创造

Progressive DARTS: 在野外框架中弥合 NAS 的优化差距

本篇论文提出了一种名为 P-DARTS 的算法来解决神经网络架构搜索中的 transfer learning 问题，并在 CIFAR10 数据集以及几个目标问题（包括 ImageNet 分类，COCO 检测和三个 ReID benchmarks）上实现了更好的性能。

Dec, 2019

DARTS-ASR: 可微分的架构搜索用于多语言语音识别和适应

本文介绍了一种使用 DARTS-ASR 进行自动语音识别模型搜索的方法，并在多种语言和多种 ASR 设置中，相对于基线固定拓扑架构，在字符错误率方面取得了 10.2％和 10.0％的提升。

May, 2020

可微分架构搜索的理解和稳健性提高

本文研究了 Differentiable Architecture Search 在新问题上失效的问题，发现了通过添加不同类型的正则化项可以改善其在架构空间中高验证损失曲率区域的性能，提出了几种简单的改进方案，实测表现更加稳健。这些观察结果适用于五种搜索空间，三个图像分类任务，以及稠密回归任务和语言建模任务。

Sep, 2019

操作级渐进可微架构搜索

本文介绍了一种名为 OPP-DARTS 的操作级渐进可微分神经结构搜索算法，通过逐步增加候选操作来有效地避免跳跃连接聚合，并同时探索更好的架构。实验结果表明，我们的方法在 CIFAR-10 上的性能优于标准 DARTS，迁移性能也超越了标准 DARTS。此外，我们进一步展示了我们的方法在三个简单搜索空间上的鲁棒性优于标准 DARTS。

Feb, 2023

sharpDARTS: 更快更准确的可微架构搜索

借助 Differentiable Architecture Search，本研究提出了 sharpDARTS 搜索方式，该方式在 CIFAR-10 数据集上取得了相对错误率 20-30% 的进展，并在模型大小相似的情况下创下了目前最先进的 1.93% 的验证误差和 25.1% 的 ImageNet top-1 误差，同时，通过 Differentiable Hyperparameter Grid Search 和 HyperCuboid 搜索空间的设计和优化，本研究也证明了 sharpDARTS 更具通用性，提出了 Max-W 正则化以解决 DARTS 在新领域中的泛化问题。

Mar, 2019

通过自蒸馏改进可微分架构搜索

本篇论文提出了一种基于自蒸馏不同的神经网络结构搜索方法，通过投票教师的方式引导折叠网络的训练，并且与现有最先进的神经网络结构搜索方法相比，实验结果表明了它的优越性。

Feb, 2023

循环可微架构搜索

提出了一种新的循环不可微分神经网络结构搜索方法，命名为 CDARTS，通过引入反复振荡的联合优化目标和自省蒸馏循环反馈机制，在分类监督下，有效地实现了搜索和评估网络的联合优化，取得了 97.52％在 CIFAR10 上的 top-1 准确率和 76.3％在 ImageNet 上的 top-1 准确率。

Jun, 2020

DARTS+：具有提前停止的改进可微架构搜索

本文提出了一种名为 DARTS + 的算法，通过设置一个明确的早停策略来避免 Differentiable Architecture Search (DARTS) 在优化时遇到过拟合问题，并将其应用在基准数据集上取得了较好的结果。

Sep, 2019

让可微架构搜索更少局部化

本研究针对 DARTS 的性能崩溃问题，提出采用更全局的优化方案，以更好地探索神经结构搜索空间，从而发现测试性能更佳、参数更少的神经网络架构。

Apr, 2021

可微架构搜索：DARTS

本文介绍了一种基于可微分的连续松弛方法来应对体系结构搜索的可扩展性挑战，该方法可在 CIFAR-10、ImageNet、Penn Treebank 和 WikiText-2 等数据集中快速搜索高性能的卷积体系结构和循环体系结构。

Jun, 2018