ACLMay, 2021

高效内存可微分 Transformer 架构搜索

TL;DR本文提出了一种结合可微分架构搜索(DARTS)和多分裂可逆网络的算法,以提高在序列到序列数据集上的性能,并优于传统 Transformers。