Jul, 2022

高效 Transformer 及其扩展的神经架构搜索

TL;DR本文采用神经架构搜索技术,提出了一种优化 Transformer 架构的新框架,以增强其效率,并通过机器翻译和图像分类任务进行验证。实验表明,优化后的 Transformer 架构在计算效率方面得到提升,但与标准 Transformer 相比,其整体精度略有下降,这表明了深度学习模型的精确性和效率之间的平衡问题。因此,本文提出了将 Softmax attention 和 efficient attention 混合使用的方法以达到平衡性。