Apr, 2022

能效操作的注意力机制

TL;DR本文针对自然语言处理模型中的计算密集型注意机制,从能源消耗的角度重新设计了注意机制的变体,将大量耗能的乘法替换成选择性运算或加法,通过三个机器翻译任务的实验结果表明,该模型在节省99%和66%的能量的同时,获得了可比较的准确性。