Mar, 2024
一次编码,多次并行解码:高效Transformer解码
Encode Once and Decode in Parallel: Efficient Transformer Decoding
TL;DR基于Transformer的NLP模型在计算成本上限制了其应用场景。我们引入了一种新的编码器-解码器模型配置(PiD),通过一次编码和并行解码输出来提高结构化输出和问答任务的效率,避免了重复的输入编码以及减小解码器的内存占用,从而获得了可比较或更好性能并具有高达4.6倍加速的计算减少。