Mar, 2024

一次编码,多次并行解码:高效 Transformer 解码

TL;DR基于 Transformer 的 NLP 模型在计算成本上限制了其应用场景。我们引入了一种新的编码器 - 解码器模型配置(PiD),通过一次编码和并行解码输出来提高结构化输出和问答任务的效率,避免了重复的输入编码以及减小解码器的内存占用,从而获得了可比较或更好性能并具有高达 4.6 倍加速的计算减少。