Jul, 2021

长短期 Transformer: 语言和视觉的高效 Transformer

TL;DR提出了一种名为 “长短变压器” 的模型,其中使用自注意力机制处理长文本和高分辨率图像,同时引入了一种新型的远距离关注和短期关注机制,并采用双重归一化策略来处理两种注意力机制之间的规模差异。通过在多个语言和视觉任务中的表现,该方法优于现有的方法。