Apr, 2020

Longformer:长文档转换器

TL;DRLongformer 是一种基于 Transformers 的模型,采用能够线性缩放序列长度的自注意力机制,使得处理数千个记号以上的文档变得容易;与先前的一些工作不同的是,Longformer 同时进行了预训练和下游任务的微调,并在 WikiHop 和 TriviaQA 等任务上取得了新的最优结果。此外,Longformer 还引入了 Longformer-Encoder-Decoder(LED)以支持长文档的生成序列对序列任务。