Mar, 2023
CoLT5: 带有条件计算的更快速的长距离 Transformer
CoLT5: Faster Long-Range Transformers with Conditional Computation
Joshua Ainslie, Tao Lei, Michiel de Jong, Santiago Ontañón, Siddhartha Brahma...
TL;DR提出了 CoLT5,它是一种长输入 Transformer 模型,通过采用条件计算来利用重要令牌,取得了比 LongT5 更强的性能,特别适用于长文本。有效地利用了长达 64k 字符的输入,取得了 SCROLLS 基准测试的 SOTA。