Mar, 2023

CoLT5: 带有条件计算的更快速的长距离 Transformer

TL;DR提出了 CoLT5,它是一种长输入 Transformer 模型,通过采用条件计算来利用重要令牌,取得了比 LongT5 更强的性能,特别适用于长文本。有效地利用了长达 64k 字符的输入,取得了 SCROLLS 基准测试的 SOTA。