Jun, 2020

漏斗变压器:通过过滤连续冗余提高语言处理效率

TL;DR本研究提出了 Funnel-Transformer 模型,利用序列压缩来提升模型效率,在保证单向量序列表征的前提下极大地减少了计算成本。通过在模型构建时重新投资在长度缩短中节省下来的 FLOPs,进一步提高了模型容量。实验表明,Funnel-Transformer 在一系列序列级别的预测任务上表现优秀,包括文本分类、语言理解和阅读理解。