Feb, 2022

长程变压器的自然语言处理任务效率

TL;DR比较研究了多种Transformer模型的性能,发现长序列的改进版本在内容选择和查询引导解码方面有优势,但在处理远距离的信息和近似误差上有欠缺的地方。