May, 2020

DeFormer: 针对更快问答速度分解预训练变形金刚模型

TL;DRDeFormer是一种改进后的基于Transformer的问答模型,通过在低层使用问题和输入问句的局部自注意力代替全局自注意力,实现输入文本表示的与问题无关处理,从而可以预计算表示以减少运行时间,并增加简单蒸馏损失来提高速度,仅有1%的准确率下降。