Mar, 2022

高精度和粗粒度混合自注意力机制用于高效BERT

TL;DR通过FCA算法实现对信息量有效的细粒度计算单元和无信息量的粗粒度计算单元的混合自注意力机制,提升了Transformer模型在计算上的效率,同时在多个自然语言处理任务中展现出与原模型相当的性能。