May, 2021
哪种transformer架构适合我的数据?自注意力中的词汇瓶颈
Which transformer architecture fits my data? A vocabulary bottleneck in
self-attention
TL;DR论文研究了Transformer的结构配置问题,并且提出了嵌入秩瓶颈的概念,通过实验验证了这种瓶颈的存在并显示了它在Transformer结构的深度与宽度之间的相互作用中的影响,同时提出了一种排查ALBERT和T5在NLP模型中冗余的方法。