May, 2021

哪种transformer架构适合我的数据?自注意力中的词汇瓶颈

TL;DR论文研究了Transformer的结构配置问题,并且提出了嵌入秩瓶颈的概念,通过实验验证了这种瓶颈的存在并显示了它在Transformer结构的深度与宽度之间的相互作用中的影响,同时提出了一种排查ALBERT和T5在NLP模型中冗余的方法。