KDDJun, 2023
信息路径假说:变形金刚是动态自组织
The Information Pathways Hypothesis: Transformers are Dynamic Self-Ensembles
Md Shamim Hussain, Mohammed J. Zaki, Dharmashankar Subramanian
TL;DR提出一种名为 SSA 的训练策略,该策略可以减少自注意力的内存和计算成本,同时提高泛化能力。该策略基于信息通路的假设,该信息通路可以独立训练,并能形成子模型,优于密集型自注意力模型在不同的 NLP,计算机视觉和图形学任务中表现优异。