KDDJun, 2023

信息路径假说:变形金刚是动态自组织

TL;DR提出一种名为 SSA 的训练策略,该策略可以减少自注意力的内存和计算成本,同时提高泛化能力。该策略基于信息通路的假设,该信息通路可以独立训练,并能形成子模型,优于密集型自注意力模型在不同的 NLP,计算机视觉和图形学任务中表现优异。