Oct, 2022

动力学视角下的分层共享注意力网络

TL;DR提出一种名为 DIA 的注意力网络单元,该单元在不同的神经网络层之间共享单个注意力模块,从而在各种视觉任务中提高了现有自我注意力模块的准确性,并且具有强大的正则化能力,能够通过增强层间信息交流和梯度值有效地恢复和提高其训练不稳定性。