Jul, 2021

从块 - Toeplitz 矩阵到图上的微分方程:迈向可扩展遮蔽 Transformer 的普适理论

TL;DR本文提供了一种全面的方法,可以在可扩展的方式中将各种掩码机制纳入 Transformers 架构。我们提出了一种基于拓扑的建模方法,可以生成高效的 d 维 RPE 掩码和图核心掩码。