Aug, 2022

通过奇异值转换解决变形金刚的令牌均匀性问题

TL;DR本文提出使用每个 transformer 层的输出奇异值分布来描述 ' 标记一致性 ' 现象,并通过实验证明一个不太偏斜的奇异值分布可以缓解此问题并提出了新的奇异值变换函数来应用于多种语言模型并观察到语义文本相似性评估和 GLUE 任务的提高。