EMNLPOct, 2023

TLM:用于 Transformer 的令牌级屏蔽

TL;DR使用基于令牌级别的掩蔽训练策略,通过操纵多头注意力中的令牌连接来规范化 Transformer 的自注意力机制,以减少过拟合。该方法在多个自然语言处理任务中得到广泛评估,并证明在性能上优于其他规范化方法。