Nov, 2023

用于基于记忆的 Transformer 的内存高效随机方法

TL;DR我们提出了一种新颖的两阶段训练机制和一种新颖的正则化技术,以提高基于内存的 Transformer 的训练效率,该模型通常用于解决长程背景问题。我们在字符级语言模型任务上展示了我们的结果模型 Skip Cross-head TransformerXL,在相似参数下优于基线模型,并在词级语言建模任务上优于基线模型,参数减少近 20%。我们提出的方法不需要额外的内存。我们还展示了我们在 BERT 上的正则化机制的有效性,该机制在多个 GLUE 任务中表现出相似性能,并降低了标准差约 30%。