Jul, 2023

Transformer 外推的探索

TL;DR通过数学和经验分析研究,本文发现某些类型的相对位置编码(RPE)允许长度外推,并从中得出两种实践方法用于语言建模任务,同时提出了一种新的理论接收域(TRF)用于测量 RPE 的接收域,并在多个数据集上进行了广泛实验以验证这些发现的有效性。