EMNLPSep, 2021

长程语言模型是否实际上使用了长程上下文?

TL;DR该研究分析了两个能够接受高达 8K Token 的长文本转换器语言模型,发现将长距离上下文提供给这些模型只会在少数 Token 上提高其预测能力(例如可以从远处文本中复制的 Token),对于句子级别的预测任务没有任何帮助;并且长范围上下文对文学小说的帮助最大。