EMNLPSep, 2021
长程语言模型是否实际上使用了长程上下文?
Do Long-Range Language Models Actually Use Long-Range Context?
Simeng Sun, Kalpesh Krishna, Andrew Mattarella-Micke, Mohit Iyyer
TL;DR该研究分析了两个能够接受高达 8K Token 的长文本转换器语言模型,发现将长距离上下文提供给这些模型只会在少数 Token 上提高其预测能力(例如可以从远处文本中复制的 Token),对于句子级别的预测任务没有任何帮助;并且长范围上下文对文学小说的帮助最大。