ACLJun, 2021

Transformer 语言模型可以使用哪些上下文特征?

TL;DR通过在 Transformer 语言模型上进行一系列实验,我们发现对于当前 Transformer 语言模型的低困惑度,长上下文至关重要,但上下文的详细句法和命题内容并不重要,且在中长程上下文中,包括重新排列句子中的单词和删除除名词以外的所有单词在内的多种极端破坏性上下文操作仅会移除不到 15%的可用信息。