Apr, 2024
无需种植树木的语法学习:理解变换器何时以及何种方式实现分层普遍化
Learning Syntax Without Planting Trees: Understanding When and Why Transformers Generalize Hierarchically
Kabir Ahuja, Vidhisha Balachandran, Madhur Panwar, Tianxing He, Noah A. Smith...
TL;DR透过对自然语言数据训练的 Transformer 模型的研究和实验证明,具备语言建模目标的 Transformer 模型更容易学习和推广层次结构,并在处理无法预见的句法结构的句子时表现优异。