ACLMay, 2023
语言模型中如何种植树木:数据和架构对句法归纳偏差发生的影响
How to Plant Trees in Language Models: Data and Architectural Effects on the Emergence of Syntactic Inductive Biases
Aaron Mueller, Tal Linzen
TL;DR本文研究了预训练模型在通用语言中层次化句法功能的作用,通过诊断语法转换任务来诊断预训练参数的归纳偏差,结果表明,模型深度对于层次化泛化具有更大的作用,同时,在训练规模方面,使用适当的语料库预训练可以提高效率。