Aug, 2023

幼龄 BERTa:利用幼儿 BERTa 进行语法学习和语言理解

TL;DR我们展示了 ToddlerBERTa,一种类似 BabyBERTa 的语言模型,通过五种不同的具有不同超参数的模型来探索其功能。在 BLiMP、SuperGLUE、MSGS 和 BabyLM 挑战中的 Supplement 基准上评估,我们发现较小的模型可以在特定任务中表现出色,而较大的模型在大量数据上表现良好。尽管使用较小的数据集进行训练,ToddlerBERTa 表现出令人称赞的性能,与最先进的 RoBERTa-base 相媲美。该模型展示了强大的语言理解能力,甚至在单句预训练下与利用更广泛的上下文信息的基线模型相竞争。我们的工作提供了有关超参数选择和数据利用的见解,促进了语言模型的发展。