Aug, 2023

婴儿的共认识:利用大型语言模型提升小型模型的推理能力

TL;DR通过使用 CoThought 流水线,我们可以有效地训练较小的 BabyLM 语言模型,从而利用 LLMs 的上下文学习能力,将小于 100M 的数据集转变为适用于语言学习者的任务导向的可读文本,经 RoBERTa 的预训练后,BabyLM 在多项语言学、NLU 和问答任务中表现优越,超过 RoBERTa-base 的性能 3 个点以上,显示出更好的上下文信息提取能力。