单个儿童语言输入对可学习性的系统调查
神经语言模型(LM)在许多技术任务上的成功使其潜在相关性作为语言科学理论得以体现,尽管 LM 训练和儿童语言习得之间存在一些明显的差异。本文认为一些用于评估 LM 语法能力的主要基准可能不够严格,并表明基于模板的基准缺乏语言理论和心理学研究中常见的结构多样性。当用小规模数据对儿童语言习得进行建模时,LM 可以轻易地被简单的基准模型匹配。我们提倡使用现成的、经过精心策划的数据集,这些数据集已由大量母语用户进行了梯度可接受性评估,并旨在特别探索语法的结构基础。在这样一种数据集(LI-Adger 数据集)上,LM 在评估句子时与人类语言用户的方式不一致。最后,我们提出了更好地将 LM 与儿童语言习得的实证研究进行联系的建议。
Oct, 2023
最近,关于利用大型语言模型 (LLM) 自动生成儿童教育材料的概念变得越来越现实。本研究先考察了几种流行的 LLM 的能力,以生成词汇和可读性适合儿童的故事。然后,通过开发一个基于儿童故事领域的数据集,研究了最先进的词汇简化模型在儿童故事材料上的适用性,并通过适当的微调使其性能得以提升。
Oct, 2023
利用 FLAVA 模型进行消融研究,独立变化文本和视觉输入量,发现多模态预训练既不损害模型的语言性能,也没有一致的帮助作用;然而,由于实验规模有限,这些结论还不完全确定,需要更好的架构和多模态训练技术来验证多模态输入对语言模型和人类数据效率差距的假设。
Feb, 2024
荷兰格罗宁根大学对 BabyLM 挑战的工作细节。通过简单 - 复杂的策略,我们研究了语境大小、词汇量和数据的总体语言复杂性等方面,发现只有语境大小对训练语言模型有真正的益处。然而,仅仅改变语境大小就让我们在(Super)GLUE 任务上平均提升 2 分,MSGS 任务上提升 1 分,BLiMP 任务平均提升 12%。我们的限制语境模型胜过了使用 10 倍数据训练的基准模型。
Nov, 2023
研究通过以前辈生成的合成数据对大型语言模型进行训练的后果,重点关注这种训练方法对语言多样性的影响,特别是在逐步迭代的过程中。通过开展递归微调实验,应用一系列针对词汇、句法和语义多样性的新型度量标准,我们的研究发现模型输出的多样性在连续迭代中显著降低。这一趋势强调了在训练大型语言模型时使用前辈生成文本的潜在风险,特别是涉及保留语言丰富性方面。我们的研究突出了需要仔细考虑这种训练方法对大型语言模型的语言能力所产生的长期影响。
Nov, 2023
利用与儿童所见的单词数量大致相同的单词数量,我们对大型语言模型进行预训练和评估,以学习上下文词表示,其中比较了不同架构、不同训练轮次的性能变化以及与任务组织者给出的 RoBERTa 基准的训练稳定性和可复现性。
Nov, 2023
使用神经语言模型对人类行为进行建模在研究中获得了不同的结果。本文通过在 BabyLM 挑战中使用更贴近发展的数据集来探索实证数据和模型预测行为之间的不匹配程度。通过对 BabyLM 的数据集进行师生训练和课程设计,研究发现,虽然这种改进使得模型更容易从训练数据中获取语言知识,但并未导致模型对人类阅读行为的预测与之更加一致,这表明仅仅在发展上合理的数据集上训练模型可能不足以准确预测人类语言处理。
Nov, 2023
本文研究了神经语言模型的第二语言习得,通过对双语 LM 的训练和分析交叉语言传递,发现在语言迁移配置方面,L1 预训练可以加速 L2 的语言泛化,并且影响泛化的因素非常明显,研究了它们在特定方面的非人类的 L2 习得能力。
Jun, 2023
本研究以 LSTMs 和 Transformers 为例子,通过与儿童语言输入类似的数据培训这两种没有分层偏见的神经网络,进而评估它们对英语的 yes/no 问题的理解。研究结果表明,在使用文本自然语言作为语言输入时,这两种模型都更接近于错误的线性规则而非正确的层级规则,推测人类对自然语言的依赖性需要更强的偏见。
Jan, 2023