Lil-Bevo: 以更接近人类的方式训练语言模型的策略探索

Oct, 2023

Lil-Bevo: 以更接近人类的方式训练语言模型的策略探索

Lil-Bevo: Explorations of Strategies for Training Language Models in More Humanlike Ways

Venkata S Govindarajan, Juan Diego Rodriguez, Kaj Bostrom, Kyle Mahowald

TL;DR我们提出 Lil-Bevo，作为 BabyLM Challenge 的参赛作品。我们使用三种方法对我们的掩码语言模型进行了预训练：使用音乐数据进行初始预训练，先对较短的序列进行训练再逐步增加序列长度，以及对特定令牌进行屏蔽以针对 BLiMP 的一些子任务。总体上，我们的基准模型的表现超过了随机猜测，但远低于训练于更多数据上的较大规模语言模型的性能水平。我们发现训练较短的序列比训练较长的序列效果更好。预训练音乐可能在一定程度上提高性能，但如果确实有影响，则影响似乎很小。我们针对性的掩码语言建模增强在一般情况下似乎并没有提高模型性能，但在一些特定的 BLiMP 任务上确实有帮助（如负极性项）。在少量数据上训练性能良好的语言模型是一项困难但有潜力的任务。虽然我们的一些技术显示出一些希望，但仍需要进一步研究以探索它们是否能带来比目前更为显著的性能提升。我们的代码可在此链接中获取，模型可在此链接中获取。

Abstract

We present lil-bevo, our submission to the BabyLM Challenge. We pretrained our masked language models with three ingredients: an initial pretrain

lil-bevo masked language models pretraining blimp subtasks performance

发现论文，激发创造

使用类人开发数据文集预训练 LLMs

利用与儿童所见的单词数量大致相同的单词数量，我们对大型语言模型进行预训练和评估，以学习上下文词表示，其中比较了不同架构、不同训练轮次的性能变化以及与任务组织者给出的 RoBERTa 基准的训练稳定性和可复现性。

Nov, 2023

信息过载：为 BabyLMs 保持简单的训练

荷兰格罗宁根大学对 BabyLM 挑战的工作细节。通过简单 - 复杂的策略，我们研究了语境大小、词汇量和数据的总体语言复杂性等方面，发现只有语境大小对训练语言模型有真正的益处。然而，仅仅改变语境大小就让我们在（Super）GLUE 任务上平均提升 2 分，MSGS 任务上提升 1 分，BLiMP 任务平均提升 12%。我们的限制语境模型胜过了使用 10 倍数据训练的基准模型。

Nov, 2023

BAMBINO-LM：（双语）人类灵感的 BabyLM 连续预训练

在这篇论文中，我们研究了双语背景儿童如何通过与父母和教师的互动重新获得他们的传统语言，并将这一洞见应用于小规模语言模型的学习中。我们介绍了 BAMBINO-LM，这是一种连续预训练策略，结合了来自父母意大利语模型的交替和基于 PPO 的困惑奖励。在英语和意大利语的零样本分类任务上评估后，BAMBINO-LM 提高了 BabyLM 基线模型的意大利语能力。我们的消融分析表明，采用交替策略和基于 PPO 的建模是实现这一效果增益的关键。我们还表明，作为副作用，所提出的方法会导致与人类儿童在等效学习场景中可能遇到的 L1 效果下降类似的效果。

Jun, 2024

迷你心智：探索 Bebeshka 和 Zlata 婴儿模型

在这篇论文中，我们描述了 Lyon 2 大学参加 BabyLM 竞赛 Strict-Small 赛道的情况。我们采用架构搜索的方法，在数据集上最小化掩码语言建模损失，并引入了两种小型语言模型进行评估。尽管比基准模型规模小一半，我们的模型性能相当。我们进一步研究了小规模语言模型在涉及道德判断的任务中的适用性，并将它们的预测与人类价值观相一致。这些发现突显了小型语言模型在解决实际语言理解任务中的潜力。

Nov, 2023

CLIMB：婴儿启发式模型构建的课程学习

我们通过三种认知引导的课程学习变体对模型在语言评估任务上的性能进行了分析，并发现在早期训练阶段对词汇、训练实例的顺序和目标任务进行合理选择可以达到一定的改进效果。

Nov, 2023

视觉语言领域数据效率掩码语言建模

本文研究在跨模态预训练中使用遮蔽语言建模（Masked Language Modeling，简称 MLM）的一些问题，提出了一些针对这些问题的替代遮蔽策略，在 LXMERT 模型预训练时，我们的替代策略始终优于原始遮蔽策略，特别是在低资源设置下，我们的预训练方法显著优于基准模型，并且通过对影像对象的特定标记任务的评估，我们的结果和分析表明，该方法允许更好地利用训练数据。

Sep, 2021

高效多语言视觉 - LLMs 引导程序的启动

通过利用机器翻译产生多语言数据来实现对预训练的多语言 LLM 的图像编码器的重新对准，从而在消费者硬件上使用少量训练数据来获得第一款多语言 Vision-LLM，与从头开始训练的大规模 Vision-LLM 相比表现出色。

Jul, 2023

BLA 基准：研究预训练多模态模型的基本语言能力

我们探索了预训练语言与视觉模型在基本语言构造方面的处理程度，并提出了 BLA 评估基准，发现各种类型的基于 Transformer 的系统普遍在零样本设置下难以处理 BLA，但生成型的 BLIP2 在上下文学习环境中显示出有希望的趋势，这为将 BLA 用作评估基准以及提高模型的基本语言能力打开了大门。

Oct, 2023

MicroBERT：低资源单语 BERT 的参数减少和多任务学习的有效训练

本研究探讨了两种技术，以在低资源设置中训练单语言 TLM，结果表明 MicroBERT 模型能够对下游任务评估进行显著改善。

Dec, 2022

BLIP: 为实现统一的视觉语言理解与生成，引入语言 - 图像引导预训练

本文提出了 BLIP 作为新的 VLP 框架，通过引入 captioner 生成合成字幕，并使用 filter 删除噪音数据，能灵活地传输视觉语言理解和生成任务，获得了在一系列视觉语言任务中最先进的结果，同时在零样本任务中也表现出极强的泛化能力。

Jan, 2022