BabySLM：面向语言习得友好的自监督口语模型基准

Jun, 2023

BabySLM：面向语言习得友好的自监督口语模型基准

BabySLM: language-acquisition-friendly benchmark of self-supervised spoken language models

Marvin Lavechin, Yaya Sy, Hadrien Titeux, María Andrea Cruz Blandón, Okko Räsänen...

TL;DR本文介绍了一种适用于语言习得的基准测试方法，该方法可以在词汇和句法水平上测试口语识别模型的能力，旨在进一步深入理解婴儿学习语言的过程以及使自监督学习技术能够充分发挥潜力，同时还需要克服文本和语音之间以及清晰语音和野外语音之间的差距。

Abstract

self-supervised techniques for learning speech representations have been shown to develop linguistic competence from exposure to speech without the need for human labels. In order to fully realize the potential o

self-supervised techniques speech representations language acquisition benchmark lexical and syntactic levels

发现论文，激发创造

2021 年零资源语音基准：自监督口语建模的度量和基线

本文介绍了一项新的无监督任务：口语语言建模并给出了 Zero Resource Speech Benchmark 2021，使用 4 个黑盒子零炮弹指标对 4 个语言层面的学习模型的质量进行测量，包括语音、词汇、语法和语义，并基于 CPC、聚类和语言建模的三个无监督系统的复合基线的结果和分析。该语言建模基于聚类学习产生的伪文本，表明了从原始语音中建立口语语言建模的可行性，但这种简单管道与文本为基础的 “顶线” 系统相比，性能较差，需要使用更复杂的端到端模型来探索。

Nov, 2020

评估神经语言模型作为语言习得的认知模型

神经语言模型（LM）在许多技术任务上的成功使其潜在相关性作为语言科学理论得以体现，尽管 LM 训练和儿童语言习得之间存在一些明显的差异。本文认为一些用于评估 LM 语法能力的主要基准可能不够严格，并表明基于模板的基准缺乏语言理论和心理学研究中常见的结构多样性。当用小规模数据对儿童语言习得进行建模时，LM 可以轻易地被简单的基准模型匹配。我们提倡使用现成的、经过精心策划的数据集，这些数据集已由大量母语用户进行了梯度可接受性评估，并旨在特别探索语法的结构基础。在这样一种数据集（LI-Adger 数据集）上，LM 在评估句子时与人类语言用户的方式不一致。最后，我们提出了更好地将 LM 与儿童语言习得的实证研究进行联系的建议。

Oct, 2023

LeBenchmark: 一个可复现的框架，用于评估自监督语音表示学习

该论文提出 LeBenchmark，这是一个可重复的框架，用于评估自监督学习从语音到 ASR、语言理解、语音翻译和情感识别的影响，重点关注法语中的语音技术，通过实验表明，SSL 对大多数语音任务都是有益的，但不是所有任务都是。

Apr, 2021

利用自监督语音表示进行 L2 熟练度评估

本文介绍一种基于自监督语音表示的自动口语评估系统，并将其与传统的基于语音识别和基于文本的评估系统进行比较。研究结果表明，该系统可以在适当情况下与其他系统媲美甚至取得更好的表现。

Nov, 2022

自带数据！面向大语言模型的自监督评估

提出了一种自监督评估框架，用于分析大型语言模型的敏感性或不变性，以测量其中的知识、毒性、远程上下文依赖性等特征，以及语法结构和令牌化错误，这一自监督评估可直接监视大量的真实数据，以帮助评估大型语言模型的行为表现。

Jun, 2023

朝着低成本的端到端口语理解

该研究比较了几种学习策略以减少使用自监督模型进行训练的计算时间和能源消耗成本，同时在 FSC 和 MEDIA 语料库上的实验表明，该方法可以在保持最先进性能的同时降低学习成本。

Jul, 2022

The BabyLM Challenge: 基于发展合理语料库的样本高效预训练

BabyLM 挑战赛的论文呼吁：在一个发展合理的语料库上进行样本高效的预训练。该挑战赛旨在探索语言建模、人类语言习得、低资源自然语言处理和认知建模等领域。

Jan, 2023

自动端到端语音理解的轻量化实现

这篇论文研究了自我监督模型在大语音语料库中训练的近期进展，并比较了几种学习策略以减少计算时间和能源消耗成本，但保持竞争性能表现。

Jul, 2022

用受监督和自监督的语音基础模型对儿童 ASR 进行基准测试

基于多个声学模型和数据增强方法，本研究针对儿童自动语音识别（ASR）问题提出了一个全面的基准，探索了细调策略、模型大小和数据增强方法之间的关系，并提出了一个稳定的细调方法（PIF）作为正则化。

Jun, 2024

DevBench：一个用于语言学习的多模态发展基准

通过构建模型以较少的、多模态自然数据进行训练，并将其与行为数据进行直接比较，我们介绍了 DevBench，一个包括七个跨越词汇、句法和语义能力领域的语言评估任务的多模态基准。在这些任务中，模型在准确性和回应模式上与人类表现出差异。通过比较模型与人类在任务上的表现，我们发现在语言发展过程中模型与人类的差异，并提供了改进语言模型的切入点。

Jun, 2024