使用百万小时的语音构建声学模型的经验教训

Apr, 2019

使用百万小时的语音构建声学模型的经验教训

Lessons from Building Acoustic Models with a Million Hours of Speech

Sree Hari Krishnan Parthasarathi, Nikko Strom

TL;DR本报告探讨了利用未标记语音数据进行声学模型构建的方法 —— 采用学生 / 教师训练和定期交替的有标记和未标记数据学习，并在分布式训练中利用 BMUF 和梯度阈值压缩 SGD，在较小的超参数调整范围内获得了 10 至 20％的识别率提高。

Abstract

This is a report of our lessons learned building acoustic models from 1 Million hours of unlabeled speech, while labeled speech is restricted to 7,000 hours. We employ student/teacher training on unlabeled data,

acoustic models speech recognition student/teacher training parallel training distributed training

发现论文，激发创造

大规模弱监督进行稳健语音识别

研究了训练简单的语音处理系统预测互联网音频大量转录的能力，在 680,000 小时的多语言和多任务监督的基础上，生成的模型具有很好的泛化能力，并且通常与之前的完全监督结果竞争，但在零次传输设置下不需要进行任何微调，与人类相比，模型的准确性和稳健性接近，并且同时发布了模型和推理代码，作为进一步稳健语音处理工作的基础。

Dec, 2022

基于教师 - 学生学习的大规模领域自适应

本文提出一种用于领域自适应的方法，不需要转录数据，而是使用源域和目标域的无标记平行数据，利用教师 / 学生学习方法在目标域中训练模型，并在两种场景下进行评估，实现了显著的准确率提升，尤其是当使用模拟训练数据时，增加了模型的鲁棒性。

Aug, 2017

BigSSL：大规模半监督学习在自动语音识别中的探索前沿

使用预先训练、自我训练和模型规模扩大的方法，利用大型、多样化的未标记数据集，我们取得了一系列使用巨型自动语音识别（ASR）模型的结果，表明它可以在极大的任务效率下使用仅有少量标记数据来实现最先进性能。在一个含有 34k 个小时标记数据的 ASR 任务中，通过微调一个 80 亿参数的预训练 Conformer 模型，我们可以实现仅有 3％的训练数据即可达到 SoTA 性能，并且使用完整的训练集可以显著提高 SoTA。我们还报告了使用大型预训练和自我训练模型对多个下游任务的通用收益，涵盖了许多语音领域的公共基准测试，并跨越了多个数据集大小的数量级，并利用预训练网络的学习表示在非 ASR 任务中取得了 SoTA 结果。

Sep, 2021

一位教师胜过百万句指令

我们提出了一种改进的训练方法，使用更大的模型的知识来提高大型语言模型的训练效果，同时利用领域专家模型进行领域对齐，通过这种方法，在性能上超过了具有更大参数数量的现有语言模型。

Jun, 2024

通过大规模训练实现领域不变语音识别

本研究旨在探讨利用不同应用范畴的大规模培训数据，构建单一领域不变模型的想法，以达到普适性应用并允许快速自适应，并通过实验证明培训模型的可行性和适应性。

Aug, 2018

从无标注视频中学习声音表征的 SoundNet

通过使用大量的野外未标记的声音数据，我们利用视觉和声音之间的自然同步，使用两百万个未标记的视频学习声学表示，提出了一种学生 - 教师训练过程，将视觉知识转移到声音模态中，为声音场景 / 对象分类的标准基准提供了显着的性能提升，即使没有地面真实标签，声音网络自动形成一些高级语义。

Oct, 2016

WavFT: 利用标记和未标记数据微调声学模型

本文介绍了一种使用无标签数据的有监督语音模型微调方法，达到了分类和上下文特征学习相结合的效果，并使用对比损失来学习音频表示，进而在古吉拉特语和孟加拉语上分别减少了 11.2% 和 9.19% 的错误率。

Apr, 2022

伪标签优于人工标注

本文介绍了使用自监督学习和半监督学习技术训练强力教师模型来产生高质量伪标签的方法，进而用这些标签来训练语音识别模型，取得了较好的结果。

Mar, 2022

大规模自监督学习的语音分离

本文探讨了如何扩大自监督学习（SSL）的规模，以更好地应用于语音分离问题。通过使用大量的预训练数据进行 fine-tuning，提出的模型在节省了 38% 计算成本的同时，相比于监督学习方法和基于 WavLM 的模型，在一些测试数据集上的单词错误率均有显著的改善。

Nov, 2022

无监督词语分割与词汇发现：基于声学词嵌入的方法

提供了一种基于无监督贝叶斯模型的语音分割以及聚类算法，通过将有潜力的单词段嵌入固定维度的声学向量空间，并在此空间创建全词声学模型以及同时执行分割来实现输入语音基于单词类型的完整无人监督标记，模型在连接数字识别任务中取得约 20% 的错误率，优于基于 HMM 的系统。

Mar, 2016