- BRAVEn: 提升自我监督的视觉和听觉语音识别预训练
我们提出了 BRAVEn,这是对最近的 RAVEn 方法的扩展,完全从原始的音频 - 视觉数据中学习语音表示。我们的修改使得 BRAVEn 在各种环境中成为自我监督方法中的领先者,并且我们通过增加大量未标记数据观察到有利的扩展行为。我们的结 - 通过剩余适配器的语音表示的口音适应
该论文提出了一种自我监督适应口音特定的噪音样本以提高自动语音识别的识别精度的方法,并在 4 个口音种类上获得了显著的词错误率降低。
- BabySLM:面向语言习得友好的自监督口语模型基准
本文介绍了一种适用于语言习得的基准测试方法,该方法可以在词汇和句法水平上测试口语识别模型的能力,旨在进一步深入理解婴儿学习语言的过程以及使自监督学习技术能够充分发挥潜力,同时还需要克服文本和语音之间以及清晰语音和野外语音之间的差距。
- 无监督语音表征池化技术基于向量量化
本文介绍了一种新的汇集方法,通过向量量化可以将声学表示压缩为具有相似声学特性的向量,从而通过对各种下游任务进行评估,比较了我们的方法和监督汇集方法。
- ICLR从原始数据中联合学习视觉和听觉语音表征
RAVEn 是利用自主学习方法联合学习视觉和听觉语音表征的一种多模态方法,其预训练目标涉及编码掩码输入并预测由缓慢演化的动量编码器生成的文本内容。发现 RAVEn 在视觉语音识别(VSR)方面优于所有自主学习方法,并结合仅使用 30 小时标 - MelHuBERT:基于 Mel 频谱的精简 HuBERT
该研究论文介绍了一种用于语音表示学习的自监督模型 HuBERT 以及其简化版本 MelHuBERT,可以使用 Mel 频谱作为输入训练单个 GPU 上的高效模型。研究还围绕损失函数、多阶段训练和数据流选项进行了探讨。
- 自监督学习语音中发音道模拟的证据
本文研究了自监督学习模型与电磁发音学之间的联系,发现这些模型学习到了与语音连续性运动高度相关的表示,并建议这为人工智能技术的未来发展带来了新的启示。
- Wav2Vec-Aug: 有限数据下的改进自监督训练
本文探讨了如何利用数据增强技术来解决语言和领域中数据不足的问题,从而在限制条件下将自监督学习应用于语音表示方面,并在 Wav2Vec 2.0 预训练模型的每个组成部分上提出了改进方法,在 Librispeech 的测试任务中比 Wav2Ve - Burst2Vec: 一个对抗性多任务方法,用于从声音爆发中预测情感、年龄和来源
Burst2Vec 使用预训练的语音表示法和对抗性训练来捕捉原始波形中的声学信息,并实现了从声音短暂的预测情感、年龄和来源的多任务学习方法,相比使用预先提取的特征的基线,我们的模型取得了相对 30% 的性能提高,并在 ICML ExVo 2 - TRILLsson: 通用语音语调语言特征提取
本研究基于知识蒸馏,公开发布了一组语音模型,这些模型在公共数据上进行了精简和训练,大小不到原始模型的 15%,并在 NOSS 基准测试上取得了超过 90% 的准确率。
- 大规模自监督语音表征学习用于自动化说话者验证
使用预训练模型学习到的语音表示作为输入特征,采用可学习权重的平均表示方法,在 Voxceleb 数据集上进行了自我监督训练,实现了自动说话人验证,在三个官方测试中分别取得了 0.537%、0.569%和 1.180%的等误差率(EER),超 - 稳健的 wav2vec 2.0:自监督预训练中的领域漂移分析
本文探讨了语音表示的自监督学习,其中更富含挑战的是那些预训练数据的领域与微调和测试数据的领域不同的情形,试验结果表明在预训练过程中加入目标领域的数据可以显著提高性能。
- ICMLUniSpeech: 利用标注和非标注数据进行统一语音表示学习
本文提出了一种名为 UniSpeech 的统一预训练方法,利用有标签和无标签数据学习语音表示,其中针对语音结构的有监督 CTC 学习和语音感知对比自监督学习以多任务学习的方式进行。实验结果表明,UniSpeech 在跨语言表征学习方面的有效 - 通过掩码重构无监督预训练双向语音编码器
提出了一种使用掩蔽重构损失进行预训练语音表示的方法,实现了双向预训练编码器网络在典型的双向语音识别模型中的直接使用。该方法在 LibriSpeech 和 Wall Street Journal 语料库上的实验表明,预训练、掩蔽段、领域适应都 - Siamese 网络中的采样策略用于无监督语音表示学习
本文研究了映射网络的采样策略对提高同构词对比学习性能的影响,并发现以 Zipf 定律、发音人分布和同 / 异比例为依据的采样策略可以提高学习 performance,并在无监督地使用发现的同异词对上获得了领先水平的表现。