本研究提出两种掩蔽方法(语音水平掩蔽和音素水平掩蔽),并通过这两种方法的预训练,在音素分类和说话人识别两个下游任务上评估。实验表明,所提出的掩蔽方法有助于提高语音表示的性能。
Oct, 2022
本文研究了端到端神经网络的输出表征对多语种自动语音识别的影响,并比较了不同类型的表征。我们专注于开发一个单一的端到端模型来支持基于话语的双语 ASR,并在英语和普通话口述任务上进行实验,发现 BBPE 对话语为基础的双语 ASR 性能可以提高 2%到 5%。
May, 2022
本文主要探讨了在端到端语音翻译中数据稀缺的问题,并提出了一种利用级联和端到端语音翻译模型生成伪标签的方法,在 MuST-C 英法和英德数据集上达到了领先水平,同时也比仅对编码器进行语音识别任务的预训练方法更加有效。最后,通过直接使用端到端模型生成伪标签的自我训练方法证明了其有效性。
Jun, 2020
本文旨在探索自监督预训练语音表示是否可以优化高和低资源语音翻译任务,并且这些语音表示是否可以有效地和其他常见的低资源端到端语音翻译方法相结合,以及这些表示是否可以良好地跨语种迁移。结果表明,自监督预训练功能可以始终提高翻译性能,并且跨语言传输可以扩展到各种语言而无需或只需要少量调整。
本文旨在研究无监督语音表示学习在具备鲁棒性和可迁移性方面的表现,通过使用多样性和嘈杂的语音数据学习表示,并在多个语言中验证其鲁棒性和可迁移性。结果显示,该方法相比基线特征集在跨域转移和 25 种不同语言的语音识别上均有显著提升。
Jan, 2020
优化两阶段跨语言迁移学习在低资源语言中的应用,通过改进音素识别和音素到字素转换模型,优化了语音识别跨语言学习过程,合并共享发音特征的音素以增强识别准确性,引入全局音素噪声生成器降低错误传播。在 CommonVoice 12.0 数据集上的实验结果表明,对于低资源语言,我们的方法显著减少了单词误差率(WER),展示了方法的有效性,对于改进低资源语言中的两阶段语音识别系统,提供了潜在的跨语言迁移学习。
Dec, 2023
提出一种基于国际音标的音素表示的零样本跨语言命名实体识别方法,可有效提高低资源语言的性能,并在非拉丁文脚本上表现出很强的鲁棒性。
Jun, 2024
多语言理解的改进方法通常在训练阶段需要多种语言,依赖复杂的训练技术,同时也在高资源语言和低资源语言之间存在重大的性能差距。我们假设语言之间的性能差距受到这些语言之间的语言差距的影响,并通过使用声素表示(具体而言,使用声素作为输入标记到语言模型,而不是次词)来提供强大的多语种语言建模的新解决方案。我们通过三个跨语言任务的定量证据以及对跨语言性能差距的理论分析进一步证明了声素表示的有效性。
Feb, 2024
本文介绍了深度学习在语音到文本翻译领域的应用,主要研究了不同端到端架构以及辅助性连接主义时间分类(CTC)损失函数的使用,着重探讨了预训练模型对最终性能的影响,实验证明预训练模型可以使 BLEU 指标提高 4%,TER 指标提高 5%,并且在 270 小时 IWSLT TED 演讲 En->De 和 100 小时 LibriSpeech Audiobooks En->Fr 上的实验结果表明,该方法可以超过当前的端到端最先进系统。
Nov, 2019
本研究提出了预训练的基于音素级别的 BERT 编码器,通过预测对应的字母表顺序来提高生成语音的自然度,并在主观评估中证明其在未知范围的文本中相比基于状态的 TTS 模型有显著提高的平均意见评分。
Jan, 2023