通过语音水平和音素水平屏蔽方法改善语音表示学习
提出了一种使用掩蔽重构损失进行预训练语音表示的方法,实现了双向预训练编码器网络在典型的双向语音识别模型中的直接使用。该方法在 LibriSpeech 和 Wall Street Journal 语料库上的实验表明,预训练、掩蔽段、领域适应都能提高语音识别性能。
Jan, 2020
最近的语音隐私研究主要集中在匿名化声学说话者属性,但对于保护语音内容的信息研究较少。本文引入了一个玩具问题,探讨了一种被称为 “内容隐藏” 的新型隐私保护方法,该方法隐藏了语音中的选定单词和短语。通过改变预训练的向量量化变分自编码器(VQ-VAE)生成的离散电话表示(电话代码)序列并通过 WaveRNN 重新合成的方法,我们评估了一个基准掩码技术。我们对三种不同的掩码位置和三种掩码策略进行了研究:噪声替换、单词删除和电话序列反转。我们着重研究了掩码对自动语音识别(ASR)和自动说话者验证(ASV)这两个后续任务的影响,并讨论了如何影响隐私目标的这些问题。
Jan, 2024
本文提出了 Self-Evolution 学习方法,利用自适应 Token 掩蔽和标签平滑正则化技术,全面且明智地利用数据中的知识,通过在 10 项任务中进行实验,证明了该方法在各种 PLMs 上带来了相应且显著的提升,可以提高语言知识的学习和推广。
May, 2023
本文提出了一种有效的预训练语言模型利用方法,其中利用二进制选择性蒙版来代替微调的方法对预训练权重进行修改。对 Bert 和 Roberta 模型进行掩模和微调的广泛评估表明,我们的掩模方案在执行多个任务时具有可比性的性能,却具有更小的内存占用。通过本文内在评估,我们展示了由掩模语言模型计算的表征编码了解决下游任务所需的信息。分析损失景观,我们展示了掩蔽和微调能够生成几乎具有恒定测试准确度的线段相连的值,证实了掩蔽是微调的有效替代方法。
Apr, 2020
本研究提出了预训练的基于音素级别的 BERT 编码器,通过预测对应的字母表顺序来提高生成语音的自然度,并在主观评估中证明其在未知范围的文本中相比基于状态的 TTS 模型有显著提高的平均意见评分。
Jan, 2023
应用迁移学习到音素分割任务中,在自监督预训练中学习的表示对任务的效用得到证明。通过在 Transformer 风格编码器中增加有策略的卷积,操作预训练中学到的特征。在 TIMIT 和 Buckeye 语料库上训练和测试了该模型,分别在监督和非监督设置下达到了以前的最佳性能。在代码审查和尝试复现过去的分割结果中观察到,有必要明确广泛使用的评估指标的定义和实现。通过划分两种不同的评估方案并描述它们的细微差别来解决了这种不确定性。
Nov, 2022
本文提出了一种名为 MPA 的简单而有效的方法,通过采用掩码预测策略,支持端到端的训练过程,可在不使用任何对齐组件的情况下进行发音评估并在很大程度上解决误对齐问题。
Jun, 2023
提出了一种基于语义掩蔽的正则化方法,使用注意力机制的编解码器模型,以及 transformer-based 模型,以提升 E2E 模型的训练效果。通过实验验证,在 Librispeech 960h 和 TedLium2 数据集上取得了 E2E 模型领域的最新性能。
Dec, 2019