通过语音水平和音素水平屏蔽方法改善语音表示学习

Oct, 2022

通过语音水平和音素水平屏蔽方法改善语音表示学习

Improving Speech Representation Learning via Speech-level and Phoneme-level Masking Approach

Xulong Zhang, Jianzong Wang, Ning Cheng, Kexin Zhu, Jing Xiao

TL;DR本研究提出两种掩蔽方法（语音水平掩蔽和音素水平掩蔽），并通过这两种方法的预训练，在音素分类和说话人识别两个下游任务上评估。实验表明，所提出的掩蔽方法有助于提高语音表示的性能。

Abstract

Recovering the masked speech frames is widely applied in speech representation learning. However, most of these models use random masking in the pre-training. In this work, we proposed two kinds of masking approaches: (1) →

masked speech frames speech representation learning speech-level masking phoneme-level masking speaker recognition

发现论文，激发创造

通过掩码重构无监督预训练双向语音编码器

提出了一种使用掩蔽重构损失进行预训练语音表示的方法，实现了双向预训练编码器网络在典型的双向语音识别模型中的直接使用。该方法在 LibriSpeech 和 Wall Street Journal 语料库上的实验表明，预训练、掩蔽段、领域适应都能提高语音识别性能。

Jan, 2020

言语内容屏蔽的探索性评估

最近的语音隐私研究主要集中在匿名化声学说话者属性，但对于保护语音内容的信息研究较少。本文引入了一个玩具问题，探讨了一种被称为 “内容隐藏” 的新型隐私保护方法，该方法隐藏了语音中的选定单词和短语。通过改变预训练的向量量化变分自编码器（VQ-VAE）生成的离散电话表示（电话代码）序列并通过 WaveRNN 重新合成的方法，我们评估了一个基准掩码技术。我们对三种不同的掩码位置和三种掩码策略进行了研究：噪声替换、单词删除和电话序列反转。我们着重研究了掩码对自动语音识别（ASR）和自动说话者验证（ASV）这两个后续任务的影响，并讨论了如何影响隐私目标的这些问题。

Jan, 2024

探索音素级别的端到端语音翻译表示

研究采用类音素语音表示替代传统帧级语音特征作为源输入，在端到端的语音翻译任务中，相比传统方法，模型性能有显著提高，同时训练时间减少了 60%。

Jun, 2019

针对鉴别性语言模型预训练的自进化学习

本文提出了 Self-Evolution 学习方法，利用自适应 Token 掩蔽和标签平滑正则化技术，全面且明智地利用数据中的知识，通过在 10 项任务中进行实验，证明了该方法在各种 PLMs 上带来了相应且显著的提升，可以提高语言知识的学习和推广。

May, 2023

掩蔽：预训练语言模型的有效替代方法

本文提出了一种有效的预训练语言模型利用方法，其中利用二进制选择性蒙版来代替微调的方法对预训练权重进行修改。对 Bert 和 Roberta 模型进行掩模和微调的广泛评估表明，我们的掩模方案在执行多个任务时具有可比性的性能，却具有更小的内存占用。通过本文内在评估，我们展示了由掩模语言模型计算的表征编码了解决下游任务所需的信息。分析损失景观，我们展示了掩蔽和微调能够生成几乎具有恒定测试准确度的线段相连的值，证实了掩蔽是微调的有效替代方法。

Apr, 2020

基于 Phoneme 级别的 BERT 和 Grapheme 预测增强文本转语音的韵律

本研究提出了预训练的基于音素级别的 BERT 编码器，通过预测对应的字母表顺序来提高生成语音的自然度，并在主观评估中证明其在未知范围的文本中相比基于状态的 TTS 模型有显著提高的平均意见评分。

Jan, 2023

利用自监督语音模型进行音素分割

应用迁移学习到音素分割任务中，在自监督预训练中学习的表示对任务的效用得到证明。通过在 Transformer 风格编码器中增加有策略的卷积，操作预训练中学到的特征。在 TIMIT 和 Buckeye 语料库上训练和测试了该模型，分别在监督和非监督设置下达到了以前的最佳性能。在代码审查和尝试复现过去的分割结果中观察到，有必要明确广泛使用的评估指标的定义和实现。通过划分两种不同的评估方案并描述它们的细微差别来解决了这种不确定性。

Nov, 2022

预训练语音模型的噪声干扰攻击和防御

对训练得到的语音模型和预训练的语音编码器进行噪声掩码攻击，恢复私密信息并研究对抗措施。

Apr, 2024

使用 MASK 预训练的端到端单词级发音评估

本文提出了一种名为 MPA 的简单而有效的方法，通过采用掩码预测策略，支持端到端的训练过程，可在不使用任何对齐组件的情况下进行发音评估并在很大程度上解决误对齐问题。

Jun, 2023

基于 Transformer 的端到端语音识别语义掩码

提出了一种基于语义掩蔽的正则化方法，使用注意力机制的编解码器模型，以及 transformer-based 模型，以提升 E2E 模型的训练效果。通过实验验证，在 Librispeech 960h 和 TedLium2 数据集上取得了 E2E 模型领域的最新性能。

Dec, 2019