MaskSR：面向全频段语音恢复的 Masked Language Model

Jun, 2024

MaskSR：面向全频段语音恢复的 Masked Language Model

MaskSR: Masked Language Model for Full-band Speech Restoration

Xu Li, Qirui Wang, Xiaoyu Liu

TL;DR语音恢复是在各种失真的情况下恢复高品质语音的目标。本文提出了一种名为 MaskSR 的掩码语言模型，能够联合考虑噪声、混响、剪切和低带宽来恢复全频 44.1 kHz 的语音。MaskSR 利用预训练的神经编解码器提取离散声学令牌。在训练过程中，MaskSR 被优化为根据带有各种失真的损坏语音，预测从高品质目标语音中随机屏蔽的令牌。在推断过程中，MaskSR 通过高效的迭代采样重建目标语音令牌。大量实验证明，与各种模型相比，MaskSR 在全频语音恢复任务和子任务上都取得了竞争力的结果。

Abstract

speech restoration aims at restoring high quality speech in the presence of a diverse set of distortions. Although several deep learning p

speech restoration deep learning masked language model acoustic tokens distortions

发现论文，激发创造

MSRS: 用稀疏掩码优化从零开始训练多模态语音识别模型

该研究提出了一种正则化技术，可以从头开始训练视觉和视听语音识别模型，通过学习稀疏结构并减少训练时间，同时达到竞争性的识别结果。

Jun, 2024

基于 Transformer 的端到端语音识别语义掩码

提出了一种基于语义掩蔽的正则化方法，使用注意力机制的编解码器模型，以及 transformer-based 模型，以提升 E2E 模型的训练效果。通过实验验证，在 Librispeech 960h 和 TedLium2 数据集上取得了 E2E 模型领域的最新性能。

Dec, 2019

神经编码器是语音超分辨率的唯一需求

本文提出了一种基于神经声码器的语音超分辨率方法 (NVSR)，该方法可以处理各种输入分辨率和上采样比例，其取得了优于当前最先进方法 WSRGlow 和 Nu-wave 的 8% 和 37% 的对数谱距离精度，并且具有显著更好的感知质量。

Mar, 2022

多模式语音识别及非结构化语音掩蔽

本篇论文研究了在嘈杂的情况下，如何通过视觉上下文提升语音识别的准确性，并通过模拟 RandWordMask 掩码模式验证了多模态 ASR 系统在不同掩码模式下的泛化能力，结论显示在一定程度上可提升 ASR 系统的能力。

Oct, 2020

联合优化掩码和深度循环神经网络进行单声源分离

该研究探索了使用掩蔽函数和深度递归神经网络进行单声道源分离任务（包括单声道语音分离，单声道歌唱声分离和语音去噪）的联合优化。与现有模型相比，我们的方法在评估数据集中的任务中表现良好，并实现了较大的音频性能提升。

Feb, 2015

通过语音水平和音素水平屏蔽方法改善语音表示学习

本研究提出两种掩蔽方法（语音水平掩蔽和音素水平掩蔽），并通过这两种方法的预训练，在音素分类和说话人识别两个下游任务上评估。实验表明，所提出的掩蔽方法有助于提高语音表示的性能。

Oct, 2022

预训练语音模型的噪声干扰攻击和防御

对训练得到的语音模型和预训练的语音编码器进行噪声掩码攻击，恢复私密信息并研究对抗措施。

Apr, 2024

CoLM-DSR：利用神经编码语言建模重建多模态发音障碍语音

通过多模型 Dysarthric speech reconstruction（DSR）模型，利用神经编解码器语言建模提高重建结果，尤其在讲话者相似性和韵律自然性方面有显著改进。

Jun, 2024

AudioSR：大规模多功能音频超分辨率

通过使用扩散基于生成模型的 AudioSR，我们能够对多种音频类型进行稳健的音频超分辨率处理，包括音效、音乐和语音，并在 2kHz 到 16kHz 的带宽范围内将输入音频信号上采样到 24kHz 带宽的高分辨率音频信号，从而大大提高音频生成模型的生成质量。

Sep, 2023

半自回归训练改善掩码预测解码

该研究提出了一种新的训练方法 SMART，通过模仿 mask-predict 的半自回归行为，使得训练样本包含模型预测作为输入，以进一步提高使用 mask-predict 解码的翻译质量，有效缩小了半自回归和全自回归模型之间的性能差距。

Jan, 2020