带有师生学习的极速语音分离模型
本文探讨了如何扩大自监督学习(SSL)的规模,以更好地应用于语音分离问题。通过使用大量的预训练数据进行 fine-tuning,提出的模型在节省了 38% 计算成本的同时,相比于监督学习方法和基于 WavLM 的模型,在一些测试数据集上的单词错误率均有显著的改善。
Nov, 2022
最近关于文本到语音合成(TTS)的研究表明,使用语言模型驱动的 TTS 展示了卓越的能力,能够实现自然度和零样本声音克隆。本文提出使用新兴递归架构替代变压器,并引入专门的交叉关注机制以减少重复和跳跃问题。结果,我们的架构能够在长音频样本上高效训练,并在相同规模的基准模型上实现最先进的零样本声音克隆。
Jun, 2024
本文研究使用 Transformer 模型替代基于循环神经网络的编码器 - 解码器模型,应用于多说话者语音识别和神经束形成器中的遮盖网络,得以有效处理混响信号,并加入外部去混响预处理方法进行对比试验。实验证明,在单通道和多通道任务下,基于 Transformer 的模型相对错误率降低达 40.9% 和 25.6%,在混响环境中的相对错误率降低达 41.5% 和 13.8%。
Feb, 2020
本文介绍了一种基于 Transformers、无 RNN 结构的深度神经网络,即 SepFormer,并运用多尺度方法使其实现短时和长时依赖性的学习,从而在语音分离任务中取得了最优结果,并具有较高的计算速度和较小的内存占用。
Oct, 2020
通过使用自我注意力来模拟时间上下文信息,基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统,其可以在每个发音单词之后快速生成输出,因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模,同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上,我们的方案分别达到了 2.8% 和 7.2% 的词错误率,这是我们所知道的这个任务的最好的流式端到端 ASR 成果。
Jan, 2020
本文提出了一种针对实时应用场景的端到端增强记忆 Transformer 编码器,成功地应用于流式同声传译任务,可以处理大量连续输入,相较于单向掩码 Transformer 模型,具有更好的延迟和质量平衡。
Oct, 2020
本文提出了一种名为 MultiSpeech 的高质量多说话人变压器语音合成系统,通过几个特殊设计的组件 / 技术改善了文本到语音的对齐,并在多个数据集上展示了其效果。
Jun, 2020
该论文提出了一种端到端的语音识别模型,使用 Transformer 编码器可用于流媒体语音识别系统;该模型在 LibriSpeech 数据集上进行了实验结果,结果表明限制 Transformer 层中自注意力左侧上下文对于流式解码是可行的,并展示了我们的全注意力模型在 LibriSpeech 基准测试上的准确性优于现有技术水平。
Feb, 2020
本研究采用 Transformer 结构,构建端到端的序列到序列模型,其表现超过了之前的端到端模型和传统混合系统,并且在 Switchboard 基准测试中超出了所有之前的端到端 ASR 方法。
Apr, 2019
本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech,它在语音质量、稳定性、可控性和速度方面均具备相应优点。
May, 2019