VoiceFilter-Lite: 面向设备的实时定向语音分离技术用于语音识别

Sep, 2020

VoiceFilter-Lite: 面向设备的实时定向语音分离技术用于语音识别

VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device Speech Recognition

Quan Wang, Ignacio Lopez Moreno, Mert Saglam, Kevin Wilson, Alan Chiao...

TL;DR本论文介绍了一种能够实时运行于设备上的单通道源分离模型，其可以从一个目标说话者的语音信号中仅保留语音信息，以优化流式语音识别系统的表现。该模型具有分离源、单通道、语音识别、自适应运行时和实时这些特别之处，并通过使用一种新的不对称损失和采用自适应运行时抑制强度来实现这些目标。本论文最终证明了，这种模型可以被量化为 8 位整型模型，并且可以实时运行于设备上。

Abstract

We introduce VoiceFilter-Lite, a single-channel source separation model that runs on the device to preserve only the speech signals from a target user, as part of a streaming →

source separation single-channel speech recognition adaptive runtime realtime

发现论文，激发创造

VoiceFilter: 基于说话人条件的频谱掩码的定向语音分离

本文提出一个新颖的系统用于从多人信号中分离目标说话者的声音，并通过两个神经网络来训练：说话人识别网络和谱掩蔽网络。该系统可明显降低多人信号上的语音识别错误率，并在单人信号上最小限度地降低错误率。

Oct, 2018

Voice Filter: 基于语音转换后处理模块的少样本文本转语音说话人自适应

本文提出一种极低资源语音合成方法 Voice Filter，它只需要使用目标发言人的一分钟语音，采用基于声音转换（VC）的后处理模块来增强现有的高质量 TTS 系统，成功地解决了低资源 TTS 系统训练中的质量和可理解性降低的问题，并将少样本 TTS 问题视为 VC 任务。此外，本文还提出使用一种持续可控的 TTS 系统创建平行语音语料库以促进 VC 任务。结果表明，Voice Filter 在多个基于大量语音数据声音的客观和主观度量上表现优异。

Feb, 2022

VoViT: 基于图论的低延迟音视频语音分离 Transformer

本文提出了一种音频 - 视觉声音分离方案，在两种不同场景（语音和唱歌）中实现了低时延的最新成果。该模型基于两级网络，采用轻量级图卷积网络从面部标记中提取运动线索，然后将视觉和音频特征输入到音频 - 视觉转换器中，为目标源的隔离估计提供相当不错的结果。在第二阶段，利用音频网络增强了主要的声音。我们进行了不同的消融研究和与最先进的方法比较。最后，我们探讨了在唱声分离任务中训练语音分离模型的可转移性。

Mar, 2022

移动设备上的个性化语音识别

本文介绍了一种大词汇量语音识别系统，其特点是准确、延迟低，同时其内存和计算资源占用不大，可以在 Nexus 5 Android 智能手机上以快于实时的速度运行。使用一种量化的 LSTM 音频模型和 CTC 训练直接预测音素目标，进一步使用基于 SVD 的压缩方案进一步减小内存占用，同时利用贝叶斯插值构建单一的语言模型，在植入词汇项进入解码器图表并实时更改语言模型偏差的情况下正确执行设备特定的信息。其最终取得的效果是在开放式口述任务中 13.5% 的单词错误率，而以运行速度优于实时的为媒介获得更优秀的结果。

Mar, 2016

一次性条件音频滤波任意声音

本文提出了一种基于波形神经网络的声源分离模型 SoundFilter，该模型可以通过无监督学习获得未知混合声源的信号，并使用配置编码器对任意声源进行过滤，同时在噪声数据集上取得了显著的性能提升，并成功地通过语音数据集对两位演讲者的混合语音进行了有效的分离。

Nov, 2020

FaceFilter: 通过静态图像进行音视频语音分离

使用深度学习中的音频 - 视觉语音分离网络，从混音状态中分离出指定说话者的语音，且仅使用目标说话者的单一面部图像，通过潜在空间的交叉模态生物识别任务中的面部外观获得条件特征，可隔离和提取这些说话者的语音，为语音分离任务中的通道交换问题提供解决方案，同时也适用于未知说话者。

May, 2020

使用跳过 - 滤波连接和循环推理时间频率掩模的单声道歌声分离

该论文提出了一种基于深度学习的歌声分离方法，学习和优化了源依赖性遮罩，不需要使用后处理步骤，并引入了循环推断算法、稀疏变换步骤和学习去噪滤波器，同时也提高了单声道歌声分离的性能。

Nov, 2017

通过本地可学习用户讲话特征提升关键词检测

在此研究中，我们提出了一种新颖的设备内学习架构，由预训练的主干网络和学习用户语音特征的用户感知特征学习组成，用于解决无人工场景中部署时需要调整离线训练分类器以提高准确性的问题。我们通过更新用户投影来减小从 30.1% 到 24.3% 的错误率，针对 Google Speech Commands 数据集的 35 类问题中由未见过的发言人引起的领域转移。此外，我们还展示了我们提出的架构在样本和类别稀缺学习条件下的少样本学习能力。带有 23.7k 参数和每个周期的 1MFLOP 的需求，我们的系统适用于针对电池供电微控制器的 TinyML 应用。

Mar, 2024

优化边缘语音识别

本文研究边缘设备上的语音识别问题，通过使用端到端的神经结构，并应用更有效的神经网络拓扑和优化技术，成功构建了一个高精度的，在边缘设备上运行的小型语音识别系统。

Sep, 2019

高质量语音合成的超轻量级神经差分 DSP 语音编解码器

提出了一种超轻量级的差分 DSP (DDSP) vocoder，该 vocoder 使用了一个经过联合优化的声学模型和 DSP vocoder，学习过程中不需要提取声道的光谱特征，实现了与神经 vocoder 相当的音频质量，同时作为一个 DSP vocoder 非常高效。在 2GHz 的 Intel Xeon CPU 上单线程运行时，无需任何硬件特定优化，C++ 实现的 FLOPS 达到 15 MFLOPS，相对于 MB-MelGAN 的 FLOPS，高出 340 倍，仅需 0.003 的 vocoder-only RTF 和 0.044 的总 RTF。

Jan, 2024