即插即用的多语种小样本语音识别

May, 2023

即插即用的多语种小样本语音识别

Plug-and-Play Multilingual Few-shot Spoken Words Recognition

Aaqib Saeed, Vasileios Tsouvalas

TL;DRPLiX 是一种多语言、即插即用的语音关键字检测系统，它利用少量样本学习海量真实世界数据，实现在测试期间识别未见过的口头单词。

Abstract

As technology advances and digital devices become prevalent, seamless human-machine communication is increasingly gaining significance. The growing adoption of mobile, wearable, and other internet of things (IoT) devices has changed how we interact with these smart devices, making accu

spoke words recognition plix multilingual few-shot learning internet of things

发现论文，激发创造

使用原型网络进行少样本关键词识别

研究通过使用度量学习，以及选择临时和膨胀卷积等技术来解决关键词识别中的新词汇难题。同时，利用生成的数据集，可以使用少量样本准确识别新的用户自定义的关键词汇。

Jul, 2020

通过多语言对比的语音音素预训练在任何语言中实现开放词汇关键词检测

这篇论文介绍了一种包含 115 多种不同语系的细粒度音素转录的大规模多语言语音语料库。基于这个多语言数据集，我们提出了 CLAP-IPA，这是一种能够在语音信号和音素转录的关键词或任意短语之间进行开放词汇匹配的多语言音素语音对比嵌入模型。所提出的模型已在 97 种未见过的语言中的两个实地语音语料库上进行了测试，展示了跨语言的强大泛化能力。与基于文本的模型相比，使用音素作为建模单位比正字文本具有更好的跨语言泛化能力。

Nov, 2023

移动设备上的个性化语音识别

本文介绍了一种大词汇量语音识别系统，其特点是准确、延迟低，同时其内存和计算资源占用不大，可以在 Nexus 5 Android 智能手机上以快于实时的速度运行。使用一种量化的 LSTM 音频模型和 CTC 训练直接预测音素目标，进一步使用基于 SVD 的压缩方案进一步减小内存占用，同时利用贝叶斯插值构建单一的语言模型，在植入词汇项进入解码器图表并实时更改语言模型偏差的情况下正确执行设备特定的信息。其最终取得的效果是在开放式口述任务中 13.5% 的单词错误率，而以运行速度优于实时的为媒介获得更优秀的结果。

Mar, 2016

用于设备上关键词识别系统自定义的 Few-Shot 开放集学习

本研究针对 KeyWord Spotting 的应用场景，提出了基于 Deep Learning 和 Few-shot Learning 的开放式分类方法，并通过使用三元组损失训练编码器，实现了较高的精度和较低的未知数据虚警率。

Jun, 2023

简单而有效的零样本跨语言音素识别

本文通过使用发音特征将多种训练语言的音素映射到目标语言中，对多语言预训练的 wav2vec 2.0 模型进行微调，以在没有标记数据的情况下提高其对未见过的语言的识别能力，并在实验中取得了较优效果。

Sep, 2021

使用有限和合成的语音数据训练关键词检测器

本文研究使用合成语音数据为小型的口语术语检测模型训练提取有用特征的预训练语音嵌入模型，相较于在 500 个真实示例上训练模型，只使用合成语音即可达到同等精度。

Jan, 2020

学习音频文本协同以实现开放式关键词定位

本文提出一种新颖的端到端的用户定义关键词检测方法，利用语音和文本序列之间的语言对应模式，实现音频和文本表征在共同的隐含空间中；采用基于注意力的跨模态匹配方法，训练具有单调匹配损失和关键词分类损失的模型，并利用去噪损失改善模型在嘈杂环境中的稳健性，同时引入 LibriPhrase 数据集用于高效地训练关键词检测模型；与其他单模态和跨模态基线相比，在各种评估集上取得了有竞争力的结果。

Jun, 2022

观察唤醒词：视听关键词检测

本研究提出一种名为 KWS-Net 的卷积神经网络结构，通过序列匹配和模式检测技术，从视觉角度自动检测并确定在何时，是否有包含关键词的口型出现，在无音频或有清晰 / 嘈杂语音的情况下，性能优于现有的同类方法，还在跨语言处理上实现了良好的表现。

Sep, 2020

SpeechCLIP：将语音与预训练的视觉和语言模型相融合

本文提出了一种名为 SpeechCLIP 的新框架，通过图像将语音和文本结合起来，从而改善语音模型的性能，无需直接从转录中进行监督。SpeechCLIP 使用先进的预训练 HuBERT 和 CLIP 模型，并通过配对的图像和口头字幕进行对齐，实现了零样本语音 - 文本检索和语音中关联关键字的提取。

Oct, 2022

通过本地可学习用户讲话特征提升关键词检测

在此研究中，我们提出了一种新颖的设备内学习架构，由预训练的主干网络和学习用户语音特征的用户感知特征学习组成，用于解决无人工场景中部署时需要调整离线训练分类器以提高准确性的问题。我们通过更新用户投影来减小从 30.1% 到 24.3% 的错误率，针对 Google Speech Commands 数据集的 35 类问题中由未见过的发言人引起的领域转移。此外，我们还展示了我们提出的架构在样本和类别稀缺学习条件下的少样本学习能力。带有 23.7k 参数和每个周期的 1MFLOP 的需求，我们的系统适用于针对电池供电微控制器的 TinyML 应用。

Mar, 2024