零封多语言口语关键词识别的通用语言特征建模

Jun, 2024

零封多语言口语关键词识别的通用语言特征建模

Language-Universal Speech Attributes Modeling for Zero-Shot Multilingual Spoken Keyword Recognition

Hao Yen, Pin-Jui Ku, Sabato Marco Siniscalchi, Chin-Hui Lee

TL;DR我们提出了一种新颖的语言通用方法来实现自动口语关键词识别，在自我监督预训练模型和一系列通用语音属性（发音方式和发音位置）的基础上进行。具体来说，我们使用 Wav2Vec2.0 生成强大的语音表示，然后通过线性输出层产生属性序列。在多语言环境中，非可训练的发音模型将属性序列映射为口语关键词。在多语种口语识别任务中的实验证明，我们的方法在已知语言中与基于字符和音素的方法具有可比较的性能。引入领域对抗训练（DAT）后，我们的框架的性能得到了提升，在已知语言中，相对字错误率（WER）减少了 13.73% 和 17.22%，在零样本语言中，WER 减少了 32.14% 和 19.92%。

Abstract

We propose a novel language-universal approach to end-to-end automatic spoken keyword recognition (SKR) leveraging upon (i) a self-supervised pre-trained model, and (ii) a set of universal speech attributes (mann

language-universal approach end-to-end automatic spoken keyword recognition wav2vec2.0 universal speech attributes domain adversarial training

发现论文，激发创造

简单而有效的零样本跨语言音素识别

本文通过使用发音特征将多种训练语言的音素映射到目标语言中，对多语言预训练的 wav2vec 2.0 模型进行微调，以在没有标记数据的情况下提高其对未见过的语言的识别能力，并在实验中取得了较优效果。

Sep, 2021

使用知识蒸馏的语言通用适配器学习实现端到端多语言语音识别

本文提出了一个基于预训练模型的语言通用适配器学习框架，用于端到端的多语言自动语音识别。通过插入特定于语言和语言通用适配器来微调 Wav2Vec 2.0 预训练模型，然后使用在线知识蒸馏来使语言通用适配器学习特定于语言和通用特征，通过利用语言识别器（LID）降低语言信息混淆，进而改善识别准确率，并解决通用多语种 ASR 系统中适配器参数数量随语言数量线性增长的问题，BABEL 数据集上的实验结果验证了所提出框架的有效性，并相比传统的多语种模型取得了 3.3％的绝对误差率的降低。

Feb, 2023

基于自监督预训练声学模型的多语言零资源语音识别

本文研究使用预训练模型来解决无监督语音识别中的音素和单词级别的问题。通过在 IPA 音素转写上微调预训练模型并使用语言模型进行解码，实验结果表明该方法可在某些语言上实现低于 20% 的单词错误率，8 种语言的平均错误率为 33.77%。

Oct, 2022

观察唤醒词：视听关键词检测

本研究提出一种名为 KWS-Net 的卷积神经网络结构，通过序列匹配和模式检测技术，从视觉角度自动检测并确定在何时，是否有包含关键词的口型出现，在无音频或有清晰 / 嘈杂语音的情况下，性能优于现有的同类方法，还在跨语言处理上实现了良好的表现。

Sep, 2020

无监督语音识别

本文介绍了 wav2vec-U 这种方法，可以通过无监督学习的方式训练语音识别模型，许多语种如 Kyrgyz、Swahili 和 Tatar 等成为了可能。

May, 2021

多语言神经表示的端到端开放词汇关键词搜索

利用多语言预训练的神经 ASR-free 关键词搜索模型能够显著提高性能，并且在长查询和未出现在训练数据中的查询方面胜过基于 ASR 的系统。

Aug, 2023

基于语音和文本数据的音位结构学习，较少资源近乎无监督的语音识别

利用音频字向量和自编码器实现跨模态的语音识别，演示了即使缺乏训练数据，也可以从少量音频和文本之间的嵌入对齐中进行 ASR 系统的训练。

Oct, 2018

利用自监督语音表示进行 L2 熟练度评估

本文介绍一种基于自监督语音表示的自动口语评估系统，并将其与传统的基于语音识别和基于文本的评估系统进行比较。研究结果表明，该系统可以在适当情况下与其他系统媲美甚至取得更好的表现。

Nov, 2022

使用大型数据集探索单语音频 Transformer 在捷克语自动语音识别中的能力

本文介绍了在大数据集上通过预训练机器学习模型和微调等方法，利用无标签语音数据和有标签语音数据对 Wav2Vec 2.0 进行 ASR 系统的训练及评估，并取得成功的实验结果。

Jun, 2022

朝向端到端无监督语音识别

介绍一种改进的 wav2vec-U 2.0 方法，通过更好的结构来消除语音处理的需要，并引入自监督目标来实现更好的准确度，从而在不同语言下提高了非监督性识别结果。

Apr, 2022