使用说话人表示和自监督上下文嵌入进行口吃检测

Jun, 2023

使用说话人表示和自监督上下文嵌入进行口吃检测

Stuttering Detection Using Speaker Representations and Self-supervised Contextual Embeddings

Shakeel A. Sheikh, Md Sahidullah, Fabrice Hirsch, Slim Ouni

TL;DR本研究通过使用预先训练的深度学习模型提取的语音嵌入，探索了使用 ECAPA-TDNN 和 Wav2Vec2.0 模型进行口吃检测任务的音频表示。相对于仅在有限 SEP-28k 数据集上训练的标准口吃检测系统，本研究在多个传统分类器上获得了 12.08％、28.71％、37.9％的相对改进并进一步证明结合两个嵌入和连接多个层的 Wav2Vec2.0 可进一步提高其性能。

Abstract

The adoption of advanced deep learning architectures in stuttering detection (SD) tasks is challenging due to the limited size of the available datasets. To this end, this work introduces the application of

stuttering detection deep learning speech embeddings ecapa-tdnn wav2vec2.0

发现论文，激发创造

ComParE 2022 口吃子挑战赛的端对端和自监督学习

本文提出了基于自监督学习的语音嵌入系统，通过对预先训练的 Wav2Vec2.0 模型进行嵌入提取，结合 Mel 频率倒谱系数 (MFCC) 特征进行评估，在计算语言学竞赛中达到了较好的结果，相对于 DeepSpectrum 挑战基线提高了 31.32% (验证集) 和 1.49% (测试集)。同时，通过对 Wav2Vec2.0 的各层嵌入进行求和，进一步提高了系统性能。

Jul, 2022

大规模自监督语音表征学习用于自动化说话者验证

使用预训练模型学习到的语音表示作为输入特征，采用可学习权重的平均表示方法，在 Voxceleb 数据集上进行了自我监督训练，实现了自动说话人验证，在三个官方测试中分别取得了 0.537％、0.569％和 1.180％的等误差率（EER），超越了 VoxCeleb Speaker Recognition Challenge 2021 (VoxSRC2021) 中的优胜系统。

Oct, 2021

语音识别中的学习：上下文音频词嵌入

本文提出一种方法，使用注意力分配从监督序列到序列的语音到单词识别模型中直接构建上下文语音嵌入。在一系列 16 个标准句子评估任务中，我们的嵌入表现与在语音转录中训练的 word2vec 模型相当。此外，我们在口语理解任务上评估这些嵌入并观察到，我们的嵌入匹配基于文本的嵌入在首先进行语音识别，然后从转录中构建单词嵌入的流水线中的性能。

Feb, 2019

建模语音变化的神经表征

研究使用自我监督的神经模型从语音中提取声学嵌入，计算非英语母语和英语母语以及挪威方言发音之间的基于单词的差异，并发现使用转换器的神经模型提取的语音表示与人类感知匹配得更好。

Nov, 2020

使用 Wav2Vec 2.0 识别器进行深度 LSTM 口语检测

本文利用基于字符的 Wav2Vec2.0 模型进行了大规模口语文档中的术语检测任务，实验结果表明，使用基于深度 LSTM 网络的共享发音嵌入空间的 bootstrapping 方法将 DNN-HMM 混合 ASR 的传统发音词汇的知识转化到基于图形的 Wav2Vec 中，能够显著优于 DNN-HMM 混合 ASR 和音素识别器的组合系统。

Oct, 2022

INESC-ID 多模态系统 - ADReSS 2020 挑战赛

本文利用多模态方法，结合语音和文本特征，提出了自动检测阿尔茨海默病的分类框架，并发现语言特征对于阿尔茨海默病的分类比声学特征更为重要，能够提高分类准确率。

May, 2020

深度神经网络的无监督音频和语义训练模型

应用深度学习框架从文本特征中提取有意义的表示，研究了语义同步在人际交流和人机交互中的评估及其与声学特征之间的关联性。

Dec, 2023

从语音中学习词嵌入

从原始语音中，无监督地提取固定长度的向量表示语音片段的语义信息，通过 RNN 编码器 - 解码器模型和连续 Skip-Grams 方法进行训练，并在 13 个常用词汇相似度基准测试中获得了和 GloVe 相媲美的结果。

Nov, 2017

针对设备内单通道语音增强的 Wav2Vec2 嵌入层的深入研究

通过对自监督学习表示进行研究，我们发现它们在挑战性条件下的单通道语音增强任务中几乎没有增加价值。为了系统地评估 SSL 表示对这些增强模型性能的影响，我们提出了多种利用这些嵌入的技术，包括不同形式的知识蒸馏和预训练。

Mar, 2024

基于跨模态师生学习的预训练语义语音嵌入用于端到端口语理解

本文提出了一种新的训练方法，将预先训练的语境嵌入用于处理声学特征，并扩展了预先训练的语音识别系统的编码器，以构建端到端的口语理解系统，实验结果表明，该系统在三个基准测试中达到与流水线结构相当的性能，在没有使用任何训练数据的情况下，在两个基准测试中经过微调每类 10 个示例后优于流水线结构。

Jul, 2020