自动检测失语症患者语音中的改写错误的 Seq2seq 模型

Dec, 2023

自动检测失语症患者语音中的改写错误的 Seq2seq 模型

Seq2seq for Automatic Paraphasia Detection in Aphasic Speech

Matthew Perez, Duc Le, Amrit Romana, Elise Jones, Keli Licata...

TL;DR提出了一种新颖的序列到序列（seq2seq）模型，经过端到端（E2E）训练，可以同时执行自动语音识别（ASR）和鹦鹉病检测任务，该模型在词级和句级鹦鹉病检测任务中优于以往最先进的方法，并提供了额外的后续评估来进一步了解该模型的行为。

Abstract

paraphasias are speech errors that are often characteristic of aphasia and they represent an important signal in assessing disease severity and subtype. Traditionally, clinicians manually identify →

paraphasias aphasia automatic paraphasia detection sequence-to-sequence model end-to-end training

发现论文，激发创造

使用自动语音识别的零样本跨语言失语症检测

通过使用语言无关的语言特征，我们尝试利用英语中可用的数据，并在希腊语和法语等低资源语言中实现零样例失语症检测。我们提出了一种端到端流水线，使用预训练的自动语音识别（ASR）模型，共享跨语言语音表示，并进行微调，以实现我们所需的低资源语言。为了进一步提高我们的 ASR 模型的性能，我们还将其与语言模型结合在一起。我们证明，我们基于 ASR 的端到端流水线提供了与使用人工注释转录的先前设置相当的结果。

Apr, 2022

Wav2Seq：使用伪语言预训练语音到文本编解码模型

Wav2Seq 是第一个用于预训练语音数据的自监督方法，采用了伪语言作为紧凑的离散表示，并制定了自监督伪语音识别任务 - 将音频输入转录为伪子词序列。

May, 2022

使用自监督模型和多任务学习进行发音障碍语音的自动严重程度评估

使用自监督模型结合多任务学习的新颖自动程度评估方法在不充分的数据下对 Dysarthric 发音进行评估，该方法使用 Wav2vec 2.0 XLS-R 以及手工制作的声学特征和机器学习分类器，在 Korean dysarthric speech QoLT 数据库上相较传统基线方法提高了 1.25% 的 F1 值，并且相较于没有 ASR 头的模型提高了 10.61% 的相对百分比增长。我们还通过分析潜在表示和正则化效应来展示多任务学习如何影响重度分类表现。

Oct, 2022

对等学习中的序列到序列模型：一个实用应用

探索使用基于 LSTM 单元的序列到序列 (Seq2Seq) 模型在点对点学习环境下的自动语音识别 (ASR) 任务的适用性，通过两种不同的点对点学习方法模拟代理学习过程，并使用两个不同的 ASR 数据集评估其性能。研究发现在集中式训练环境中，使用缩小版 Deep Speech 2 模型的单个模型在 UserLibri 数据集上训练时，识别误差率 (Word Error Rate, WER) 为 84%，在 LJ Speech 数据集上训练时为 38%。然而，通过 55 个代理进行点对点学习，并使用 UserLibri 数据集和 LJ Speech 数据集进行训练时，WER 在 UserLibri 数据集上的范围为 87% 至 92%，在 LJ Speech 数据集上的范围为 52% 至 56%。结果表明，在分散式训练环境中使用 Seq2Seq 模型是可行的，尽管识别误差率 (WER) 稍高于集中式训练方法。

May, 2024

编码增强的序列到序列预训练模型用于语言理解与生成

本文研究了现有的 seq2seq 预训练模型中存在的问题，提出了一种基于编码器自监督学习的预训练策略 E2S2，并通过在多个自然语言理解和生成任务中的实验证明了其可行性及有效性。

May, 2022

序列转序列模型中更好的解码和语言模型集成

该研究分析了一个基于注意力机制的序列到序列语音识别系统，提出了解决其预测过于自信和产生不完整转录的问题的实用解决方案，并在没有语言模型的情况下，其词错误率为 10.6％，与 trigram 语言模型一起达到了 6.7％的词错误率。

Dec, 2016

利用基于感知器的序列分类器和通用语音模型检测语音异常

我们提出了一种基于感知器的序列分类器，用于检测反映多种神经系统疾病的语音异常。我们将这个分类器与一个训练有素（无监督训练）的通用语音模型（USM）结合起来，该模型在 1200 万小时的多样化音频记录上进行训练。我们的模型将长序列压缩为一组小的与类别相关的潜在表示，并使用分解投影来预测有序输入语音的不同属性。我们的方法的好处是，它允许我们对输入的不同区域进行不同类别的建模，同时具有数据效率。我们在 Mayo Clinic 的手稿语料库上对提出的模型进行了广泛评估。我们的模型的性能优于标准的 Transformer 模型（80.9%）和感知器模型（81.8%），平均准确率达到 83.1%。通过有限的任务特定数据，我们发现预训练是重要的，并且出乎意料的是，预训练与不相关的自动语音识别（ASR）任务也是有益的。中间层的编码提供了声学和语音信息的混合，并且相对于仅使用最终层的编码（83.1% 对比 79.6%），获得了最佳预测结果。这些结果有很大的潜力，并且在进一步的改进后或许可以帮助医生检测语音异常而无需接触高度专业的言语病理学家。

Oct, 2023

使用序列到序列模型进行自动语音识别的误差校正

该研究使用预训练序列到序列模型 BART，并对其进行自适应训练来对自动语音识别中的发音和拼写错误进行纠正，并采用词级对齐的简单方法重新评分。实验结果表明，该策略在口音语音数据上有效地矫正了大量 ASR 错误，并在与基准系统的比较中产生了改进的 WER 结果。然而，在印地语语法错误纠正任务中，该模型捕捉更广泛上下文的能力受到限制。

Feb, 2022

失败的另一面：探究语音识别误差对随后痴呆症分类的影响

研究使用自我监督学习的深度学习自动语音识别模型在临床设置中处理话语自然性上的困难，并探讨产生的错误对痴呆分类下游任务准确性的影响。结果表明，相对高错误率的自动语音识别系统可以产生更好的下游分类精度而非字面上的听写结果。

Nov, 2022

细致的耳语：利用自动语音识别的进展进行稳健和可解释的失语症亚型分类

该研究提出了一种全自动的方法来识别语音记录中的语音异常，以帮助评估语音障碍。结合连续时间分类（CTC）和基于编码器 - 解码器的自动语音识别模型，生成丰富的声学和干净的转录本。然后，应用几种自然语言处理方法从这些转录本中提取特征，以产生健康语音的原型。利用这些原型的基本距离度量作为标准机器学习分类器的输入特征，可以实现与人类水平相当的准确性来区分患有失语症的人与健康对照组的记录。此外，可以以 90% 的准确性区分最常见的失语症类型。该流程可直接应用于其他疾病和语言，并显示出从语音诊断标志提取的强大前景。

Aug, 2023