自动检测失语症患者语音中的改写错误的 Seq2seq 模型
通过使用语言无关的语言特征,我们尝试利用英语中可用的数据,并在希腊语和法语等低资源语言中实现零样例失语症检测。我们提出了一种端到端流水线,使用预训练的自动语音识别(ASR)模型,共享跨语言语音表示,并进行微调,以实现我们所需的低资源语言。为了进一步提高我们的 ASR 模型的性能,我们还将其与语言模型结合在一起。我们证明,我们基于 ASR 的端到端流水线提供了与使用人工注释转录的先前设置相当的结果。
Apr, 2022
Wav2Seq 是第一个用于预训练语音数据的自监督方法,采用了伪语言作为紧凑的离散表示,并制定了自监督伪语音识别任务 - 将音频输入转录为伪子词序列。
May, 2022
使用自监督模型结合多任务学习的新颖自动程度评估方法在不充分的数据下对 Dysarthric 发音进行评估,该方法使用 Wav2vec 2.0 XLS-R 以及手工制作的声学特征和机器学习分类器, 在 Korean dysarthric speech QoLT 数据库上相较传统基线方法提高了 1.25% 的 F1 值,并且相较于没有 ASR 头的模型提高了 10.61% 的相对百分比增长。我们还通过分析潜在表示和正则化效应来展示多任务学习如何影响重度分类表现。
Oct, 2022
探索使用基于 LSTM 单元的序列到序列 (Seq2Seq) 模型在点对点学习环境下的自动语音识别 (ASR) 任务的适用性,通过两种不同的点对点学习方法模拟代理学习过程,并使用两个不同的 ASR 数据集评估其性能。研究发现在集中式训练环境中,使用缩小版 Deep Speech 2 模型的单个模型在 UserLibri 数据集上训练时,识别误差率 (Word Error Rate, WER) 为 84%,在 LJ Speech 数据集上训练时为 38%。然而,通过 55 个代理进行点对点学习,并使用 UserLibri 数据集和 LJ Speech 数据集进行训练时,WER 在 UserLibri 数据集上的范围为 87% 至 92%,在 LJ Speech 数据集上的范围为 52% 至 56%。结果表明,在分散式训练环境中使用 Seq2Seq 模型是可行的,尽管识别误差率 (WER) 稍高于集中式训练方法。
May, 2024
本文研究了现有的 seq2seq 预训练模型中存在的问题,提出了一种基于编码器自监督学习的预训练策略 E2S2,并通过在多个自然语言理解和生成任务中的实验证明了其可行性及有效性。
May, 2022
该研究分析了一个基于注意力机制的序列到序列语音识别系统,提出了解决其预测过于自信和产生不完整转录的问题的实用解决方案,并在没有语言模型的情况下,其词错误率为 10.6%,与 trigram 语言模型一起达到了 6.7%的词错误率。
Dec, 2016
我们提出了一种基于感知器的序列分类器,用于检测反映多种神经系统疾病的语音异常。我们将这个分类器与一个训练有素(无监督训练)的通用语音模型(USM)结合起来,该模型在 1200 万小时的多样化音频记录上进行训练。我们的模型将长序列压缩为一组小的与类别相关的潜在表示,并使用分解投影来预测有序输入语音的不同属性。我们的方法的好处是,它允许我们对输入的不同区域进行不同类别的建模,同时具有数据效率。我们在 Mayo Clinic 的手稿语料库上对提出的模型进行了广泛评估。我们的模型的性能优于标准的 Transformer 模型(80.9%)和感知器模型(81.8%),平均准确率达到 83.1%。通过有限的任务特定数据,我们发现预训练是重要的,并且出乎意料的是,预训练与不相关的自动语音识别(ASR)任务也是有益的。中间层的编码提供了声学和语音信息的混合,并且相对于仅使用最终层的编码(83.1% 对比 79.6%),获得了最佳预测结果。这些结果有很大的潜力,并且在进一步的改进后或许可以帮助医生检测语音异常而无需接触高度专业的言语病理学家。
Oct, 2023
该研究使用预训练序列到序列模型 BART,并对其进行自适应训练来对自动语音识别中的发音和拼写错误进行纠正,并采用词级对齐的简单方法重新评分。实验结果表明,该策略在口音语音数据上有效地矫正了大量 ASR 错误,并在与基准系统的比较中产生了改进的 WER 结果。然而,在印地语语法错误纠正任务中,该模型捕捉更广泛上下文的能力受到限制。
Feb, 2022
研究使用自我监督学习的深度学习自动语音识别模型在临床设置中处理话语自然性上的困难,并探讨产生的错误对痴呆分类下游任务准确性的影响。结果表明,相对高错误率的自动语音识别系统可以产生更好的下游分类精度而非字面上的听写结果。
Nov, 2022
该研究提出了一种全自动的方法来识别语音记录中的语音异常,以帮助评估语音障碍。结合连续时间分类(CTC)和基于编码器 - 解码器的自动语音识别模型,生成丰富的声学和干净的转录本。然后,应用几种自然语言处理方法从这些转录本中提取特征,以产生健康语音的原型。利用这些原型的基本距离度量作为标准机器学习分类器的输入特征,可以实现与人类水平相当的准确性来区分患有失语症的人与健康对照组的记录。此外,可以以 90% 的准确性区分最常见的失语症类型。该流程可直接应用于其他疾病和语言,并显示出从语音诊断标志提取的强大前景。
Aug, 2023