自动病理可懂性评估的解缠离散语音表征

Apr, 2022

自动病理可懂性评估的解缠离散语音表征

Disentangled Latent Speech Representation for Automatic Pathological Intelligibility Assessment

Tobias Weise, Philipp Klumpp, Andreas Maier, Elmar Noeth, Bjoern Heismann...

TL;DR使用网络的解耦语音表示方法，从大量不同发言者收集到的语音数据中，实现对小量特定发言者语音智力的客观量化计算。

Abstract

speech intelligibility assessment plays an important role in the therapy of patients suffering from pathological speech disorders. Automatic and objective measures are desirable to assist therapists in their trad

发现论文，激发创造

针对数据有限的发音不清和口音不标准的个性化ASR

本文提出并评估了微调技术，以提高自动语音识别系统对非标准语音的识别准确性，特别关注两种非标准语音：肌萎缩侧索硬化症患者的言语和带口音的言语，并训练出个性化模型，相对于标准语音，相对词错误率能提高62％和35％，仅五分钟的训练就能带来71％的提升，微调部分层的结果往往比微调整个模型更好，是构建肌无力性言语最先进的自动语音识别模型的第一步。

Jul, 2019

一种病理性语音合成的客观评估框架

利用现有的检测和分析技术，本文提出了一个评估综合框架，用于评估不同水平言语清晰度的发音障碍语音合成。该框架可评估语音质量和可懂性方面，且经实验证明具有互补性。使用我们提出的评估框架，我们发展和测试了一种发音障碍语音转换系统，并展示其表现良好。

Jul, 2021

混乱语音评估和识别的光谱-时间深度特征

本文研究基于SVD分解的深度学习算法，用于自动识别语音障碍人士的语音，并且使用该算法提高了基于语音识别的自适应技术在该领域中的性能。

Jan, 2022

使用英语、韩语和泰米尔语构建的语音数据集对失语症智力分类的多语言分析

本文分析了来自英语、韩语和泰米尔语三种具有不同韵律系统的语言的语音障碍者讲话数据集，检查反映语音质量、发音和韵律三个讲话维度的39个声学测量标准，提出在了解说话的可懂水平的平均声学测量值的基础上进行多语种分析，并进行自动可懂性分类以研究最佳功能集。分析表明发音特征是语言无关的测量标准，如音素正确百分比、辅音正确百分比和元音正确百分比，而声音质量和韵律特征通常呈现不同的语言特征。实验结果进一步表明，不同的语音维度在不同的语言中发挥更大的作用：英语的韵律，韩语的发音，泰米尔语的韵律和发音。这篇论文为语音病理学做出了贡献，因为它区分了英语、韩语和泰米尔语的语音障碍者可懂性分类中语言无关和语言相关的测量标准。

Sep, 2022

使用不确定性发音好坏评估方法评估口吃言语的听力可懂度

本文介绍了一种改进的发音好坏指标（GoP），它利用不确定性量化（UQ）进行自动评估失语症患者的语音清晰度，并通过归一化音素预测和修改评分函数来提高性能。

May, 2023

使用Transformer进行少样本处理的发音障碍语音可理解性水平分类

通过使用具有有限数据的Transformer模型，本研究旨在准确分类失语和提供有关可理解性水平的信息，同时解决以往研究中存在的数据泄漏问题，并表明所采用的多课程模型在特定数据集上获得了67%的准确度。

Sep, 2023

学习解缠绕语音表示

利用综合研究人工数据集SynSpeech来评估监督技术在语音表征解耦上的效果，弥补有限的语音数据集缺乏已知生成因素的问题，为现有最先进的语音表征学习方法提供全面的评估和框架，进一步推动这个相对较少探索的领域的发展。

Nov, 2023

使用自监督转换和多任务学习的语音无关语言障碍严重程度分类

通过使用变压器模型与多任务学习，研究论文提出了一种自动评估口吃严重程度的新框架，并比较不同方法之间的性能，以实现客观、可重复、易接触、标准化和成本效益高的自动评估方案。

Feb, 2024

病理语音检测的自监督学习

语音产生是一个复杂的现象，通过思维加工、运动规划和发音运动的执行，大脑协调一系列过程。然而，这些多种过程的复杂执行容易受到各种神经退行性病理性言语障碍的影响和干扰，如帕金森病，导致话语障碍、运动障碍等情况。这些障碍导致异常的言语模式和不清晰的表达。为了解决这些挑战，已提出了几种自动病理性言语检测方法，主要侧重于输入表示和分类器的应用。由于数据有限，检测的性能仍然不甚理想。自我监督学习嵌入，如wav2vec2及其多语言版本，被认为是提高性能的有希望途径。这些嵌入利用自我监督学习技术从音频数据中提取丰富的表征，从而为解决标签数据稀缺性所带来的限制提供了潜在的解决方案。

May, 2024

走向客观和可解释的语音障碍评估: 基于CNN和Transformer的模型的比较分析

这项研究提出了一种基于自我监督的Wav2Vec2模型，用于头颈癌患者的语音分类，以提高准确性和语音特征辨别能力，并通过评估多样化语料库的方式验证了该模型的有效性，为医生提供了可解释的方法来理解病理性语音。

Jun, 2024