探索用于病理语音特征预测的迁移学习：层选择的影响

Feb, 2024

探索用于病理语音特征预测的迁移学习：层选择的影响

Exploring transfer learning for pathological speech feature prediction: Impact of layer selection

Daniela A. Wiepert, Rene L. Utianski, Joseph R. Duffy, John L. Stricker, Leland R. Barnard...

TL;DR通过选择最佳层，我们发现转移学习对预测病理性言语的存在具有重要影响，并提供了大幅性能的提升。对于预测特征，最佳层因数据变化而变化，并且不能总是很好地推广到未见数据。在分布内，学习到的加权和与平均最佳层提供了可比较的性能，对于分布外的数据具有更好的泛化能力。

Abstract

There is interest in leveraging ai to conduct automatic, objective assessments of clinical speech, in turn facilitating diagnosis and

ai clinical speech diagnosis treatment transfer learning

发现论文，激发创造

病理语音检测的自监督学习

语音产生是一个复杂的现象，通过思维加工、运动规划和发音运动的执行，大脑协调一系列过程。然而，这些多种过程的复杂执行容易受到各种神经退行性病理性言语障碍的影响和干扰，如帕金森病，导致话语障碍、运动障碍等情况。这些障碍导致异常的言语模式和不清晰的表达。为了解决这些挑战，已提出了几种自动病理性言语检测方法，主要侧重于输入表示和分类器的应用。由于数据有限，检测的性能仍然不甚理想。自我监督学习嵌入，如 wav2vec2 及其多语言版本，被认为是提高性能的有希望途径。这些嵌入利用自我监督学习技术从音频数据中提取丰富的表征，从而为解决标签数据稀缺性所带来的限制提供了潜在的解决方案。

May, 2024

通过跨数据集迁移学习增强 EEG 信号通路中的病理检测

基于脑电图信号和解码脑活动的病理诊断在理解神经系统疾病方面具有巨大重要性；随着人工智能方法和机器学习技术的发展，准确的数据驱动诊断和有效的治疗潜力显著增长。然而，将机器学习算法应用于现实世界的数据集在多个层面上都面临各种挑战；特别是在低范围的场景中数据标记稀缺，由于征募费用高昂，真实患者群体的可用性有限，一直强调了规模化和迁移学习技术的重要部署。本研究探讨了一个真实的病理分类任务，以突出数据和模型规模化以及跨数据集知识迁移的有效性；观察到通过数据规模化而产生的性能改进程度不同，表明需要进行谨慎评估和标注；此外，我们还确定了可能的负迁移的挑战，并强调了克服分布迁移和潜在虚假相关性的一些关键组成部分的重要性，实现积极的迁移；当已有少量标记数据时，通过使用源数据集的知识（如 TUAB 数据集），我们发现目标模型在目标（NMT）数据集上表现得更好；我们的发现表明，一个小型和通用的模型（如 ShallowNet）在单个数据集上表现良好，然而，一个较大的模型（如 TCN）在从较大和多样化的数据集中进行迁移和学习时表现更好。

Sep, 2023

自动病理说话检测中的语音模式影响

自动病理性言语检测方法在识别不同病理情况方面表现出有希望的结果。本文研究了言语模式对于自动病理性言语检测方法的影响，并对传统机器学习和深度学习两类方法进行了分析。结果表明，传统方法在捕获自发言语中的病理鉴别线索方面存在困难，相比之下，深度学习方法表现出更高的性能，能够提取在非自发言语中无法获得的额外线索。

Jun, 2024

走向客观和可解释的语音障碍评估：基于 CNN 和 Transformer 的模型的比较分析

这项研究提出了一种基于自我监督的 Wav2Vec2 模型，用于头颈癌患者的语音分类，以提高准确性和语音特征辨别能力，并通过评估多样化语料库的方式验证了该模型的有效性，为医生提供了可解释的方法来理解病理性语音。

Jun, 2024

预训练语言模型的隐藏状态可变性可指导迁移学习的计算降低

该研究提出通过基于层内和层间变异性度量的方式选择适当的层数和分类器位置，以降低迁移学习方法的计算成本，而不影响其性能，并在 GLUE 测试集上进行了广泛实验，证明了该方法的有效性。

Oct, 2022

语音和语言处理的迁移学习

该文总结了最近关于利用深度模型在语音和语言处理中进行模型适应的一些重要研究，重点关注了利用迁移学习在跨语音和多语言任务中的表现，并展示了深度模型在跨数据分布、数据类型、模型结构和模型类型之间进行学习的潜力。

Nov, 2015

自监督语音模型的分层比较分析

本研究使用基于规范相关性分析（CCA）的轻量级分析工具，考察了多种最近模型的中间表示，发现它们所编码的属性在不同层次上发展，变化与预训练目标的选择有关，进一步探究了这种分析在下游任务中的实用性，并发现 CCA 趋势为选择下游任务感兴趣的层提供了可靠的指导，单层性能往往与使用所有层相当或更好，这意味着更有效利用预训练模型的启示。

Nov, 2022

自我监督语音模型界面设计

提出了一种连接上游和下游模型的接口，通过使用卷积接口设计，其深度与上游模型的深度按对数比例计算，在许多任务上始终优于其他接口设计。

Jun, 2024

失败的另一面：探究语音识别误差对随后痴呆症分类的影响

研究使用自我监督学习的深度学习自动语音识别模型在临床设置中处理话语自然性上的困难，并探讨产生的错误对痴呆分类下游任务准确性的影响。结果表明，相对高错误率的自动语音识别系统可以产生更好的下游分类精度而非字面上的听写结果。

Nov, 2022

通过层聚合增强语音识别解码

本文对几种语音识别模型进行了实验，发现使用顶层预测的逻辑可以阻碍光束搜索算法实现最佳结果；然后，进行了层分析，提出了一种汇聚前 M 层的预测方法，通过束搜索解码来展示方法的有效性，并在 Librispeech 测试集中实现了 WER 和 CER 分别减少高达 10% 和 22%。

Mar, 2022