这项研究通过使用患者的语音和剧本数据,通过预训练语言模型和图神经网络来构建语音剧本的图,并提取特征进行阿尔茨海默病检测,同时引入音频数据和对小数据集进行增强处理,进而将音频特征与文本特征融合,最后尝试将语音剧本转化为音频进行对比学习,研究结果揭示了在使用语音和音频数据进行阿尔茨海默病检测中的挑战和潜在解决方案。
Jul, 2023
用深度神经网络进行多模态分析调查老年痴呆症,通过在音频、文本和图像等不同模态上进行传递学习,实现了优于现有研究的准确性和 F1 得分
Nov, 2022
使用多模式深度学习方法通过语音和相应的文本同时检测多种言语段落的诊断,其模型在 Dementiabank Pitt 语料库上获得了 85.3% 的准确率。
Nov, 2020
本文提出使用基于 GAN 的数据增强方法,通过分析非标准语音(如老年人和 dysarthric 患者的语音)的光谱和时间差异可模拟增强数据,提高了 UASpeech、TORGO、Pitt 和 JCCOCC MoCA 等数据集上 TDNN 和 Conformer ASR 系统的训练精度,相对于基于速度的数据增强方法,可使 TORGO 和 DementiaBank 数据集的 WER 分别提高 9.61%和 6.4%。
May, 2022
本研究提出了一种新的方法,通过多模态交互捕获 AD 困扰患者的主要特征,使用 BERT 和 DeiT 等模型搭建语言和声音领域的自注意力模型,采用优化的传输域自适应方法,在标签平滑 calibration 方法的指导下,表现出相对较高的准确性和 F1 分数。
May, 2023
该研究使用 Spontaneous Speech 数据集文本转录,使用多种模型对 AD 和正常人的分类和预测进行训练和评估。结果表明,使用 TF-IDF 向量化器作为输入的 SVM 模型和使用 ' DistilBERT ' 的预训练模型作为简单线性模型的嵌入层的模型表现最佳,在分类指标上展示了测试集得分为 0.81-0.82 和 RMSE 为 4.58 的结果。
Jun, 2020
使用深度伪造音频的数据增广技术,通过在各种情景下训练语音转文字模型,验证了提出的框架。
Sep, 2023
提出了一种集成声学、认知和语言特征的多模式系统,使用带时间特征的专业人工神经网络以检测阿尔茨海默病和其严重程度,并在 ADReSS 挑战数据集上获得了 83.3%的精度并在 DementiaBank Pitt 数据库上获得了 88.0%的分类精度,验证了无意识语音的通用性和可移植性。
Aug, 2020
本文概述了当前用于自然语言处理模型的数据增强方法的现状和近期发展,着重介绍了基于神经网络和变换器的方法,讨论了数据增强的实际问题、可能的缓解措施以及未来研究的方向。
Feb, 2023
通过使用基于语音的图片描述评估的两个规范数据集,通过 ADASYN 对 DementiaBank 进行少数类过采样,我们优于二元分类,这突显了将稀疏且难以获取的患者数据与相对较大且易于访问的规范数据集相结合的有效性。
Nov, 2017