一对一对话中通过面部表情检测听力损失
最近的研究强调用户对与机器进行类似人的互动的偏好增长。因此,面部表情识别作为给社交机器人赋予识别用户情感状态的能力的一种方式变得重要。在本研究中,我们评估了深度学习方法的适用性,这些方法因其在该领域的出色表现而闻名,用于识别具有智力残疾的个体的面部表情,据我们所知,这方面的研究尚未进行。为实现这一目标,我们使用了十二个不同方法的卷积神经网络集合进行训练,其中包括没有具有智力残疾的个体的数据集合以及包含了这些个体的数据集合。我们对不同训练条件下各个模型的结果进行了分析,结合可解释的人工智能技术在表情识别期间进行的关键面部区域的全面分析,揭示了智力残疾个体之间以及具有智力残疾的个体之间面部表情的显著差异。显著的是,我们的研究结果通过用户特定的训练方法证明了对该人群中面部表情的可行性,这使得模型能够有效地处理每个用户独特的表达方式。
Jan, 2024
利用深度学习算法从视频中提取面部特征来检测老年人的轻度认知障碍(MCI),通过使用卷积自编码器提取空间整体面部特征和使用变换器提取时间信息的方法,该研究在 I-CONECT 行为干预研究数据中成功地检测了 MCI 病人与正常认知状况的病人,结合特定主题视频中面部特征信息的片段和序列信息可以提高预测性能,最终达到了 88% 的准确率。
Aug, 2023
本文介绍了一个基于可穿戴设备的自动手语识别系统的概念验证,该系统通过采集动态手语的数据序列并使用机器学习方法来解释一组美国手语(ASL)动态单词。建立的模型达到了高质量的性能,如随机森林模型准确率达到了 99%,支持向量机(SVM)和两个 K 最近邻(KNN)模型准确率均为 98%,这表明了一个全面系统发展的许多可能路径。
Dec, 2023
通过机器学习方法,本研究探索了预测大脑灰质三维图像中听力损失阈值的方法。我们采用了两个阶段的解决方案,第一阶段使用 3D CNN 模型将高维输入转换为潜空间,并将其解码为原始图像以表示富特征空间的输入。在第二阶段,我们利用该模型将输入转换为富特征,并使用这些特征来训练标准机器学习模型以预测听阈。我们在第一阶段尝试了自编码器和变分自编码器进行维度降低,并探索了随机森林、XGBoost 和多层感知机用于回归阈值。我们将给定数据集分为训练集和测试集,在测试集上分别得到了 PT500 和 PT4000 的 8.80 范围和 22.57 范围。我们的方法利用 VAEs 的独特能力来捕捉高维神经影像数据中的复杂非线性关系。我们使用各种指标对模型进行了严格评估,重点关注均方根误差(RMSE)。结果突显了多层神经网络模型的功效,它在准确性方面优于其他技术。本项目推动了数据挖掘在医学诊断中的应用,并通过创新的机器学习框架增进了我们对与年龄相关的听力损失的理解。
Apr, 2024
本篇研究提出一种基于面部表情的情感识别的无监督学习方法,通过跨模态蒸馏将面部表情标注传递到语音领域,用于语音情感识别,实现了在未标注音频数据下学习语音情感表示的目标。
Aug, 2018
本文提出了一种深度视听语音增强网络方法,借助于对应视频中的嘴唇信息,能够在多人同时说话的情境下,从语音信号中分离出个人的发言,该方法适用于训练时未涉及到的说话者,并在不受限制的环境下,展现了出色的定量和定性效果。
Apr, 2018