一对一对话中通过面部表情检测听力损失

Jan, 2024

一对一对话中通过面部表情检测听力损失

Hearing Loss Detection from Facial Expressions in One-on-one Conversations

Yufeng Yin, Ishwarya Ananthabhotla, Vamsi Krishna Ithapu, Stavros Petridis, Yu-Hsiang Wu...

TL;DR通过面部表情检测，建立用于识别听力损失的机器学习模型，解决与听力相关的表情变化模拟及年龄偏见的问题，并在真实对话场景中以听力障碍者为对象进行大规模评估，取得了比基准模型更优越的性能。

Abstract

Individuals with impaired hearing experience difficulty in conversations, especially in noisy environments. This difficulty often manifests as a change in behavior and may be captured via facial expressions, such as the expression of discomfort or fatigue. In this work, we build on thi

hearing loss facial expressions machine learning age bias detection

发现论文，激发创造

评估智力残疾中度至重度个体中标准面部表情识别的可行性

最近的研究强调用户对与机器进行类似人的互动的偏好增长。因此，面部表情识别作为给社交机器人赋予识别用户情感状态的能力的一种方式变得重要。在本研究中，我们评估了深度学习方法的适用性，这些方法因其在该领域的出色表现而闻名，用于识别具有智力残疾的个体的面部表情，据我们所知，这方面的研究尚未进行。为实现这一目标，我们使用了十二个不同方法的卷积神经网络集合进行训练，其中包括没有具有智力残疾的个体的数据集合以及包含了这些个体的数据集合。我们对不同训练条件下各个模型的结果进行了分析，结合可解释的人工智能技术在表情识别期间进行的关键面部区域的全面分析，揭示了智力残疾个体之间以及具有智力残疾的个体之间面部表情的显著差异。显著的是，我们的研究结果通过用户特定的训练方法证明了对该人群中面部表情的可行性，这使得模型能够有效地处理每个用户独特的表达方式。

Jan, 2024

使用神经网络进行挑战人群面部表情的情感识别

这篇论文提出了一种通过图像进行面部表情的深度分类方法，采用了深度前馈人工神经网络。该方法可用于良好的应用，包括视觉检查和安全措施。

May, 2023

利用视频对话中的面部特征检测轻度认知损害

利用深度学习算法从视频中提取面部特征来检测老年人的轻度认知障碍（MCI），通过使用卷积自编码器提取空间整体面部特征和使用变换器提取时间信息的方法，该研究在 I-CONECT 行为干预研究数据中成功地检测了 MCI 病人与正常认知状况的病人，结合特定主题视频中面部特征信息的片段和序列信息可以提高预测性能，最终达到了 88% 的准确率。

Aug, 2023

HeAR - 健康声学表示

发展了一个基于自监督学习的深度学习系统，通过线性探测在 33 个健康声学任务上建立了一个先进的健康音频嵌入模型。

Mar, 2024

多任务多模态自监督学习的面部表情识别

通过多模态多任务自监督学习方法，利用无标签的野外视频数据，实现了面部表情识别的模型，并在多个基准测试中取得了优秀的性能表现。

Apr, 2024

基于视听线索的抑郁症识别深度学习：综述

介绍了深度学习技术在自动抑郁症检测中的应用方法，包括音频和视频中的抑郁指标，最后讨论了深度学习技术在自动抑郁诊断方面的挑战和前景

May, 2021

使用可穿戴传感器和机器学习的手语对话翻译

本文介绍了一个基于可穿戴设备的自动手语识别系统的概念验证，该系统通过采集动态手语的数据序列并使用机器学习方法来解释一组美国手语（ASL）动态单词。建立的模型达到了高质量的性能，如随机森林模型准确率达到了 99％，支持向量机（SVM）和两个 K 最近邻（KNN）模型准确率均为 98％，这表明了一个全面系统发展的许多可能路径。

Dec, 2023

利用机器学习和三维神经影像预测听力损失：降维和回归技术的比较分析

通过机器学习方法，本研究探索了预测大脑灰质三维图像中听力损失阈值的方法。我们采用了两个阶段的解决方案，第一阶段使用 3D CNN 模型将高维输入转换为潜空间，并将其解码为原始图像以表示富特征空间的输入。在第二阶段，我们利用该模型将输入转换为富特征，并使用这些特征来训练标准机器学习模型以预测听阈。我们在第一阶段尝试了自编码器和变分自编码器进行维度降低，并探索了随机森林、XGBoost 和多层感知机用于回归阈值。我们将给定数据集分为训练集和测试集，在测试集上分别得到了 PT500 和 PT4000 的 8.80 范围和 22.57 范围。我们的方法利用 VAEs 的独特能力来捕捉高维神经影像数据中的复杂非线性关系。我们使用各种指标对模型进行了严格评估，重点关注均方根误差（RMSE）。结果突显了多层神经网络模型的功效，它在准确性方面优于其他技术。本项目推动了数据挖掘在医学诊断中的应用，并通过创新的机器学习框架增进了我们对与年龄相关的听力损失的理解。

Apr, 2024

野外情感语音识别中的跨模态转移

本篇研究提出一种基于面部表情的情感识别的无监督学习方法，通过跨模态蒸馏将面部表情标注传递到语音领域，用于语音情感识别，实现了在未标注音频数据下学习语音情感表示的目标。

Aug, 2018

深度音视频语音增强对话

本文提出了一种深度视听语音增强网络方法，借助于对应视频中的嘴唇信息，能够在多人同时说话的情境下，从语音信号中分离出个人的发言，该方法适用于训练时未涉及到的说话者，并在不受限制的环境下，展现了出色的定量和定性效果。

Apr, 2018