自我中心发言者分类在儿童与成人双边互动中的应用：从感知到计算建模

Sep, 2024

自我中心发言者分类在儿童与成人双边互动中的应用：从感知到计算建模

Egocentric Speaker Classification in Child-Adult Dyadic Interactions: From Sensing to Computational Modeling

Tiantian Feng, Anfeng Xu, Xuan Shi, Somer Bishop, Shrikanth Narayanan

TL;DR本研究针对自闭症谱系障碍（ASD）儿童在治疗过程中行为变化评估中的不足，通过设计实验从自我中心视角进行言语采样，旨在提高发言者分类的准确性。创新之处在于采用可穿戴传感器和Ego4D言语样本预训练，发现其能显著改善儿童与成人在双边互动中的发言者认知能力。

Abstract

Autism spectrum disorder (ASD) is a neurodevelopmental condition characterized by challenges in social communication, repetitive behavior, and sensory processing. One important research area in ASD is evaluating

发现论文，激发创造

利用预训练语音嵌入理解ASD儿童的口语语言发展

本研究旨在提出使用语音处理技术进行自动化评估儿童口语发展的应用，并通过对自然语言样本分析，对使用智能辅助诊断提供了可行性，其实验结果表明 F1 宏分数分别为 82.6% 和 67.8%。

May, 2023

自闭症谱系障碍对话分析的参数选择

我们通过分析从心理学家与典型发育或患有自闭症谱系障碍（ASD）的儿童之间的诊断对话中提取的声学/韵律和语言特征，提出了一种ASD诊断的建模方法。我们比较不同特征在一系列对话任务中的贡献，并着重寻找表征患有ASD的儿童对话行为的最小参数集。除了分析儿童的行为外，我们还研究心理学家的对话行为是否在不同的诊断群体之间有所变化。我们的结果有助于对ASD儿童的对话数据进行细粒度分析，以支持诊断和干预。

Jan, 2024

利用机器学习探索自闭症中的言语模式障碍

通过分析检查者-患者对话，本研究提供一种综合方法，用于识别独特的语音模式，并利用机器学习在自闭症谱系障碍(ASD)的诊断过程中支持早期检测和个性化治疗规划。

May, 2024

听我说，看我动，理解我: 音频视觉自闭症行为识别

本文介绍了一种新颖的问题，即视听自闭症行为识别，其中包括社交行为识别，这是之前在AI辅助自闭症筛查研究中被忽视的一个重要方面。我们将所面临的任务定义为视听自闭症行为识别，它使用音频和视频提示，包括音频中的任何语音，来识别与自闭症相关的行为。为了促进这个新的研究方向，我们收集了一个音视频自闭症谱系数据集 (AV-ASD)，目前是使用行为方法进行自闭症筛查的最大视频数据集。它涵盖了广泛的与社交交流和互动相关的自闭症行为。为了为进一步研究这个新问题铺平道路，我们深入探讨了在不同模态之间利用基础模型和多模态大语言模型。我们对AV-ASD数据集的实验表明，整合音频、视觉和语音模态显著提高了自闭症行为识别的性能。此外，我们还探索了在多模态大语言模型中使用后处理至临时处理流程，以调查其在自闭症行为识别过程中增强模型解释能力的潜力。我们将发布我们的数据集、代码和预训练模型。

Mar, 2024

探索儿童-成人交互中的演讲基础模型用于说话者分离

我们的研究工作探索了言语基础模型在儿童成人说话人分离中的应用能力，并发现出色的基础模型相对于以前的方法在分离错误率和说话人混淆率方面可以实现39.5%和62.3%的相对降低。此外，我们还评估了输入音频窗口大小、说话人特点和训练数据比例对言语基础模型的分离结果的影响，结果显示有希望通过采用言语基础模型来促进对儿童说话的理解。

Jun, 2024

从自我中心视频中识别对话伙伴

基于现有的计算机视觉数据集和任务，本研究侧重于从自我的视角识别会话伙伴，并描述了一个合适的数据集，该数据集包含了69小时的多样化多对话场景的自我的视频，对每个个体分配了一个或多个对话伙伴，为我们的计算机视觉任务提供了标签。通过这个数据集，我们可以开发和评估用于识别会话伙伴和相关方法的算法。该研究为自我的视频分析在社交环境中的令人兴奋的进展做出贡献。

Jun, 2024

通过亲子互动积木游戏协议与注意力增强的GCN-xLSTM混合深度学习框架提升自闭症谱系障碍早期检测

本研究针对自闭症谱系障碍（ASD）早期检测中的客观性不足问题，提出了一种新的亲子互动积木游戏协议（PCB），旨在识别自闭症与正常发展幼儿之间的行为模式。同时，我们构建了一个大规模的视频数据集，包含40名自闭症幼儿和89名正常发展的幼儿，通过采用一种混合深度学习框架，实现了高达89.6%的早期检测准确率，能够极大地改善自闭症的早期诊断，提高临床决策的及时性与准确性。

Aug, 2024

开发一个端到端框架以预测自闭症谱系障碍儿童的社交沟通严重程度评分

本研究解决了自闭症谱系障碍（ASD）儿童社交沟通评估中标准化工具局限的问题，提出了一种基于原始语音数据的自动预测框架。该方法结合自动语音识别模型和微调的语言模型，最终得到的预测分数与人类评定的相关性高达0.6566，展示了作为一种客观评估ASD的工具的潜力。

Aug, 2024

基于额外刺激行为的新型自闭症分类视频数据集

本研究解决了准确诊断自闭症谱系障碍（ASD）在年轻儿童中的难题，特别是在数据可用性方面的不足。提出了视频ASD数据集，包含2,467个视频的特征数据，展示儿童对化学感官刺激的反应，旨在促进ASD分类的进展。研究发现，运动噪声对模型性能的影响凸显了复杂标签和更多数据需求的重要性。

Sep, 2024

儿童-成年人互动中最先进的自动语音识别模型评估

本研究针对临床环境中儿童与成年人对话的可靠转录能力进行评估，填补了现有研究的空白。我们采用最新的语音基础模型对自闭症诊断会话中的儿童-成年人交流数据集进行全面评估，发现相较于成年人语音，儿童语音的转录性能明显下降。通过对表现最佳的模型进行微调，儿童语音的转录错误率改善了约8%。

Sep, 2024