听我说，看我动，理解我: 音频视觉自闭症行为识别

Mar, 2024

听我说，看我动，理解我: 音频视觉自闭症行为识别

Hear Me, See Me, Understand Me: Audio-Visual Autism Behavior Recognition

Shijian Deng, Erin E. Kosloski, Siddhi Patel, Zeke A. Barnett, Yiyang Nan...

TL;DR本文介绍了一种新颖的问题，即视听自闭症行为识别，其中包括社交行为识别，这是之前在AI辅助自闭症筛查研究中被忽视的一个重要方面。我们将所面临的任务定义为视听自闭症行为识别，它使用音频和视频提示，包括音频中的任何语音，来识别与自闭症相关的行为。为了促进这个新的研究方向，我们收集了一个音视频自闭症谱系数据集 (AV-ASD)，目前是使用行为方法进行自闭症筛查的最大视频数据集。它涵盖了广泛的与社交交流和互动相关的自闭症行为。为了为进一步研究这个新问题铺平道路，我们深入探讨了在不同模态之间利用基础模型和多模态大语言模型。我们对AV-ASD数据集的实验表明，整合音频、视觉和语音模态显著提高了自闭症行为识别的性能。此外，我们还探索了在多模态大语言模型中使用后处理至临时处理流程，以调查其在自闭症行为识别过程中增强模型解释能力的潜力。我们将发布我们的数据集、代码和预训练模型。

Abstract

In this article, we introduce a novel problem of audio-visual autism behavior recognition, which includes social behavior recognition, an essential aspect previously omitted in AI-assisted →