Mar, 2024

听我说,看我动,理解我: 音频视觉自闭症行为识别

TL;DR本文介绍了一种新颖的问题,即视听自闭症行为识别,其中包括社交行为识别,这是之前在AI辅助自闭症筛查研究中被忽视的一个重要方面。我们将所面临的任务定义为视听自闭症行为识别,它使用音频和视频提示,包括音频中的任何语音,来识别与自闭症相关的行为。为了促进这个新的研究方向,我们收集了一个音视频自闭症谱系数据集 (AV-ASD),目前是使用行为方法进行自闭症筛查的最大视频数据集。它涵盖了广泛的与社交交流和互动相关的自闭症行为。为了为进一步研究这个新问题铺平道路,我们深入探讨了在不同模态之间利用基础模型和多模态大语言模型。我们对AV-ASD数据集的实验表明,整合音频、视觉和语音模态显著提高了自闭症行为识别的性能。此外,我们还探索了在多模态大语言模型中使用后处理至临时处理流程,以调查其在自闭症行为识别过程中增强模型解释能力的潜力。我们将发布我们的数据集、代码和预训练模型。