Mar, 2024

AUD-TGN:在野外音频视觉环境中借助时间卷积和 GPT-2 推进动作单位检测

TL;DR利用音频数据和视觉数据协同作用对于理解人类情绪和行为非常重要,本论文提出了一种利用音视频多模态数据的新方法,通过模型化时间关系和利用预训练的 GPT-2 模型进行上下文感知的多模态信息融合,显著提高了面部动作单元检测的准确性,突显了对复杂场景理解的重要进展,为未来研究铺平了道路。