Dec, 2023

语音视觉对话图:从自我中心视角到他人中心视角

TL;DR我们提出了一个统一的多模态、多任务框架 —— 音频视觉对话关注(Av-CONV),用于联合预测第一人称视角下的摄像机佩戴者及视频中所有其他社交伙伴的对话行为,我们通过自注意机制定制化建模了跨时间、跨主体和跨模态的表征。通过在具有多说话者和多对话情景的具有挑战性的第一人称视角视频数据集上的实验证明了我们方法的优越性能,并进行了详细的消融研究来评估模型中每个组件的贡献。