Jul, 2021

探究长期时间特征,用于音频 - 视觉活动说话者检测

TL;DR本文提出了一个名为 TalkNet 的新框架,用于在视觉场景中识别正在讲话的人并取得了比现有系统更好的效果。TalkNet 的特点是考虑了短期和长期的信息,并具有音频和视频编码器、跨模态的音视频交互机制以及自注意力机制。