ECCVOct, 2022

2022 年 Ego4D 挑战赛中英特尔实验室:音视频对话更优秀的基线

TL;DR报告中介绍了我们在 Ego4D Challenge 2022 中处理 Audio-Visual Diarization 任务的方法,该方法通过对模型的训练计划进行修改改进了声音活动的检测性能,证明了采用现成的语音活动检测模型可以有效地消除误报,而更好的主动说话者检测可提高 AVD 结果。我们的最终方法在 Ego4D 测试集上获得了 65.9% 的 DER,远远优于所有基线,在比赛中取得了第一名。