CVPRJun, 2023

基于时空异构图学习的高级音视频日志化技术

TL;DR本研究文章介绍我们的新方法 STHG,采用统一的异构图学习框架对视频中的所有说话者进行建模,应用于 Ego4D Challenge 2023 的 Audio-Visual Diarization 任务,取得了 61.1% 的 DER 表现,并在该挑战赛中获得了第一名,同时展示了将该方法应用于 Speech Transcription 任务时表现优异的结果。