Jun, 2024

视频中音频 - 视觉讲话者定位对空间音效重现的应用

TL;DR通过使用多通道音频和视觉模式,本研究比较了传统的音频 - 视觉方法和单声道音频的活跃说话者检测方法,在位置元数据提取和空间准确性上取得了显著改进。未来的研究将评估该模型在嘈杂和高混响环境中的稳健性,并解决离屏说话者的问题。