Jul, 2024

视听对齐:通过音视频对齐来实现先进的声源定位

TL;DR通过综合分析现有方法、基准、评估指标和跨模态理解任务,我们提出了一个新的综合声源定位方法,该方法通过跨模态对齐策略增强跨模态交互能力,并在现有和新基准上使用新的和标准评估指标对竞争方法进行了广泛验证。