关键词audio-visual separation
搜索结果 - 2
- 基于位置引导的视听空间音频分离
现有的机器学习研究在单声道视听分离方面取得了令人期待的结果。然而,大多数视听分离方法只考虑声源是什么而不考虑其位置。这在虚拟实境 / 增强实境场景中可能成为一个问题,因为用户需要能够区分不同方向上的相似音频源。为解决这一限制,我们将视听分离 - CVPR基于语言引导的三模态一致性音视频源分离
利用自监督学习方法,通过自然语言查询基于无标注视频和音频对进行音频源分离的学习,以学习将声音发射对象的语言描述与其视觉特征和相应的音频波形组件相结合,其方法通过视觉 - 语言基础模型和两种新的损失函数提供伪目标监督,并在推理阶段能够分离声音