Sep, 2024

学习空间感知的语言和音频嵌入

TL;DR本研究解决了机器在理解自然语言描述音景时缺乏空间意识的问题。我们提出了一种新的模型ELSA,通过多模态对比学习训练,支持非空间音频、空间音频和开放词汇文本注释。ELSA在语义检索和三维声源定位上与最新技术竞争,特别是在音频与文本的匹配和声源定位精度上表现优异。