Mar, 2022
描述与分离:基于语言查询的音频源分离
Separate What You Describe: Language-Queried Audio Source Separation
Xubo Liu, Haohe Liu, Qiuqiang Kong, Xinhao Mei, Jinzheng Zhao...
TL;DR该研究介绍了一种语言查询音频源分离(LASS)任务,该任务通过基于目标源的自然语言查询(例如,“一个男人讲笑话,接着人们笑了”)从音频混合物中分离出目标源。为了解决这个问题,作者提出了一个名为 LASS-Net 的端到端神经网络,它能够共同处理声学和语言信息,并从音频混合物中分离出与语言查询一致的目标源。实验结果表明,LASS-Net 相较于基线方法有明显的提升,并展示了良好的泛化性能,表明其在实际场景中的潜力。