Mar, 2022

描述与分离:基于语言查询的音频源分离

TL;DR该研究介绍了一种语言查询音频源分离(LASS)任务,该任务通过基于目标源的自然语言查询(例如,“一个男人讲笑话,接着人们笑了”)从音频混合物中分离出目标源。为了解决这个问题,作者提出了一个名为 LASS-Net 的端到端神经网络,它能够共同处理声学和语言信息,并从音频混合物中分离出与语言查询一致的目标源。实验结果表明,LASS-Net 相较于基线方法有明显的提升,并展示了良好的泛化性能,表明其在实际场景中的潜力。