Mar, 2024

CATSE: 一种用于因果目标声音提取的上下文感知框架

TL;DR目标声音提取(TSE)侧重于从输入混音中分离用户提示的感兴趣源的问题。本文介绍了一种适用于实时处理的上下文感知低延迟因果 TSE 模型,并探索了使用上下文信息的效用,既可通过提供完整上下文信息,也可通过提出的多任务训练损失来实现,从而证明我们的模型在实时 TSE 中胜过了 Waveformer 等实时 TSE 的先进模型。