Feb, 2024

倾听、交谈与编辑:文本引导下的音景修改以提升听觉体验

TL;DR我们工作引入了一种新颖的多模态声音混合编辑器'LCE',它根据用户提供的文本指令修改混合中的每个声源。LCE通过用户友好的聊天界面和其独特的能力在混合中同时编辑多个声源,无需将它们分离。用户输入自由词汇文本提示,由大型语言模型解释以创建语义过滤器来编辑声音混合。系统将混合分解为组成部分,应用语义过滤器,并将其重新组装成期望的输出。我们开发了一个160小时的数据集,包括100k个混合物,包括语音和各种音频源,以及用于不同编辑任务(如提取、删除和音量控制)的文本提示。我们的实验证明,在所有编辑任务中信号质量有显著提高,并且在不同数量和类型的声源的零-shot场景中表现稳健。