Oct, 2023

在鸡尾酒会上输入以聆听:文本引导的目标说话人提取

TL;DR通过结合自然语言处理,本研究提出了一种名为 LLM-TSE 的模型,可以提取用户输入的文本信息中的有用语义线索,辅助预注册线索或独立控制目标说话人提取过程。实验结果表明,当仅使用文本线索时,性能表现有竞争力,并且结合预注册声学线索时,创造了新的最先进水平。据我们所知,这是首个成功将文本线索纳入目标说话人提取任务的研究,可作为研究鸡尾酒会问题的基石。