在鸡尾酒会上输入以聆听：文本引导的目标说话人提取

Oct, 2023

在鸡尾酒会上输入以聆听：文本引导的目标说话人提取

Typing to Listen at the Cocktail Party: Text-Guided Target Speaker Extraction

Xiang Hao, Jibin Wu, Jianwei Yu, Chenglin Xu, Kay Chen Tan

TL;DR通过结合自然语言处理，本研究提出了一种名为 LLM-TSE 的模型，可以提取用户输入的文本信息中的有用语义线索，辅助预注册线索或独立控制目标说话人提取过程。实验结果表明，当仅使用文本线索时，性能表现有竞争力，并且结合预注册声学线索时，创造了新的最先进水平。据我们所知，这是首个成功将文本线索纳入目标说话人提取任务的研究，可作为研究鸡尾酒会问题的基石。

Abstract

Humans possess an extraordinary ability to selectively focus on the sound source of interest amidst complex acoustic environments, commonly referred to as cocktail party scenarios. In an attempt to replicate this remarkable auditory attention capability in machines, →

cocktail party scenarios target speaker extraction tse models natural language integration llm-tse model

发现论文，激发创造

稀疏 LDA 转换的说话人嵌入在目标说话人提取中的应用

本文提出了一种基于简化说话人提示的目标说话人提取方法，通过在 SepFormer 模型中加入 X-vector、Xi-vector 和 LDA-transform 方法产生的新的说话人嵌入，显著提高了模型的性能。在 WSJ0-2mix 数据集上的实验结果表明，我们的方法的 SI-SDRi 可以达到 19.4 dB 和 PESQ 可以达到 3.78，比当前的 SOTA 模型有显著的改进，并提供了目前 WSJ0-2mix 最佳的 TSE 结果。

Jan, 2023

VCSE: 时域视觉语境说话人提取网络

本文提出了一种包含视觉和自我学习语境线索的两阶段时域视觉 —— 语境扬声器提取网络 VCSE, 在 LRS3 数据库上表现比其他最先进的基线一致优秀

Oct, 2022

倾听、交谈与编辑：文本引导下的音景修改以提升听觉体验

我们工作引入了一种新颖的多模态声音混合编辑器 'LCE'，它根据用户提供的文本指令修改混合中的每个声源。LCE 通过用户友好的聊天界面和其独特的能力在混合中同时编辑多个声源，无需将它们分离。用户输入自由词汇文本提示，由大型语言模型解释以创建语义过滤器来编辑声音混合。系统将混合分解为组成部分，应用语义过滤器，并将其重新组装成期望的输出。我们开发了一个 160 小时的数据集，包括 100k 个混合物，包括语音和各种音频源，以及用于不同编辑任务（如提取、删除和音量控制）的文本提示。我们的实验证明，在所有编辑任务中信号质量有显著提高，并且在不同数量和类型的声源的零 - shot 场景中表现稳健。

Feb, 2024

装备声音事件检测与语言模型能力

通过语言模型结合音频特征和文本特征，本研究提出了一种高效的声音事件检测方法，实现了精准的声音事件分类和时序定位。与传统方法相比，该模型更简洁全面，直接利用语言模型的语义能力生成时序和事件序列，获得了准确的声音事件检测结果。

Aug, 2023

CATSE: 一种用于因果目标声音提取的上下文感知框架

目标声音提取（TSE）侧重于从输入混音中分离用户提示的感兴趣源的问题。本文介绍了一种适用于实时处理的上下文感知低延迟因果 TSE 模型，并探索了使用上下文信息的效用，既可通过提供完整上下文信息，也可通过提出的多任务训练损失来实现，从而证明我们的模型在实时 TSE 中胜过了 Waveformer 等实时 TSE 的先进模型。

Mar, 2024

一瞥即足够：通过关注关键词提取目标句子

本研究使用关键词作为输入，探讨从多人说话中提取目标句子的可能性。通过使用 Transformer 架构嵌入关键词和语音，以及借助交叉注意机制从混杂与重叠的语音中选择正确的内容，实验证明该方法在非常嘈杂和混合的语音中（SNR=-3dB）能够有效提取目标句子，达到 26% 的电话错误率（PER），而基准系统的 PER 为 96%。

Oct, 2023

单声道多说话人语音分离使用高效 Transformer 模型

鸡尾酒会问题是指从多个说话者的混合语音中分离或区分单个说话者变得困难的情境。本研究采用基于 Transformer 架构及其高效形式的语音分离模型，在 LibriMix 数据集上进行训练，该数据集包含多样的说话者语音。该模型能从混合音频输入中分离出两个不同的说话者源，实现了对语音分离模型计算复杂度的降低，并在性能与流行的语音分离模型之间取得了显著进展。该项目预计将为以计算效率为核心的语音分离领域的持续研究做出贡献。

Jul, 2023

基于上下文线索的语音事件提取

我们介绍了一种从语音信号中提取事件的新方法 ——Speech Event Extraction (SpeechEE)。我们提出了一种序列到结构生成范例，可以在端到端的方式上从语音信号中生成事件，并利用语音识别转录作为上下文线索的生成方法。实验结果显示，我们的方法在所有数据集上都取得了显著的改进，最大 F1 增益达到了 10.7%。

Jan, 2024

音频 - 文本检索中的语言沟通

通过使用多语言文本编码器编码文本数据，结合一致集成蒸馏优化音频编码器，我们的方法在英语语音文本检索方面表现出最先进的性能，并且仅使用额外的 10％的语言增强训练数据，也能有效检索其他七种语言的内容。

Jun, 2024

一种用于端到端语音识别的拼写校正模型

该研究提出了一种新方法以训练拼写纠错模型来纠正注意力机制序列到序列语音识别模型中的错误，从而改进了性能。在 LibriSpeech 数据集上，该模型相对于基线模型的相对改进为 18.6％，相对于使用扩展语言模型重新评分的 n-best 列表的改进为 29.0％。

Feb, 2019