CATSE: 一种用于因果目标声音提取的上下文感知框架

Mar, 2024

CATSE: 一种用于因果目标声音提取的上下文感知框架

CATSE: A Context-Aware Framework for Causal Target Sound Extraction

Shrishail Baligar, Mikolaj Kegler, Bryce Irvin, Marko Stamenovic, Shawn Newsam

TL;DR目标声音提取（TSE）侧重于从输入混音中分离用户提示的感兴趣源的问题。本文介绍了一种适用于实时处理的上下文感知低延迟因果 TSE 模型，并探索了使用上下文信息的效用，既可通过提供完整上下文信息，也可通过提出的多任务训练损失来实现，从而证明我们的模型在实时 TSE 中胜过了 Waveformer 等实时 TSE 的先进模型。

Abstract

target sound extraction (TSE) focuses on the problem of separating sources of interest, indicated by a user's cue, from the input mixture. Most existing solutions operate in an offline fashion and are not suited to the low-latency causal processing constraints imposed by applications i

target sound extraction context-aware low-latency causal tse models real-time processing oracle information multi-task training

发现论文，激发创造

VCSE: 时域视觉语境说话人提取网络

本文提出了一种包含视觉和自我学习语境线索的两阶段时域视觉 —— 语境扬声器提取网络 VCSE, 在 LRS3 数据库上表现比其他最先进的基线一致优秀

Oct, 2022

在鸡尾酒会上输入以聆听：文本引导的目标说话人提取

通过结合自然语言处理，本研究提出了一种名为 LLM-TSE 的模型，可以提取用户输入的文本信息中的有用语义线索，辅助预注册线索或独立控制目标说话人提取过程。实验结果表明，当仅使用文本线索时，性能表现有竞争力，并且结合预注册声学线索时，创造了新的最先进水平。据我们所知，这是首个成功将文本线索纳入目标说话人提取任务的研究，可作为研究鸡尾酒会问题的基石。

Oct, 2023

稀疏 LDA 转换的说话人嵌入在目标说话人提取中的应用

本文提出了一种基于简化说话人提示的目标说话人提取方法，通过在 SepFormer 模型中加入 X-vector、Xi-vector 和 LDA-transform 方法产生的新的说话人嵌入，显著提高了模型的性能。在 WSJ0-2mix 数据集上的实验结果表明，我们的方法的 SI-SDRi 可以达到 19.4 dB 和 PESQ 可以达到 3.78，比当前的 SOTA 模型有显著的改进，并提供了目前 WSJ0-2mix 最佳的 TSE 结果。

Jan, 2023

弱标注数据源分离：一种计算听觉场景分析方法

本研究提出一种基于弱标注数据训练的源分离框架，利用 AudioSet 训练的音频事件检测系统，实现了对 527 种声音类别的分离，采用了 U-Net 结构，平均信噪比为 5.67dB。

Feb, 2020

面向上下文的语音识别变换器转录器

本文介绍了一种基于上下文的自动语音识别系统：context-aware transformer transducer (CATT) 网络，通过多头注意力机制、编码上下文数据和使用 BERT 等技术方法，取得了比基线 transformer transducer 和现有深度上下文模型分别提高了 24.2% 和 19.4% 的词错误率性能提升。

Nov, 2021

利用声学情景表征通过音频文本跨模态学习用于会话 ASR

该研究提出了一种音频 - 文本交叉模态表示提取器，通过 attention 机制，将上下文文本表示作为上下文提供给 ASR 解码器，有效地提高了智能语音识别的性能。

Jul, 2022

CaSS：面向多元时间序列分类的通道感知自监督表示学习框架

本文提出了一种统一的通道感知自监督学习框架（CaSS），通过设计一个新的基于 Transformer 的编码器（CaT）来捕捉 MTS 不同时间通道之间的复杂关系，并结合 Next Trend Prediction（NTP）和 Contextual Similarity（CS）两种新颖的预训练任务来实现自监督学习的表示学习，实验结果表明，与以前的自监督 MTS 表示学习方法相比，我们的框架在几个常用的基准数据集上均达到了新的最优成果（LSST 数据集上提高了 7.70％），并可很好地应用于下游 MTS 分类。

Mar, 2022

利用外部声学关注和语义感知数据增强来提高上下文拼写纠正

本文提出了一种基于非自回归方法的拼写校正模型，该模型将声学信息和文本假设结合在一起，利用语义感知的数据增强模式，以增强自动语音识别中基于上下文偏见的校正效果。与基准 ASR + Biasing 系统相比，实验表明该改进方法相对名称召回率增益最高可达 20.3％，相对于以前的 CSC 方法也实现了稳定的改进。

Feb, 2023

利用分类信息进行单帧视觉声源分离

本研究旨在通过视觉线索从给定声音混合物中识别声音组件。本研究提出了两个模型，分别使用单个视频帧，以音源类别作为分离过程的信息。在 MUSIC 数据集实验中，两个模型相比于几种基线方法获得了可比较或更好的性能。

Jul, 2020

基于上下文的语义扩展

该研究定义和研究了一项称为上下文感知语义扩展（CASE）的新任务，其目的是在句子上下文中给出种子术语，以建议适合于种子的其他术语，该研究提出了一种网络结构，对每个语境和种子进行编码，然后建议替代术语，最终实验证明，采用种子感知注意力的上下文编码器可以取得有竞争力的结果。

Dec, 2019