AMSS-Net: 针对文本查询的用户指定源音频处理

MMApr, 2021

AMSS-Net: 针对文本查询的用户指定源音频处理

AMSS-Net: Audio Manipulation on User-Specified Sources with Textual Queries

Woosung Choi, Minseok Kim, Marco A. Martínez Ramírez, Jaehwa Chung, Soonyoung Jung

TL;DR本文提出了一种神经网络，可根据给定的描述，对给定音频轨道的用户指定来源（例如人声）进行音频转换，同时保留未在描述中提到的其他来源。我们提出了一个评估基准，用于评估几个 AMSS 任务，证明 AMSS-Net 在几个 AMSS 任务上通过目标度量和经验验证优于基线。

Abstract

This paper proposes a neural network that performs audio transformations to user-specified sources (e.g., vocals) of a given audio track according to a given description while preserving other sources not mention

neural network audio transformations amss-net evaluation benchmark objective metrics

发现论文，激发创造

描述与分离：基于语言查询的音频源分离

该研究介绍了一种语言查询音频源分离（LASS）任务，该任务通过基于目标源的自然语言查询（例如，“一个男人讲笑话，接着人们笑了”）从音频混合物中分离出目标源。为了解决这个问题，作者提出了一个名为 LASS-Net 的端到端神经网络，它能够共同处理声学和语言信息，并从音频混合物中分离出与语言查询一致的目标源。实验结果表明，LASS-Net 相较于基线方法有明显的提升，并展示了良好的泛化性能，表明其在实际场景中的潜力。

Mar, 2022

听觉分离：通过解混音指导语义分割

本文提出了一种 Audio Unmixing and Semantic Segmentation Network (AUSS)，通过音频解混和遮罩注意力机制，旨在建立音频流与图像像素之间的细粒度对应关系；为了增强模型的鲁棒性，还引入了自监督模块，在 AVSBench 基准测试上实验结果表明，AUSS 在单一源和多源训练集上都可以取得最新的最优效果，成功地缩小了音频和视觉模态之间的差距。

May, 2023

利用自监督运动表示进行视觉引导的声源分离和定位

本文提出了一种基于视音频的声源分离方法，其中包括二阶段的体系结构，用于外观和动作特征提取，并引入了音频 - 运动嵌入框架，以明确表示与声音相关的动态物体，该方法无需预训练关键点检测器或光流测量仪，在两个比较具有挑战性的数据集上取得了最先进的性能表现。

Apr, 2021

基于音频查询的音乐源分离

这篇论文提出了一种基于音频查询的音乐源分离方法，可以通过查询信号明确地编码源信息，以及在无查询条件下生成通过潜空间插值连续输出的分离掩模。

Aug, 2019

SSAST: 自监督音频频谱变换器

本文提出了一种使用未标注数据进行自监督预训练的方法，使用联合判别式和生成式掩蔽频谱补丁建模对 AST 模型进行预训练，从而显著提高音频分类性能。这是音频领域中第一个基于补丁的自监督学习框架，也是 AST 的自监督学习框架的首次探索。

Oct, 2021

应用于歌声分离的对抗半监督音频源分离技术

本文介绍了一种新的音乐源分离算法，使用对抗训练让分离器的输出更加真实，并取得了对于歌声分离的较好效果。

Oct, 2017

具有移动音频流网络的高效低延迟语音增强

提出了适用于移动设备和计算能力受限应用的移动音频流网络 (MASnet)，用于有效的低延迟语音增强。MASnet 将连续的嘈杂帧转换为复值比率掩码，然后将其应用于相应的嘈杂帧。与类似的全卷积架构相比，MASnet 采用了深度和点卷积，大大减少了每秒融合乘累加运算次数 (FMA/s)，但牺牲了一些信噪比。

Aug, 2020

AMuSE: 面向群体对话的自适应多模态情感分析

通过提出一种多模态注意力网络，将跨模态注意力注入每个层级的特定模态中，从而整合多模态数据特征，实现情感识别，并通过多模态可解释性可视化模块使模型的情感预测能够理解其推理过程。

Jan, 2024

自监督音视频共分割

本文介绍了一种利用神经网络结合自我监督从自然视频学习进行视觉目标分割和音源分离的模型，通过学习来自然视频实现对于神经网络中不同分区域分配不同概念的语义类别，从而实现了音视频训练后的独立声音源分离和图像分割。与基准测试相比，实验证明这种去耦合模型在语义分割和声音源分离任务上表现优异。

Apr, 2019

音频曼巴：用于音频表示学习的双向状态空间模型

通过引入纯 SSM（state space models）模型的音频分类模型 AuM，我们探讨了自注意力是否对音频分类任务至关重要，并在六个不同基准数据集上评估 AuM 的表现，结果表明它在性能上与已建立的 AST 模型相当或更好。

Jun, 2024