高斯流桥在非配对数据下的音频域转换

May, 2024

高斯流桥在非配对数据下的音频域转换

Gaussian Flow Bridges for Audio Domain Transfer with Unpaired Data

Eloi Moliner, Sebastian Braun, Hannes Gamper

TL;DR研究发现，利用高斯流桥，一种新兴的生成建模方法，实现音频领域转移的潜力，通过一系列确定性概率流处理不同分布的音频信号传输问题。该方法通过连续控制变量来改变目标分布的属性，实现目标域的特性操作，而且无需依赖配对样本训练。通过将基于块的小批量合适传统方法与噪声结合，以保持语音内容的一致性，我们提出了一种训练策略。在混响和失真操作任务中，我们的无监督方法与其他基准方法相比具有竞争性能。尽管存在一些限制，但本研究的有趣结果表明了进一步研究的潜力。

Abstract

audio domain transfer is the process of modifying audio signals to match characteristics of a different domain, while retaining the original content. This paper investigates the potential of gaussian flow bridges

audio domain transfer gaussian flow bridges generative modeling probability flows optimal transport couplings

发现论文，激发创造

使用扩散桥对流体流动进行非配对下采样

本文提出了使用基于扩散映射的生成模型来降低理想地球物理流体模拟的方法，生成高分辨率图像，避免额外的校准或培训，并适用于多个源和目标域的组合，而不需要训练新模型。

May, 2023

通过高斯混合模型进行域适应的最优输运

通过最优传输探索领域适应的研究，提出了一种新颖的方法，通过高斯混合模型对数据分布进行建模，从而解决连续最优传输问题。实验结果表明该方法在故障诊断的领域适应基准上具有最先进的性能。

Mar, 2024

领域自适应的最优传输

该研究提出了一种规范化的非监督最优运输模型，通过找到公共表示来在源域和目标域之间执行两个领域的对齐，从而在标记和未标记的数据中同时利用了源和目标领域中的信息，该模型在可视化自适应方面表现优异。

Jul, 2015

StereoFlowGAN: 无监督领域适应下的立体与光流联合训练

我们介绍了一种新的训练策略，用于立体匹配和光流估计，该策略利用合成和真实图像域之间的图像翻译。我们的方法使得训练模型在真实图像情景中表现出色，同时仅依赖于合成图像的真实信息。为了促进任务无关的域适应和任务特定组件的训练，我们引入了一个处理左右和前后方向的双向特征映射模块。实验结果表明，与之前基于域转换的方法相比，我们的提议框架具有竞争力的性能，有效利用了无监督域适应、立体匹配和光流估计的优势。

Sep, 2023

自监督语音表示域适应微调的自动数据增强

本篇论文提出一种用于有声学领域差异的监督领域自适应方法，通过数据增强来减小源域和目标域的差异，并在初步微调阶段使用，证明了该方法的有效性。

Jun, 2023

基于变分自编码数据增强的无监督领域自适应技术，用于提高语音识别鲁棒性

本文采用基于自动选择属性变化的方法，通过对抗性学习和数据增强对源域语音数据进行协同变换以解决在鲁棒语音识别中遇到的训练 - 测试领域差异问题，实验表明将绝对词语误差率最多降低 35%。

Jul, 2017

最优传输理论分析的领域自适应

本文在探讨域自适应的过程中，提出了一种使用 Wasserstein 度量作为两个数据集分布差异度量的方法，并且通过对多个不同的学习场景的实验证明了这种方法的通用性，同时进一步探讨了这种方法可能比其他现有框架更紧密的原因。

Oct, 2016

双向生成无监督域适应

本研究提出了双向生成领域自适应模型，通过一致分类器插值两个中间域来平衡减轻域差异和保留内在结构，使用跨领域对齐约束来进一步增强性能，设计了两个分类器，联合优化以最大化目标样本预测的一致性。广泛的实验证明，我们提出的模型在标准跨域视觉基准上优于现有技术。

Feb, 2020

逐渐消失的原型网络在无监督领域适应中的差距

我们提出了一种高效的无监督领域自适应框架 (GVG-PN)，通过全局和局部角度实现了转移学习，以解决无监督领域自适应模型在对齐过程中分布塌缩的问题，并且能够清晰地胜过目前最先进的模型。

May, 2024

部分耦合的最优传输在口语认别中的应用

本论文提出了基于部分最优传输的联合分布对齐模型（POT），以降低不同领域之间的差异，提高跨域口语识别（SLID）系统的性能，并在 SLID 任务上进行了实验证明了 POT 模型显著提高了模型性能。

Mar, 2022