DSVAE: 可解释的分离合成语音检测表示

Apr, 2023

DSVAE: 可解释的分离合成语音检测表示

DSVAE: Interpretable Disentangled Representation for Synthetic Speech Detection

Amit Kumar Singh Yadav, Kratika Bhagtani, Ziyue Xiang, Paolo Bestagini, Stefano Tubaro...

TL;DR本文提出使用 Disentangled Spectrogram Variational Auto Encoder (DSVAE) 处理语音谱图以生成可解释的表示，并创建激活映射来区分合成和真实人类讲话信号，通过 ASVspoof2019 数据集获得高精度（>98%）检测多种语音合成器合成的语音。

Abstract

Tools to generate high quality synthetic speech signal that is perceptually indistinguishable from speech recorded from human speakers are easily available. Several approaches have been proposed for detecting synthetic speech. Many of these approaches use →

synthetic speech deep learning dsvae spectrogram asvspoof2019

发现论文，激发创造

对比分解时序变分自编码器

提出了一种称为对比去纠缠顺序变分自动编码器（C-DSVAE）的方法来进行自我监督的去纠缠表示学习，并使用对比估计的互信息以及简单且有效的数据增强技术来引入附加的归纳偏差。实验结果显示，C-DSVAE 在多个度量标准上显著优于现有的最先进方法。

Oct, 2021

可解释性神经对话生成的无监督离散句子表示学习

本研究利用变量自编码器 (VAE) 算法提出 DI-VAE 和 DI-VST 模型，结合无监督离散语句表示学习方法，以增强对话模型的解释性生成能力，并成功验证其在真实对话数据集上的有效性。

Apr, 2018

半监督学习的解缩变分自编码器

本文提出了一种名为 SDVAE 的半监督变分自编码器，其将输入数据转化为可解释和不可解释的特征表示，使用分类信息来规范可解释的特征表示，并使用强化学习来增强特征学习能力，此框架适用于图像和文本数据。

Sep, 2017

S3VAE：自监督序列 VAE 进行特征解缕和数据生成

该论文提出了一种顺序变分自编码器，利用自监督方法，通过利用输入数据自身或外部模型提供的监督信号设计辅助任务，轻松将输入序列表示分解为静态因素和动态因素，并在视频和音频等领域的综合实验中证明其在表示分解和序列数据生成方面的有效性。

May, 2020

可解释的句子表示：变分自编码器和注意力机制

提出使用变分自编码器和 Transformers 构建两种具有归纳偏置的模型，可将潜在表示中的信息分离成可理解的概念，其中 QKVAE 在转移实验中表现出竞争性能，并展示了明显的优化句法角色分离能力。

May, 2023

基于条件 DSVAE 的零样本语音转换改进

通过条件的 DSVAE 模型，将内容信息的分离，并在语音转换方面实现更好的性能。

May, 2022

半监督深度生成模型学习分离表示

该研究提出了一种使用图形模型和深度神经网络架构的变分自编码器，能够学习到不同的表示形式，进一步实现半监督学习，其生成的能力和区分能力也得到了充分验证。

Jun, 2017

面向序列数据的稳健无监督解缠方法 -- 以音乐音频为例研究

该论文提出了 TS-DSAE 模型，通过两阶段的训练框架，首先学习序列级先验分布，然后采用这些分布来规范模型，并促进辅助目标以促进解缠。该模型具有鲁棒性，适用于人工和真实世界的音乐音频数据集。

May, 2022

变分自编码器的解缠学习在音视频语音增强中的应用

本文提出了一种适用于变分自动编码器的对抗训练方案，用以将标签与变量区分开来，提高语音增强的性能。通过对比标签估计值和实际值，可以证明该方案的有效性。

May, 2021

具结构离散表示的深度生成模型的无偏学习

通过将图形模型与深度学习架构组合，我们学习具有两种框架优势的生成模型。我们提出了学习 SVAE 的新算法，并首次证明了 SVAE 处理丢失数据时处理多模态的能力。这些优化创新使 SVAE 能够通过梯度下降法进行学习。

Jun, 2023