基于链的判别自编码器用于语音识别

Mar, 2022

基于链的判别自编码器用于语音识别

Chain-based Discriminative Autoencoders for Speech Recognition

PDF

Hung-Shin Lee, Pin-Tuan Huang, Yao-Fei Cheng, Hsin-Min Wang

TL;DR该论文提出了一种基于自编码器的语音识别方法，使用分类交叉熵和互信息作为目标函数，有效提高音频降噪和增强的效果。

Abstract

In our previous work, we proposed a discriminative autoencoder (dcae) for speech recognition. →

autoencoder speech recognition phonetic embeddings dcae objective function

发现论文，激发创造

面向儿童语音识别的基于滤波器的判别自编码器

本文提出了一种基于滤波的判别性自编码器技术，旨在解决儿童语音识别中多种说话人类型和音高的影响问题，并在测试集上实现了较基准系统更高的识别率，并在英国口音 PF-STAR 任务中实现了比基线系统更好的结果。

Apr, 2022

训练去噪自编码器以最小化二进制交叉熵

本文理论证明了用 BCE 训练的 DAE 能够在数据空间中向高概率区域梯度下降，进而在实验中通过噪声数据生成和对初始数据的迭代应用 DAE 进行数据向高概率区域的改进。

Aug, 2017

基于变分自编码器的跨域特征语音转换

本文为了更好地用变分自编码器 (VAE) 进行语音转化，提出了一种名为 CDVAE 的新颖框架，该框架将多种光谱特征（如 STRAIGHT 光谱和 MCC）用于无监督学习，实现了对编码器和解码器行为的设计。结果显示，该框架在主观测试中的表现优于传统的 VAE 框架。

Aug, 2018

使用编码器 - 解码器模型中的弱自上而下约束实现真正的无监督声学词嵌入

本文提出了一种基于编码器 - 解码器一一对应自编码器 (EncDec-CAE) 的无监督学习方法，用于从可变长度的语音以及无标签的语音数据中提取出与固定维度表示形式相对应的词嵌入，从而在无资源语音搜索、发现和索引系统中发挥重要作用，并在词辨别任务中相对于最接近的竞争对手提高了 24% 的平均精度。

Nov, 2018

多标签分类任务的深度潜变空间学习

本文提出了一种基于深度神经网络的模型 Canonical Correlated AutoEncoder（C2AE），在多标签分类任务中通过联合特征和标签嵌入派生一个深度潜在空间，并引入标签相关敏感的损失函数来恢复预测的标签输出，其能够灵活应对多种规模的数据集，与其他现有的多标签分类方法相比表现更加优异。

Jul, 2017

双反差异生成自编码器

我们提出了一个名为 DC-VAE 的旨在改善生成自动编码器的新模型，其具有双重对立损失，可以同时执行推理和合成操作。该模型通过将单元级区分性损失和集合级对抗性损失相结合，实现了单元级还原 / 合成的精度和集合级准确度的提高，为计算机视觉和机器学习中的各种下游任务提供了广泛的适用性。

Nov, 2020

自我监督序列学习的符号编码

通过最小化重建损失以及监督损失，符号自编码器（ΣAE）利用大量非平行数据和有限的平行数据，通过离散瓶颈层将两个生成模型连接起来，从而在传递任务中显着提高性能，并为弱监督学习场景提供了有希望的解决方案。

Feb, 2024

PCAE: 可控文本生成的插件条件自编码器框架

我们提出了一个灵活的半监督文本生成模型 Plug-in Conditional Auto-Encoder（PCAE），它可以通过全局潜在空间到指定的局部潜在空间，以高度可操纵、句法多样和时间高效的方式生成文本，使用最小标记样本。

Oct, 2022

堆叠式何处自编码器

提出一种新型的神经网络模型 SWWAE，它同时整合了判别和生成的路径，并提供了一种统一的无监督、半监督和有监督的学习方法。其中，该模型使用卷积神经网络（Convnet）编码输入，使用反卷积网络（Deconvnet）重建输出。它的目标函数包括重建项，促使反卷积网络中的隐藏状态与卷积网络中的隐藏状态相似。

Jun, 2015

变分自编码框架中的去噪准则

本文研究了对输入和隐层同时进行噪声注入的变分自编码器，提出了一种改进的目标函数。当输入数据有噪声时，传统的变分自编码器的训练方法不可行，这里提出了一种可行的训练方法。实验结果表明，在 MNIST 和 Frey Face 数据集上，提出的去噪变分自编码器（DVAE）的平均对数似然比 VAE 和重要性加权自编码器更好。

Nov, 2015