自编码器无监督地学习序列表示
本文旨在通过强制使用自动编码器并引入改进的语义哈希技术,从序列模型中提取更好的表示,以提高其在语言建模和机器翻译等任务中的表现,并展示了该技术在生成多元化翻译方面的应用。
Jan, 2018
本文利用一种序列到序列自编码器模型以无监督的方式学习长度可变的 DNA 序列的固定维度的潜在表示,并在监督学习的拼接位点分类任务中进行了定量和定性评估。实验表明,此类表示法可用作通常相关的任务中的特征或先验,并且采用的模型归因技术获得的序列特征对分类精度有显著影响。
Jun, 2019
本文提出两种方法用于使用未标记的数据改善序列学习。第一种方法是预测序列中的下一个元素,第二种方法是使用序列自编码器。通过这两种算法的无监督训练,我们可以训练出更稳定且泛化性能更好的长短时记忆网络,并在诸如 IMDB、DBpedia 和 20 Newsgroups 等文本分类任务中获得强大的性能。
Nov, 2015
本文介绍了一种基于序列 - 序列 - 序列自编码器 (SEQ^3) 的神经网络模型用于非监督抽象句子压缩,利用预训练语言模型作为潜变量的先验,结合连续的松弛机制使模型可优化,避免了对平行文本摘要对的依赖,实现了在基准数据集上取得了诱人的结果。
Apr, 2019
提出了一种利用积分投影的语义自编码器(IP-SAE)模型,可以有效应用于不同但相关的目标数据分布,从而学习通过一个数据源分布进行嵌入。该模型能够解决因域漂移引起的问题和域变化的偏见,同时在四个基准数据集上表现出超越最新技术的表现。
Jun, 2023
通过最小化重建损失以及监督损失,符号自编码器(ΣAE)利用大量非平行数据和有限的平行数据,通过离散瓶颈层将两个生成模型连接起来,从而在传递任务中显着提高性能,并为弱监督学习场景提供了有希望的解决方案。
Feb, 2024
本文提出了一种并行版本的 Audio Word2Vec,旨在为变长音频片段提供固定维度的向量表示,用于无人工注释的语音数据的无监督学习,并且采用 Denoising Sequence-to-sequence Autoencoder 进行更稳健的学习。
Mar, 2016
该论文提出了一种无监督方法,可以将任何个人的输入语音转换为无限数量的输出扬声器的音频可视化流,并使用先例自编码器学习特定目标样本语音的声音、风格韵律和视觉外观,它可以很容易地扩展到任意数量的扬声器和风格,而无需对输入扬声器进行任何训练数据。
Jan, 2020
该论文提出了 TS-DSAE 模型,通过两阶段的训练框架,首先学习序列级先验分布,然后采用这些分布来规范模型,并促进辅助目标以促进解缠。该模型具有鲁棒性,适用于人工和真实世界的音乐音频数据集。
May, 2022
这篇文章介绍了一种新的半监督分类方法,该方法使用监督自编码器网络,将标签编码到自编码器的潜空间,并定义一个结合分类和重构损失的全局准则,用 PyTorch 实现该半监督自编码器方法并展示其在生物医学应用中的卓越表现。
Aug, 2022