自我监督序列学习的符号编码

Feb, 2024

Symbolic Autoencoding for Self-Supervised Sequence Learning

Mohammad Hossein Amani, Nicolas Mario Baldwin, Amin Mansouri, Martin Josifoski, Maxime Peyrard...

TL;DR通过最小化重建损失以及监督损失，符号自编码器（ΣAE）利用大量非平行数据和有限的平行数据，通过离散瓶颈层将两个生成模型连接起来，从而在传递任务中显着提高性能，并为弱监督学习场景提供了有希望的解决方案。

Abstract

Traditional language models, adept at next-token prediction in text sequences, often struggle with transduction tasks between distinct symbolic systems, particularly when →

language models symbolic autoencoding transduction tasks parallel data self-supervised learning

发现论文，激发创造

用变分自编码器生成符号表达式

本文利用变分自编码器提出了一种用于生成符号表达式的深度学习框架，在嘈杂的数据条件下优于传统符号回归的准确率，并归纳了各类数据集及其恢复率相关知识。

Jan, 2023

自监督孪生自编码器

本文提出了一种新的自监督方法 SidAE，将 Siamese 结构和去噪自编码器相结合进行无监督预训练，证明其在多个数据集、设定和场景下优于两个自监督对照组，其中关键包括仅有少量标记数据的情况。

Apr, 2023

半监督序列自编码器语义解析

我们提出了一种新颖的半监督方法，应用于序列转换和语义分析。该方法包含基于生成模型的无监督成分，在该模型中，潜在的句子生成不成对的逻辑形式，我们将此方法应用于许多语义解析任务，重点关注训练数据标记不足的领域，并使用合成逻辑形式扩充这些数据集。

Sep, 2016

AET vs. AED: 通过自编码变换而非数据进行无监督表示学习

本文提出了一种新的无监督表示学习范式，通过自编码变换（AET）而非传统的自编码数据（AED）方法进行训练，使得神经网络可以在没有标注数据的情况下学习。实验结果表明，AET 范式可以实例化一大类变换，具有比现有的无监督方法更好的性能，特别是在 CIFAR-10、ImageNet 和 Places 数据集上表现更接近完全监督对照组的上限。

Jan, 2019

应用弱监督方法的紧急语言符号自编码器 (ELSA) 模拟层次脑网络

通过符号自动编码器模型，以及弱监督和新兴语言框架的指导，我们提出了一种新的体系结构，用于在脑网络中生成层次化的群集和相应的图像，从而改善神经影像分析中深度学习模型的可解释性。

Apr, 2024

序列模型的离散自编码器

本文旨在通过强制使用自动编码器并引入改进的语义哈希技术，从序列模型中提取更好的表示，以提高其在语言建模和机器翻译等任务中的表现，并展示了该技术在生成多元化翻译方面的应用。

Jan, 2018

自编码器无监督地学习序列表示

提出了通过整合两种经典的序列重构机制，结合时间戳的方法，使用自编码器模型学习序列数据的固定长度向量表征，旨在提高对序列数据的高质量感知，以便在半监督学习中应用。

Apr, 2018

监督自编码神经网络潜空间配置的泛化改进

本文研究了自编码器的潜在空间（LS）属性，并提出了两种获得期望拓扑结构的 LS 配置方法。研究表明，利用几何损失项直接作用于 LS 的损失配置方法可以可靠地获得期望的 LS 配置，从而可以在 LS 中定义相似性度量来预测标签或估计多个输入的相似性，而无需使用解码器或分类器。研究还证明，使用所提出的方法训练的有监督自编码器在纹理分类方面表现良好，并且可以在没有微调的情况下很好地泛化到来自 LIP、Market1501 和 WildTrack 数据集的未见数据，甚至可以用于评估未见类的相似性。此外，通过跨数据集搜索和基于文本查询进行文本搜索的实验证明了预配置的 LS 相似性估计的优势，而无需使用语言模型。

Feb, 2024

自监督掩码图自编码器

本研究提出了一种掩蔽图自编码器 (GraphMAE)，解决了基于结构数据增强和复杂的训练策略的对比学习的不足之处，侧重于特征重建，并表现出优异的性能。

May, 2022

多模态掩模自编码器学习可转移表示

本论文提出一种基于 Masked Token 预测的大型多模式模型 (M3AE)，能在不引入偏好于数据增强的对比学习目标的情况下，学习出适用于下游任务的可传递表示，并证明了高文本遮盖率下训练能够显著提升模型性能。M3AE 能够在配对和非配对的图像 - 文本数据上训练，具有可扩展性和灵活性。

May, 2022