自我监督序列学习的符号编码
本文提出了一种新的自监督方法 SidAE,将 Siamese 结构和去噪自编码器相结合进行无监督预训练,证明其在多个数据集、设定和场景下优于两个自监督对照组,其中关键包括仅有少量标记数据的情况。
Apr, 2023
我们提出了一种新颖的半监督方法,应用于序列转换和语义分析。该方法包含基于生成模型的无监督成分,在该模型中,潜在的句子生成不成对的逻辑形式,我们将此方法应用于许多语义解析任务,重点关注训练数据标记不足的领域,并使用合成逻辑形式扩充这些数据集。
Sep, 2016
本文提出了一种新的无监督表示学习范式,通过自编码变换(AET)而非传统的自编码数据(AED)方法进行训练,使得神经网络可以在没有标注数据的情况下学习。实验结果表明,AET 范式可以实例化一大类变换,具有比现有的无监督方法更好的性能,特别是在 CIFAR-10、ImageNet 和 Places 数据集上表现更接近完全监督对照组的上限。
Jan, 2019
通过符号自动编码器模型,以及弱监督和新兴语言框架的指导,我们提出了一种新的体系结构,用于在脑网络中生成层次化的群集和相应的图像,从而改善神经影像分析中深度学习模型的可解释性。
Apr, 2024
本文旨在通过强制使用自动编码器并引入改进的语义哈希技术,从序列模型中提取更好的表示,以提高其在语言建模和机器翻译等任务中的表现,并展示了该技术在生成多元化翻译方面的应用。
Jan, 2018
提出了通过整合两种经典的序列重构机制,结合时间戳的方法,使用自编码器模型学习序列数据的固定长度向量表征,旨在提高对序列数据的高质量感知,以便在半监督学习中应用。
Apr, 2018
本文研究了自编码器的潜在空间(LS)属性,并提出了两种获得期望拓扑结构的 LS 配置方法。研究表明,利用几何损失项直接作用于 LS 的损失配置方法可以可靠地获得期望的 LS 配置,从而可以在 LS 中定义相似性度量来预测标签或估计多个输入的相似性,而无需使用解码器或分类器。研究还证明,使用所提出的方法训练的有监督自编码器在纹理分类方面表现良好,并且可以在没有微调的情况下很好地泛化到来自 LIP、Market1501 和 WildTrack 数据集的未见数据,甚至可以用于评估未见类的相似性。此外,通过跨数据集搜索和基于文本查询进行文本搜索的实验证明了预配置的 LS 相似性估计的优势,而无需使用语言模型。
Feb, 2024
本论文提出一种基于 Masked Token 预测的大型多模式模型 (M3AE),能在不引入偏好于数据增强的对比学习目标的情况下,学习出适用于下游任务的可传递表示,并证明了高文本遮盖率下训练能够显著提升模型性能。M3AE 能够在配对和非配对的图像 - 文本数据上训练,具有可扩展性和灵活性。
May, 2022