通过语义去重实现大规模数据高效学习

Mar, 2023

通过语义去重实现大规模数据高效学习

SemDeDup: Data-efficient learning at web-scale through semantic deduplication

Amro Abbas, Kushal Tirumala, Dániel Simig, Surya Ganguli, Ari S. Morcos

TL;DR使用预训练模型中的嵌入来识别和删除语义重复项 SemDeDup，可以在保留性能和提高超出分布的模型表现的同时，删除数据中约 50％的语义重复项。

Abstract

Progress in machine learning has been driven in large part by massive increases in data. However, large web-scale datasets such as LAION are largely uncurated beyond searches for exact duplicates, potentially lea

machine learning web-scale datasets semdedup semantic duplicates pre-trained models

发现论文，激发创造

半监督自然语言理解的双向学习

通过引入一个新的 NLU 双重任务 —— 语义到句子生成 (SSG)，并提出一种新的半监督 NLU 框架，其中包括对应的双重模型，以解决之前半监督学习面临的标注样本稀缺问题。该框架通过主任务与对偶任务之间的闭环，使得 NLU 模型可以充分利用数据（标记和无标记），并在每次迭代中逐步提高 NLU 和 SSG 模型的性能，在 ATIS 和 SNIPS 两个公共数据集上的实验结果表明，该方法明显优于基线，而且在监督设置下也可以达到最先进水平。

Apr, 2020

DualMatch：具有双层交互的鲁棒半监督学习

提出了一种名为 DualMatch 的新型半监督学习方法，其中类别预测以双层交互方式调用特征嵌入，通过一致的正则化确保不同的增强视图受到一致的类别预测约束，并确保同一类别的不同数据具有类似的特征嵌入，实验证明了 DualMatch 的有效性。

Oct, 2023

从网络数据中通过深度语义嵌入学习学习

本研究提出利用网络和社交媒体数据来学习多模态图像和文本嵌入，旨在将在文本领域中学到的语义知识转移至用于语义图像检索的视觉模型。研究结果表明，利用带有相关文本的图像进行无监督学习的流程能够在三个基准测试中学习五种不同的文本嵌入，并在面向文本的图像检索任务中表现出与受监督方法竞争性的性能。在目标数据中训练时，我们在 MIRFlickr 数据集中明显优于现有技术。进一步，我们展示了如何使用学习到的嵌入执行语义多模态图像检索，超越了传统的实例级检索问题。最后，我们提出了一个新的数据集（InstaCities1M），由 Instagram 图像及其相关文本组成，可用于公平比较图像 - 文本嵌入方法。

Aug, 2018

基于小型数据集的神经数据 - 文本生成：在大型语言模型之上比较两种半监督学习方法的附加值

本研究探讨了半监督学习与预训练语言模型在数据生成文本方面的效果。结果表明，半监督学习方法可以增强输出质量和多样性，即使已经使用了预训练语言模型。

Jul, 2022

双向语言模型的半监督序列标注

本文探讨了一种半监督的方法，通过添加双向语言模型的预训练上下文嵌入到 NLP 系统中用于序列标注任务，相比其他转移学习或添加标记数据和任务特定词典的方法，在命名实体识别和块分割等任务上实现了最先进的结果。

Apr, 2017

一种半匹配的标签到图像翻译方法

本文提出了第一个半监督（半配对）的框架，用于标签到图像的翻译，使用输入重构任务并利用条件鉴别器来作为反向生成器，证明了所提出模型在标准基准测试中优于现有的无监督和半监督方法，同时使用更少的配对样本。

Jun, 2023

非监督语义聚合与可变形模板匹配的半监督学习

本文提出了一个结合半监督学习和无监督语义聚合的框架（USADTM），旨在提高少标记数据的分类性能并减少数据标注成本。在无标签数据中，通过 Triplet Mutual Information（T-MI）损失生成语义标签，并通过有标记数据的监督来对齐语义标签。通过不断更新记忆库，为无标记数据分配代理标签并用于交叉熵最小化的目标。在四个半监督学习测试基准中广泛实验和分析证实 USADTM 实现了最佳性能（例如，在 CIFAR-10 上使用 40 个标签的情况下为 90.46％的准确度，在使用 250 个标签的情况下为 95.20％的准确度）

Oct, 2020

跨模态图像 - 文本联合嵌入的网络监督检索

文章提出了利用网络图像及对应标签实现鲁棒视觉 - 语义联合嵌入学习的方法，通过在有限的训练数据中引入弱标注的网络图像能够取得比当前最先进方法更显著的图像 - 文本检索性能提升。

Aug, 2018

SimMatch: 带相似性匹配的半监督学习

本文提出了一种新的半监督学习框架 SimMatch，该框架同时考虑语义相似性和实例相似性，并通过一致性正则化将这两种相似性转换为更可靠的匹配目标，实现了半监督学习任务的性能提升，特别是在 ImageNet 数据集上，1％和 10％标记示例的 Top-1 准确率均显着优于基线方法和以前的半监督学习框架。

Mar, 2022

SimPLE: 特征相似的伪标签利用用于半监督分类

本文提出了基于 Pair Loss 和 MixMatch 技术的 SimPLE 算法，通过挖掘标记和未标记数据之间的关系，显著提升了 CIFAR-100 和 Mini-ImageNet 上的性能，并在 CIFAR-10 和 SVHN 上达到了最新方法的水平。此外，SimPLE 算法还在迁移学习设置中优于预训练模型。

Mar, 2021