对比自监督学习的高效数据预训练

Oct, 2020

对比自监督学习的高效数据预训练

Data-Efficient Pretraining via Contrastive Self-Supervision

Nils Rethmeier, Isabelle Augenstein

TL;DR本文提出了一种基于对比学习的文本编码器，利用 60MB 的任务内文本数据进行预训练，相较于利用 160GB 的任务外文本进行预训练的 RoBERTa 模型，在预训练效率、数据和计算资源利用率、以及算法公正性方面有了显著提高。

Abstract

For natural language processing `text-to-text' tasks, the prevailing approaches heavily rely on pretraining large self-supervised models on increasingly larger `task-external' data. Transfer learning from high-re

natural language processing self-supervised models low-resource learning text encoder pretraining efficiency

发现论文，激发创造

下游数据集出人意料地成为良好的预训练语料库

本文介绍了一个大规模的自我训练研究，其中使用相同的（下游）训练数据进行预训练和微调，并且观察到自我预训练可以与标准预训练相媲美，这表明在许多情况下，预训练性能增益主要受预训练目标本身的驱动，而不一定是庞大数据集的影响。

Sep, 2022

低资源领域适应的多阶段预训练

本文研究使用预训练语言模型的转移学习、领域特定术语扩展词汇表以及利用未标记数据结构创造辅助合成任务等方法，在 IT 领域的三个任务中，采用逐步应用的策略在预先训练的 Roberta-large LM 上显示出显着的性能提升。

Oct, 2020

语音翻译和识别的统一语音文本预训练

本文描述了一种使用编码器 - 解码器建模框架来联合预训练语音和文本用于语音翻译和识别的方法，其中包括四个自监督和有监督的子任务以进行跨模态学习，其贡献在于将文本语料库中的语言信息整合到语音预训练中。

Apr, 2022

自监督语音预训练中的文本注入

这篇论文提出了一种名为 tts4pretrain 的自我监督预训练方法，该方法通过同时从语音和文本两个模态中学习表示，将比较学习的强大能力与从合成语音推导的语言 / 词汇表示相辅相成，有效学习未经转录的语音和未说出的文本，并通过额外的序列损失项在语音编码器中强制执行词汇学习，最终在自动语音识别任务中取得相对于 wav2vec2.0 基线模型 10％的误差率降低。

Aug, 2021

领域匹配的密集检索预训练任务

通过在 65 百万个合成问题和 2 亿个来自 Reddit 对话的帖子对大型 bi-encoder 模型进行适当的预训练，可以在信息检索和对话检索基准测试中实现比监督基准线显着更好的表现。

Jul, 2021

自我监督表示改善端到端语音翻译

本文旨在探索自监督预训练语音表示是否可以优化高和低资源语音翻译任务，并且这些语音表示是否可以有效地和其他常见的低资源端到端语音翻译方法相结合，以及这些表示是否可以良好地跨语种迁移。结果表明，自监督预训练功能可以始终提高翻译性能，并且跨语言传输可以扩展到各种语言而无需或只需要少量调整。

Jun, 2020

自我训练提升自然语言理解的预训练

本文研究了一种使用自训练方法的半监督学习，提出了 SentAugment 数据增强方法，并取得了在文本分类任务上高达 2.6% 的改进。

Oct, 2020

使用外部数据进行口语命名实体识别

本文研究语音识别与文本命名实体识别的端到端模型，研究使用未标注文本数据和数据增强技术来提高实体识别的性能。通过引入自学习、知识蒸馏和迁移学习等方法，该文发现这些技术在资源受限的情况下可以提高实体识别的性能。同时，本文展示了相比于之前的工作，这些方法在 F1 分数方面提高了长达 16% 的表现。

Dec, 2021

自我监督元学习用于少样本自然语言分类任务

本文提出了一种自监督的方法来生成大量的 meta-learning 任务分布，通过这种方法，将 transformer 模型的预训练与 meta-learning 相结合，证明了这种方法能够在 NLP 任务上实现更好的少样本泛化。

Sep, 2020

受限资源下的对比视觉 - 语言预训练

本文提出了一种可在有限资源下进行双编码器多模态表示对齐的新方法，并证明该算法在大规模数据上的有效性。

Dec, 2021