COCO-LM：文本序列纠错和对比用于语言模型预训练

Feb, 2021

COCO-LM：文本序列纠错和对比用于语言模型预训练

COCO-LM: Correcting and Contrasting Text Sequences for Language Model Pretraining

Yu Meng, Chenyan Xiong, Payal Bajaj, Saurabh Tiwary, Paul Bennett...

TL;DR本文提出一种自监督学习框架 COCO-LM，通过纠错和对比损坏的文本序列，对语言模型进行预训练，并在 GLUE 和 SQuAD 上的实验表明，其在准确性和预训练效率方面均优于最近的最先进预训练模型。

Abstract

We present COCO-LM, a new self-supervised learning framework that pretrains language models by correcting challenging errors and

发现论文，激发创造

CoCon: 一种自监督控制文本生成方法

本文提出了一种被称为CoCon的内容控制器，可以在细粒度的水平上控制预训练的基于Transformer的语言模型以生成目标内容的自然语言文本，并通过实验证明了其有效性。

Jun, 2020

使用弱监督微调预训练语言模型：一种对比正则自训练方法

该研究通过开发一种对比自训练框架(COSINE)来解决使用弱监督fine-tune预训练语言模型(LMs)时的过拟合问题，实验证明该方法在自然语言处理的多个任务中表现优异。

Oct, 2020

通过自标注的词对齐改进预训练的跨语言语言模型

该研究探讨了使用去噪词对齐作为新的跨语言预训练任务的方法，通过在双语对中进行自我标注的单词对齐，结合指针网络来预测清理片段中被屏蔽的单词及其在另一种语言中的对应单词，并在期望值最大化的方式下交替进行两个步骤，实验结果表明该方法在各种数据集上提高了跨语言可传递性。

Jun, 2021

预训练语言模型的可迁移性研究：来自人工数据集的探讨

本文研究了预先训练语言模型在下游任务中表现卓越的特定特质，包括匹配预训练集和下游任务的词汇统计信息、明确依赖关系和隐式依赖的长度等。实验证明，在预先训练数据的明确依赖关系中加入后，模型的下游性能显著提高。我们发现预先训练模型是有可能在下游任务中学习到虚假的相关性。即使语言模型没有预先在自然语言上进行训练，只要其能够模拟序列中的令牌依赖关系，仍然可以在某些语言任务中获得迁移能力。

Sep, 2021

使用遗忘因果语言模型改进少样本学习和微调的性能

本文提出的遗忘因果掩码（Forgetful Causal Masking，FCM）和T-FCM技术可以显著提高语言模型（如PaLM）的性能，是一种简单的技术，通过遮盖随机选择的过去标记来执行下一个标记预测任务，从而提高下游语言理解任务的学习表示质量。

Oct, 2022

LERT: 一种基于语言学动机的预训练语言模型

本论文提出了一种名为LERT的预训练语言模型，通过使用一种称为语言信息预训练策略，使用三种类型的语言特征以及原始的MLM预训练任务来训练，对于十种汉语NLU任务，LERT能够带来显着的改进。

Nov, 2022

使用类人开发数据文集预训练LLMs

利用与儿童所见的单词数量大致相同的单词数量，我们对大型语言模型进行预训练和评估，以学习上下文词表示，其中比较了不同架构、不同训练轮次的性能变化以及与任务组织者给出的RoBERTa基准的训练稳定性和可复现性。

Nov, 2023

通过LFR教学法加速大型语言模型预训练：学习、聚焦与回顾

本研究针对传统大规模语言模型预训练过程中的高训练成本和低模型质量问题，提出了一种新的LFR（学习、聚焦、回顾）教学法。这一动态训练模式通过系统性地聚焦和重复回顾复杂数据块，有效提高了模型的长期记忆能力，并在GPT-2模型的预训练中实现了20倍的加速和更低的困惑度。

Sep, 2024

大型语言模型的预训练数据检测：一种基于发散的校准方法

本研究解决了大型语言模型预训练数据透明性不足的问题，提出了一种基于发散的校准方法，以提高数据检测的准确性。该方法通过计算令牌概率分布与令牌频率分布之间的交叉熵，显著提升了检测性能，尤其在中文文本的检测中表现优异。研究结果表明，该方法在现有技术上取得了显著进展，推动了对大型语言模型的科学评估和伦理应用。

Sep, 2024

大型语言模型的预训练数据检测：基于发散的校准方法

本研究解决了大型语言模型预训练数据透明度不足所带来的科学评估与伦理部署挑战。提出了一种基于发散的校准方法，通过计算令牌概率分布与令牌频率分布之间的交叉熵来提高检测性能。实验结果表明，该方法在英文基准和中文基准PatentMIA上显著优于现有检测方法。

Sep, 2024