使用相似度度量选择 NER 的预训练数据

ACLApr, 2019

使用相似度度量选择 NER 的预训练数据

Using Similarity Measures to Select Pretraining Data for NER

Xiang Dai, Sarvnaz Karimi, Ben Hachey, Cecile Paris

TL;DR本文提出了三种低成本的方法来衡量源预训练和目标任务数据之间的相似性，并在超过 30 个数据对上展示这些方法是好的预测器。结果表明，预训练的语言模型比预训练的词向量更有效，更可预测，但是预训练的词向量在预训练数据不相似时表现更好。

Abstract

word vectors and language models (LMs) pretrained on a large amount of unlabelled data can dramatically improve various Natural Language Processing (→

word vectors language models pretraining named entity recognition nlp

发现论文，激发创造

数据相似性无法充分解释语言模型的性能

大型语言模型的性能在许多下游任务上都很高，但并非所有任务都能实现高性能。我们通过与下游基准测试的大规模比较，测试了预训练数据与任务数据之间的相似度是否与语言模型的性能相关。我们惊讶地发现，在其他基准测试中，相似度指标与准确性甚至彼此之间都没有相关性。这表明预训练数据与下游任务之间的关系比通常认为的更加复杂。

Nov, 2023

为比较推理预训练语言模型

本文提出了一种新的预训练语言模型框架，通过增强其对文本的比较推理能力来提高 NLP 任务的性能，该框架通过收集结构化和非结构化数据设计了三个新的预训练任务，并在比较问答、问句生成和摘要等下游任务中进行了评估，结果显示，我们的预训练框架显著提高了语言模型的比较推理能力，特别是在低资源条件下。此外，本工作还发布了第一个针对文本比较推理的综合基准。

May, 2023

关于语言模型在视觉概念语义相似度评估方面的可解释性研究

这篇研究探讨了高性能预训练语言模型的表现，并提出了一些可解释的评估指标用于理解检索实例的概念质量，并对具有明显查询语义的对抗性干预进行了测试，揭示了不透明指标中的漏洞并显示了学习语言表示中的模式。

Sep, 2022

BIOptimus：使用课程学习预训练最佳生物医学语言模型于命名实体识别

本研究通过比较不同的预训练方法，包括从头开始预训练生物医学语言模型和在连续环境中预训练模型，并利用 BERT 模型内上下文中的现有权重提炼初始化新标记的权重，加快预训练阶段并提高命名实体识别性能；此外，我们还比较了掩码率、损坏策略和掩码策略对生物医学语言模型性能的影响；最终，我们通过课程学习和上下文化权重提炼方法提出了一种新的生物医学语言模型 (BIOptimus)，在多项生物医学命名实体识别任务中创造了新的技术水平

Aug, 2023

基于 Bert 的上下文对词相似度影响的精准预测模型

本文主要探讨了一种分析语境对相似词人类感知影响的方法，使用多种方式计算 BERT 生成的双向编码器表示法的两个嵌入向量之间的距离，研究组在 SemEval 2020 的任务三中赢得了芬兰语语言赛道的第一名和英语语言赛道的第二名。

May, 2020

何时需要数十亿字的预训练数据？

通过四种探究方法，我们发现语言模型只需要大约 100M 的单词量，就能够可靠地编码大多数句法和语义特征，而大量的数据需要用来获得足够的常识和其他技能，以掌握典型的下游 NLU 任务。

Nov, 2020

预训练语言模型的可迁移性研究：来自人工数据集的探讨

本文研究了预先训练语言模型在下游任务中表现卓越的特定特质，包括匹配预训练集和下游任务的词汇统计信息、明确依赖关系和隐式依赖的长度等。实验证明，在预先训练数据的明确依赖关系中加入后，模型的下游性能显著提高。我们发现预先训练模型是有可能在下游任务中学习到虚假的相关性。即使语言模型没有预先在自然语言上进行训练，只要其能够模拟序列中的令牌依赖关系，仍然可以在某些语言任务中获得迁移能力。

Sep, 2021

针对词级语义相似性的无监督预训练模型专业化

本研究将外部词汇知识与 BERT 模型的多任务学习相结合，提出了一种 “词汇知情” 的 BERT（LIBERT）模型，比起原始 BERT 在多项语言任务和词汇简化任务中均有显著提高。

Sep, 2019

D4: 通过文档去重和多样化提升 LLM 预训练

通过预先训练模型的嵌入，精心选择数据可加速训练并提高自然语言处理任务的下游准确性，进而对语言模型的预训练方法和性能产生质疑，并展示了在超大规模模型上持续改进模型的可能路径。

Aug, 2023

基于合成数据识别的句子相似性重新加权策略

通过训练分类器识别 PLMs 生成的数据，我们提出了一种新的方法来训练可靠的句子嵌入模型，从而得出更良好的效果。

Aug, 2022