使用相似度度量选择 NER 的预训练数据
大型语言模型的性能在许多下游任务上都很高,但并非所有任务都能实现高性能。我们通过与下游基准测试的大规模比较,测试了预训练数据与任务数据之间的相似度是否与语言模型的性能相关。我们惊讶地发现,在其他基准测试中,相似度指标与准确性甚至彼此之间都没有相关性。这表明预训练数据与下游任务之间的关系比通常认为的更加复杂。
Nov, 2023
本文提出了一种新的预训练语言模型框架,通过增强其对文本的比较推理能力来提高 NLP 任务的性能,该框架通过收集结构化和非结构化数据设计了三个新的预训练任务,并在比较问答、问句生成和摘要等下游任务中进行了评估,结果显示,我们的预训练框架显著提高了语言模型的比较推理能力,特别是在低资源条件下。此外,本工作还发布了第一个针对文本比较推理的综合基准。
May, 2023
这篇研究探讨了高性能预训练语言模型的表现,并提出了一些可解释的评估指标用于理解检索实例的概念质量,并对具有明显查询语义的对抗性干预进行了测试,揭示了不透明指标中的漏洞并显示了学习语言表示中的模式。
Sep, 2022
本研究通过比较不同的预训练方法,包括从头开始预训练生物医学语言模型和在连续环境中预训练模型,并利用 BERT 模型内上下文中的现有权重提炼初始化新标记的权重,加快预训练阶段并提高命名实体识别性能;此外,我们还比较了掩码率、损坏策略和掩码策略对生物医学语言模型性能的影响;最终,我们通过课程学习和上下文化权重提炼方法提出了一种新的生物医学语言模型 (BIOptimus),在多项生物医学命名实体识别任务中创造了新的技术水平
Aug, 2023
本文主要探讨了一种分析语境对相似词人类感知影响的方法,使用多种方式计算 BERT 生成的双向编码器表示法的两个嵌入向量之间的距离,研究组在 SemEval 2020 的任务三中赢得了芬兰语语言赛道的第一名和英语语言赛道的第二名。
May, 2020
通过四种探究方法,我们发现语言模型只需要大约 100M 的单词量,就能够可靠地编码大多数句法和语义特征,而大量的数据需要用来获得足够的常识和其他技能,以掌握典型的下游 NLU 任务。
Nov, 2020
本文研究了预先训练语言模型在下游任务中表现卓越的特定特质,包括匹配预训练集和下游任务的词汇统计信息、明确依赖关系和隐式依赖的长度等。实验证明,在预先训练数据的明确依赖关系中加入后,模型的下游性能显著提高。我们发现预先训练模型是有可能在下游任务中学习到虚假的相关性。即使语言模型没有预先在自然语言上进行训练,只要其能够模拟序列中的令牌依赖关系,仍然可以在某些语言任务中获得迁移能力。
Sep, 2021
本研究将外部词汇知识与 BERT 模型的多任务学习相结合,提出了一种 “词汇知情” 的 BERT(LIBERT)模型,比起原始 BERT 在多项语言任务和词汇简化任务中均有显著提高。
Sep, 2019
通过预先训练模型的嵌入,精心选择数据可加速训练并提高自然语言处理任务的下游准确性,进而对语言模型的预训练方法和性能产生质疑,并展示了在超大规模模型上持续改进模型的可能路径。
Aug, 2023