UER: 一个用于预训练模型的开源工具包
利用大型语言模型,本研究表明如何创建 NuNER,这是一种专注于命名实体识别(NER)任务的紧凑语言表示模型,可以进行低数据需求的微调,该模型在 few-shot 情景下胜过了类似大小的基础模型,并与更大的语言模型竞争。研究发现预训练数据集的大小和实体类型多样性是取得良好性能的关键。我们将 NuNER 视为最近由语言模型解锁的任务特定基础模型之一。
Feb, 2024
本研究旨在将预训练模型的能力扩展到传统上被忽视但本质上具有挑战性的表格数据领域,并介绍了一种名为 UniTabE 的先进方法,能够以一致的方式处理表格数据,通过预训练和微调来提高语义表达效果。
Jul, 2023
UDoc 是一个新的文档理解的统一预训练框架,它通过使用三个自监督损失约束表示模型,将单词和视觉特征作为输入,使神经网络从无标签的数据中学习到更好的文档表示,并取得了下游任务的提升。
Apr, 2022
本研究提出了一个通用的语言表示学习方法 MiSAD,通过利用大型未标记语料库中提取的有意义的 n-gram,实现对不同层次语言单位或具有相当不同长度的文本的嵌入形式,从而使手头的多个语言层次的信息能够更好地统一处理,并且在 GLUE 基准和问答数据集上显著提高了下游任务的性能以及在不同语言层次上实现了最高准确率。
May, 2021
该研究提出了 UBERT 模型,基于 BERT 框架,可以通过双向仿射网络对不同自然语言理解任务的训练对象进行普遍建模,并通过模型得分来实现各种分类和提取结构的通用、跨任务的语义理解。在 2022 年 AIWIN - 世界人工智能创新大赛中国保险小样本多任务跟踪中获得一等奖,并实现了广泛的信息提取和语言推理任务的统一。
Jun, 2022
Unicoder 是一种机器学习算法,可对自然语言进行编码,进而实现输出不同语言的任务。该方法提出了三种新的跨语言预训练任务,包括跨语言词汇恢复、跨语言近义词分类和跨语言掩码语言模型。作者还发现在多种语言上进行微调可以进一步提高性能。作者在两个任务上进行了实验,包括跨语言自然语言推断和跨语言问答,并且在新的跨语言问答数据集上实现了 5.5%的精确度提高。
Sep, 2019
提出一种名为 ERNIE 2.0 的持续预训练框架,通过不断的多任务学习构建和学习预训练任务,以从训练语料库中提取词汇、句法和语义信息。实验结果表明,在包括 GLUE 基准测试中的 16 个任务(包括英文任务和中文中的几个常见任务)中,ERNIE 2.0 的表现优于 BERT 和 XLNet。已经在 https://github.com/PaddlePaddle/ERNIE 发布了源代码和预训练模型。
Jul, 2019
本文介绍了两种基于 Transformer 和 CNN 模型架构的预训练多语言句子编码模型,并使用基于翻译的桥接任务学习绑定表示将 16 种语言的文本嵌入到单一的语义空间中,以提高检索效率,与最先进的语义检索、翻译检索和检索问题回答模型相竞争,并在某些情况下超越了英文单语句子嵌入模型的表现水平。
Jul, 2019
大语言模型(LLM)革命中,嵌入是各种系统的关键组成部分。在本文中,我们迈出了迈向构建强大统一的嵌入模型的第一步,证明了多种语言(自然语言和编程语言)的预训练变换器解码器在有限英文数据微调后能够实现普遍嵌入。我们对各任务进行了全面实践和彻底评估,结果表明这是一条有希望的道路,可以应用于不同任务和语言。
Oct, 2023