预训练通用语言表示

May, 2021

Pre-training Universal Language Representation

Yian Li, Hai Zhao

TL;DR本研究提出了一个通用的语言表示学习方法MiSAD，通过利用大型未标记语料库中提取的有意义的n-gram，实现对不同层次语言单位或具有相当不同长度的文本的嵌入形式，从而使手头的多个语言层次的信息能够更好地统一处理，并且在GLUE基准和问答数据集上显著提高了下游任务的性能以及在不同语言层次上实现了最高准确率。

Abstract

Despite the well-developed cut-edge representation learning for language, most language representation models usually focus on specific levels of linguistic units. This work introduces universal →

发现论文，激发创造

从自然语言推理数据中监督学习通用句子表示

本研究探讨了利用 Stanford 自然语言推断数据集的监督学习训练通用句子向量表示，相比于SkipThought等无监督方法，该方式在多种迁移学习任务中表现更优，因此表明自然语言推断适用于迁移学习。

May, 2017

UER: 一个用于预训练模型的开源工具包

我们提出了一种可按需组装的预训练工具箱，即通用编码器表示（UER），通过UER，我们建立了一个模型动物园，其中包含基于不同语料库，编码器和目标（目标）的预训练模型，使用适当的预训练模型，我们可以在一系列下游数据集上实现新的最先进结果。

Sep, 2019

利用预训练语言模型生成通用文本嵌入以实现可扩展推断

研究使用共享文本编码器实现多任务推理以及使用二进制量化减少数据存储大小的方法，证明预训练的编码器在多个任务上表现的泛化性好。

Apr, 2020

跨语言学习通用表征

本文介绍了一种基于Hierarchical Contrastive Learning的方法，用于学习句子级别的跨语言表示方法，在XTREME任务和机器翻译任务中实验表明，该方法可以显著提高模型准确性。

Jul, 2020

使用预训练语言模型生成数据集

本文介绍了一种利用预训练语言模型生成标注文本数据集的方法，从而实现高质量的无监督学习得到的句子嵌入。实验结果表明，这种方法在多个语义文本相似性测试数据上实现了比较好的性能表现。

Apr, 2021

多语言预训练中的表征语义共同体发现

介绍了一种新的多语种预训练模型方法，基于语言的相似性将目标语言划分为若干组，并对每组构建一个预训练模型，实验中在跨语言基准测试中与强基线模型相比获得了显著的提升。

Sep, 2021

ANNA: 增强语言表达能力用于问答

本文中，我们展示了数据处理、预训练任务、神经网络建模或微调的方法如何单独影响性能，以及当这些方法共同考虑预训练模型时，语言模型在特定的问答任务上表现出最佳结果；具体地，我们提出了一种扩展的预训练任务和一种新的邻居感知机制，能更多地关注邻近的标记，从而捕捉预训练语言建模的上下文丰富性。我们的最佳模型在SQuAD 1.1上实现了95.7％的F1和90.6％的EM，也在SQuAD 2.0基准上超过了现有的预训练语言模型，如RoBERTa，ALBERT，ELECTRA和XLNet。

Mar, 2022

基于联合语音-文本模型的小样本语音理解

通过使用预训练的语音-文本模型，本研究发现只需1小时标注的语音数据，即可与仅使用10倍数据的仅语音预训练模型在口语理解任务（情感分析和命名实体识别）上取得可比较的性能；同时发现底层的语音-文本模型作为任务自主层面，在共享空间中对齐语音和文本表示，而顶层则更加任务特定。

Oct, 2023

语言模型是通用嵌入器

大语言模型（LLM）革命中，嵌入是各种系统的关键组成部分。在本文中，我们迈出了迈向构建强大统一的嵌入模型的第一步，证明了多种语言（自然语言和编程语言）的预训练变换器解码器在有限英文数据微调后能够实现普遍嵌入。我们对各任务进行了全面实践和彻底评估，结果表明这是一条有希望的道路，可以应用于不同任务和语言。

Oct, 2023

用紧凑和一致的下一个令牌分布高效训练语言模型

通过与折叠的$n$-gram分布进行预聚合，我们能够更快地训练更好的模型，并在模型质量和收敛速度上实现显著改进。

Jul, 2024