LERT: 一种基于语言学动机的预训练语言模型

Nov, 2022

LERT: 一种基于语言学动机的预训练语言模型

LERT: A Linguistically-motivated Pre-trained Language Model

Yiming Cui, Wanxiang Che, Shijin Wang, Ting Liu

TL;DR本论文提出了一种名为 LERT 的预训练语言模型，通过使用一种称为语言信息预训练策略，使用三种类型的语言特征以及原始的 MLM 预训练任务来训练，对于十种汉语 NLU 任务，LERT 能够带来显着的改进。

Abstract

pre-trained language model (PLM) has become a representative foundation model in the natural language processing field. Most PLMs are trained with linguistic-agnostic pre-training tasks on the surface form of the text, such as the masked language model (MLM). To further empower the PLM

pre-trained language model linguistic features lip strategy chinese nlu tasks improvements

发现论文，激发创造

PERT: 使用排列语言模型对 BERT 进行预训练

本文提出了一种新的预训练语言模型 (PERT)，它是一种自动编码模型，使用排列语言模型技术进行训练，并应用全词遮盖和 N-gram 遮盖以提高其性能。实验结果表明，PERT 可以在某些任务上比其他相似模型有更好的性能表现。

Mar, 2022

知识增强预训练语言模型综述

本文利用分类法阐述了如何将外部知识融入预训练语言模型（PLMs）中解决其因缺乏外部知识而导致的推理能力不足问题，以及 KE-PLMs 在 NLU 和 NLG 任务中的应用和未来发展方向。

Nov, 2022

知识增强的预训练语言模型：综述

本文论述了预训练语言模型（PLM）的重要性以及知识增强型预训练语言模型（KE-PLMs）的研究现状，探讨了 KE-PLMs 在各种 NLU 和 NLG 应用中的超越性能以及 KE-PLMs 面临的挑战和未来研究方向。

Oct, 2021

ElitePLM：预训练语言模型通用语言能力评估的实证研究

本文介绍了一个对预训练语言模型（PLMs）的普适语言能力进行大规模实证研究的 ElitePLM，并设计了四个评估维度来衡量十种广泛使用的 PLMs，包括记忆、理解、推理和组合。实验结果表明，PLMs 在不同的能力测试中表现出色；下游任务中的微调通常对数据大小和分布敏感；PLMs 在类似任务之间具有出色的可转移性，并且 PLMs 的预测结果在我们的实验中作为开放资源发布，以进行更深入和详细的 PLMs 语言能力分析。这篇论文可以引导未来的工作选择，应用和设计特定任务的 PLMs。

May, 2022

预训练目标如何影响大型语言模型在语言属性方面的学习？

本文探讨了语言模型的预训练目标对 BERT 学习语言属性的影响，通过使用两个语言学上有意义的目标和三个非语言学动机的目标进行预训练，并发现了这两种不同类型的目标训练出的模型在语言特征表现方面的差异非常小，这也对语言信息熵理论的主流观点提出了疑问。

Mar, 2022

预训练多语言语言模型入门

该论文调查了关于多语言语言模型的研究，包括零样本迁移学习，预训练，跨语言和双语任务，展望了未来研究的方向。

Jul, 2021

优化多语言大型语言模型的语言增强：以韩文为例的案例研究

本研究提出了三种策略以增强不太具备资源的语言在大型语言模型中的表现：扩展词汇表、使用双语数据进行预训练以对齐高资源语言和低资源语言、构建高质量的小规模指令数据集并进行指令微调。通过对比八个任务的其他大型语言模型，在质量分析中，我们的提出的 Bllossom 模型表现出优异的性能。

Mar, 2024

大型语言模型调查

本文介绍了最近关于预训练语言模型（PLMs）的新进展，重点讨论了大型语言模型的预训练、适应和调整、利用和容量评估四个方面，并讨论了未来研究的问题和方向。

Mar, 2023

利用语言模型生成训练数据：走向零样本语言理解

本文提出了一种简单的方法，使用预训练语言模型 (Pretrained language models) 进行全零样本学习 (zero-shot learning) 自然语言理解任务 (NLU tasks)。该方法使用单向和双向 PLMs 生成和训练数据，其中训练数据是使用提示 (prompts) 引导的类别条件文本。使用这种方法，在 GLUE 数据集的七个分类任务中取得了强劲的表现 (例如在 MNLI-m/mm 上的 72.3/73.8，以及在 SST-2 上的 92.8)，相对于零样本提示方法，甚至实现了与使用每类 32 个训练样本的强有力的少样本方法相当的结果。同时，采用了标签平滑和时间模型的融合技术以达到更好的泛化和稳定性。

Feb, 2022

神经语言模型的语言学分析

本文探究了神经语言模型（NLM）在调整细节后所学习到的语言知识及其对于多种分类问题的预测影响，结合多重探测任务发现，尽管 BERT 能够编码多种语言特征，但在特定的下游任务训练后往往导致相关信息丢失，而 BERT 对于不同语言属性的编码能力将正面影响它的预测能力。

Oct, 2020