介绍了一种新的语言表示模型BERT,可以通过预训练深度双向表示生成模型从未标记的文本中学习,通过微调可用于广泛的任务,包括自然语言处理。
Oct, 2018
自然语言处理的进展主要归功于模型架构和预训练的进步,Transformer架构为构建更高性能的模型提供了便利,预训练使得这些模型能够在各种任务中被有效利用。Transformers是一个旨在向更广泛的机器学习社区推广这些进展的开源库,库中包含一系列经过精心设计的Transformer架构和社区制作和提供的预训练模型,并且旨在为研究人员提供可扩展性、为从业者提供简便性、为产业部署提供快速和稳健性。
Oct, 2019
该研究通过对GLUE基准测试中的四个数据集进行BERT的微调,发现同样参数下,不同的随机种子会导致非常不同的结果表现,并且在权重初始化和训练数据排序的两个方面探究其对结果的影响。此外,该研究对微调方法的实现提出了最佳实践,并公开其所有实验数据以供更深入的分析。
Feb, 2020
本文主要介绍了预训练模型在自然语言处理领域的应用。首先简要介绍了语言表示学习及其研究进展,然后系统地从四个角度分类现有的预训练模型,接下来介绍如何将预训练模型的知识应用于下游任务,并提出了一些未来研究的潜在方向。该综述旨在成为一个操作性指南,帮助理解、使用和开发各种自然语言处理任务的预训练模型。
Mar, 2020
本文介绍了两个基于流行的BERT架构的波兰语语言模型,经过评估,我们的模型在13个波兰语语言任务中取得了显著的提高。
Jun, 2020
本文综述了预训练语言模型在文本生成方面的主要进展,包括模型结构、输入数据的适配以及重要的微调策略。对于文本生成研究者而言,该综述提供了相关研究的综合和指引。
May, 2021
该研究论文调查和组织了一种新兴的自然语言处理范式,这种范式被称为“基于提示的学习”,并在其中介绍了其基础知识和数学符号,以及其在预训练模型、提示和调整策略等方面的相关研究成果,该框架通过使用模板将输入x修改为具有一些未填充信息的文本字符串提示x',并将语言模型用于填充未填充信息以获得最终字符串x,从而实现零样本学习和少样本学习。
Jul, 2021
本书提供了基础模型的研究和应用的综述,介绍了预训练语言模型BERT、GPT和序列到序列变换,并讨论了改进这些模型的不同方法,以及20个应用领域中表现最佳的模型。
Feb, 2023
在这篇论文中,我们对高效提示的各种方法进行了全面的概述,包括使用高效计算和高效设计进行提示的方法,重点关注未来的研究方向。
Apr, 2024
本研究解决了微调预训练变换器模型效率与功能的不足,提出了两种新微调方法。其中一种通过引入递归机制提升变换器解码器的效率,另一种则使得掩蔽语言模型可用于非自回归序列到序列变换器的初始化,扩展其生成应用。研究显示,新技术可在不额外微调的情况下改善变换器解码器的预测质量,具有重要的实践价值。
Aug, 2024