通用语言模型微调用于文本分类

ACLJan, 2018

Universal Language Model Fine-tuning for Text Classification

Jeremy Howard, Sebastian Ruder

TL;DR本文提出了通用语言模型微调（ULMFiT）方法，通过预训练模型来减小 NLP 中针对特定任务和重新训练的限制，可应用于 NLP 中的任何任务，结果显示该方法在 6 个文本分类任务中的表现显著优于现有技术，且只需 100 个标记实例即可达到基于 100 倍数据重新训练的性能，同时本文公开了预训练模型和代码。

Abstract

inductive transfer learning has greatly impacted computer vision, but existing approaches in nlp still require task-specific modifications and training from scratch. We propose →

inductive transfer learning nlp universal language model fine-tuning text classification pretrained models

发现论文，激发创造

UltraLink：一种开源的知识增强的多语言监督微调数据集

本研究构建了一个开源的多语言监督微调数据集，通过引入基于知识的数据增强方法提高了大语言模型从不同国家的用户中获取文化特定知识的能力，并通过实验发现现代大语言模型表现出强大的跨语言转移能力，从而有效地减少了语言无关的微调数据，使得微调过程更加高效。基于构建的 UltraLink 数据集进行训练的 UltraLink-LM 在多个任务上优于其他代表性基线模型。

Feb, 2024

MultiFiT：高效的多语言语言模型微调

本研究提出了 Multi-lingual language model Fine-Tuning (MultiFiT) 方法，使得从未标注的数据中有效地训练和优化预训练语言模型，特别对于低资源性语言，实现了零样本跨语言模型，并在两个跨语言分类数据集中优于那些使用更多数据和计算的预训练模型。

Sep, 2019

评估低资源语言的语言模型微调技术

我们介绍了一个新的 Filipino 语言建模数据集，并展示了在低资源环境下，采用 BERT 和 ULMFiT 等语言模型微调技术，能够稳定地训练出健壮的分类器。

Jun, 2019

参数高效的鲁棒性全语种持续学习微调

研究 Continual Multilingual Learning 的问题，提出使用 parameter-efficient finetuning 更新 multilingual model 来减少语言特异性的遗忘，同时提高跨语言转移能力，通过 LAFT-URIEL pipeline 来改善支持语言的性能

Sep, 2022

利用自然语言推理构建高效的通用分类器

通过自然语言推理作为通用分类任务，利用较小的 BERT 模型训练出的通用分类器在 33 个数据集上训练，有 389 种不同类别，能在零样本和少样本学习中取得更高的性能。

Dec, 2023

自然语言理解与生成的统一语言模型预训练

本文介绍了一种新的统一预训练语言模型 (UniLM)，该模型可用于自然语言理解和生成任务，使用了三种类型的语言建模任务进行预训练，采用共享 Transformer 网络和特定的自我注意掩码来控制预测条件的上下文，其在自然语言生成方面的表现优于 BERT，最终达到了五种自然语言生成数据集的最新最优成果。

May, 2019

LIFT: 面向非语言机器学习任务的语言接口微调

本研究通过语言接口微调（LIFT）来解决非语言下游任务，而不更改模型架构或损失函数，并进行了全面的实证研究，发现在低维分类和回归任务上，LIFT 的表现与最佳基线相当，并具有归纳偏置，鲁棒性和样本复杂性。

Jun, 2022

使用统一的文本到文本 Transformer 探索迁移学习的极限

本文探讨了自然语言处理中的迁移学习技术，提出了一个统一的框架来解决所有基于文本的问题，比较了预训练目标、架构、数据集等因素对于各种语言理解任务的影响，并通过实验与新数据集达到了最先进的结果，并共享了数据集、预训练模型和代码，以促进未来的 NLP 迁移学习研究。

Oct, 2019

多种神经机器翻译的统一模型学习

本文提出了一个通用的深度神经机器翻译模型， Unified Model Learning for NMT (UMLNMT)，它能够在多种翻译任务中实现智能的即时翻译，相较于基于具体数据集训练的模型，该模型的性能有了显著的提升，部署成本也大大降低，并且在生成多样化、高质量的翻译方面表现优异。此外，作者也提供了一个关于名言警句的中英文句子翻译数据集。

May, 2023

定位潜在更新用于微调视觉语言模型

提出一种轻量级的适配器方法，通过更新预测接近观察数据点的模型以加快更新速度，并保持经典微调方法外数据的正确性，以实现在小样本学习领域中，在训练过程中看得到和看不到的类别上结果均与或优于现有技术水平。

Dec, 2022