通用语言模型微调用于文本分类
本研究构建了一个开源的多语言监督微调数据集,通过引入基于知识的数据增强方法提高了大语言模型从不同国家的用户中获取文化特定知识的能力,并通过实验发现现代大语言模型表现出强大的跨语言转移能力,从而有效地减少了语言无关的微调数据,使得微调过程更加高效。基于构建的 UltraLink 数据集进行训练的 UltraLink-LM 在多个任务上优于其他代表性基线模型。
Feb, 2024
本研究提出了 Multi-lingual language model Fine-Tuning (MultiFiT) 方法,使得从未标注的数据中有效地训练和优化预训练语言模型,特别对于低资源性语言,实现了零样本跨语言模型,并在两个跨语言分类数据集中优于那些使用更多数据和计算的预训练模型。
Sep, 2019
我们介绍了一个新的 Filipino 语言建模数据集,并展示了在低资源环境下,采用 BERT 和 ULMFiT 等语言模型微调技术,能够稳定地训练出健壮的分类器。
Jun, 2019
研究 Continual Multilingual Learning 的问题,提出使用 parameter-efficient finetuning 更新 multilingual model 来减少语言特异性的遗忘,同时提高跨语言转移能力,通过 LAFT-URIEL pipeline 来改善支持语言的性能
Sep, 2022
通过自然语言推理作为通用分类任务,利用较小的 BERT 模型训练出的通用分类器在 33 个数据集上训练,有 389 种不同类别,能在零样本和少样本学习中取得更高的性能。
Dec, 2023
本文介绍了一种新的统一预训练语言模型 (UniLM),该模型可用于自然语言理解和生成任务,使用了三种类型的语言建模任务进行预训练,采用共享 Transformer 网络和特定的自我注意掩码来控制预测条件的上下文,其在自然语言生成方面的表现优于 BERT,最终达到了五种自然语言生成数据集的最新最优成果。
May, 2019
本研究通过语言接口微调(LIFT)来解决非语言下游任务,而不更改模型架构或损失函数,并进行了全面的实证研究,发现在低维分类和回归任务上,LIFT 的表现与最佳基线相当,并具有归纳偏置,鲁棒性和样本复杂性。
Jun, 2022
本文探讨了自然语言处理中的迁移学习技术,提出了一个统一的框架来解决所有基于文本的问题,比较了预训练目标、架构、数据集等因素对于各种语言理解任务的影响,并通过实验与新数据集达到了最先进的结果,并共享了数据集、预训练模型和代码,以促进未来的 NLP 迁移学习研究。
Oct, 2019
本文提出了一个通用的深度神经机器翻译模型, Unified Model Learning for NMT (UMLNMT),它能够在多种翻译任务中实现智能的即时翻译,相较于基于具体数据集训练的模型,该模型的性能有了显著的提升,部署成本也大大降低,并且在生成多样化、高质量的翻译方面表现优异。此外,作者也提供了一个关于名言警句的中英文句子翻译数据集。
May, 2023
提出一种轻量级的适配器方法,通过更新预测接近观察数据点的模型以加快更新速度,并保持经典微调方法外数据的正确性,以实现在小样本学习领域中,在训练过程中看得到和看不到的类别上结果均与或优于现有技术水平。
Dec, 2022