Feb, 2024

UltraLink:一种开源的知识增强的多语言监督微调数据集

TL;DR本研究构建了一个开源的多语言监督微调数据集,通过引入基于知识的数据增强方法提高了大语言模型从不同国家的用户中获取文化特定知识的能力,并通过实验发现现代大语言模型表现出强大的跨语言转移能力,从而有效地减少了语言无关的微调数据,使得微调过程更加高效。基于构建的UltraLink数据集进行训练的UltraLink-LM在多个任务上优于其他代表性基线模型。