Nov, 2023

气候变化下的骆驼: 用Tulu 2增强LM适应能力

TL;DR自从TULU [Wang et al., 2023b]的发布以来,用于指示调整的开放资源快速发展,从更好的基础模型到新的微调技术。我们测试并融入了一些这些进展到TULU中,从而产生了TULU 2,这是一套改进的TULU模型,用于推进将预训练语言模型适应到下游任务和用户偏好的理解和最佳实践。具体来说,我们发布了:(1)TULU-V2-mix,一组改进的高质量指示数据集;(2)TULU 2,针对V2混合数据集微调的LLAMA-2模型;(3)TULU 2+DPO,利用直接偏好优化(DPO)训练的TULU 2模型,包括迄今为止最大的DPO训练模型(TULU 2+DPO 70B);(4)CODE TULU 2,针对我们的V2混合数据集微调的CODE LLAMA模型,胜过CODE LLAMA及其指示调整变体CODE LLAMA-Instruct。我们从多个角度的评估结果表明,TULU 2套件在开放模型中实现了最先进的性能,并在多个基准测试中与GPT-3.5-turbo-0301的性能相匹配或超越。我们发布所有的检查点、数据、训练和评估代码,以促进将来在适应大型语言模型方面的开放努力。