Jul, 2024

CollectiveSFT: 利用集体指令扩展大型语言模型在中文医疗基准测试中的应用

TL;DR本研究针对中文综合医疗基准(CMB)中大型语言模型(LLM)性能提升的问题,提出了一种通过多样化和分布均匀的数据集来优化模型性能的新方法。研究发现,即便是较小的模型只要使用精心策划的多样化数据集,也能达到与大型模型相媲美的表现,强调了数据集质量和多样性在微调过程中的重要性。