Nov, 2023

LIMIT: 指令调整跨评估范式中的越少越好

TL;DR通过对小规模多样化的 fine-tune 样本进行研究,本文发现 1k-6k 个指令 fine-tuning 样本的子集足以在传统 NLP 基准测试和基于模型的评估上取得良好性能,并展示了将教科书形式和开放式问答 fine-tuning 数据集混合的优化方法。