指令标记:用于多样性和复杂性分析的标记技术
该研究探索了指令调整语言模型的最新进展,并在一系列开放式指令遵循数据集上进行了评估,提出了一种具有实际应用价值的指令调整数据集,为未来的研究工作提供了帮助。
Jun, 2023
本文提出了InstructMining用于评估指令遵循数据的质量,并使用该方法选择高质量数据进行Fei调。研究结果表明,使用InstructMining所选择的数据集表现出更优的性能。
Jul, 2023
通过引入自我演变机制DiverseEvol,我们提出了一种标签高效的指令调整方法,该方法允许模型自己主动采样同样或更有效的子集来改善自身性能,而无需人类干预或更先进的LLMs。在选择子集时,我们的数据采样技术的关键在于增强所选子集的多样性,使模型根据当前的嵌入空间选择与任何现有数据点都不同的新数据点。在三个数据集和基准测试中进行的大量实验证明了DiverseEvol的有效性。我们的模型在原始数据集的不到8%的训练基础上,与在完整数据上进行微调相比,性能保持或提高。我们还提供实证证据分析了多样性在指令数据中的重要性以及迭代方案与一次性采样的区别。我们的代码可以在此https URL公开获取。
Nov, 2023
通过对小规模多样化的fine-tune样本进行研究,本文发现1k-6k个指令fine-tuning样本的子集足以在传统NLP基准测试和基于模型的评估上取得良好性能,并展示了将教科书形式和开放式问答fine-tuning数据集混合的优化方法。
Nov, 2023
本文介绍了一种高效且多功能的方法,用于从微调数据集中选择多样且高质量的指令跟踪数据。我们首先通过数据集的增强和扩展增加了更多多样性和高质量的数据,然后依次应用多样性压缩和质量压缩来筛选所需的数据集。实验结果表明,即使只有有限数量的高质量指令数据,LLMs在自然语言理解任务和代码生成任务中仍能保持稳定的性能,特别是在某些情况下超过了在明显更大的指令数据集上训练的模型。
Dec, 2023
我们提出使用实验设计来缓解SFT的标注成本,并避免在LLM的背景下应用主动学习的计算瓶颈。我们的方法在生成任务中实现了与随机抽样所需注释成本相同的泛化性能,仅需50%的注释成本。
Jan, 2024
本研究针对英语语言数据集的局限性,通过与全球流利的语言使用者合作,建立了覆盖65种语言的人工策划指令跟随数据集,并通过模板和翻译现有数据集创建了迄今最广泛的多语言数据集,共包含5.13亿个实例。此外,我们还提供Aya注释平台、Aya数据集、Aya集合和Aya评估套件等四个关键资源,而且Aya倡议还是一项有价值的参与性研究案例,涉及来自119个国家的合作者,我们认为此为未来旨在弥补资源差距的研究合作提供了宝贵的框架。
Feb, 2024
本研究提出Instruct-SkillMix,这是一种自动化的方法,用于创建多样化、高质量的监督微调(SFT)数据。研究表明,使用该管道生成的数据能显著提高指令跟随的性能,能够在多个基准测试中与领先模型竞争,填补了以往开放指令调优数据集难以获取的空白。
Aug, 2024
本研究解决了高质量SFT数据生成方面的不足,提出了一种自动化的Instruct-SkillMix管道,通过两个阶段利用强大的大型语言模型提取技能并生成数据。研究表明,该方法在指令跟随基准测试上显著提升了性能,并具有灵活适应其他应用场景的潜力。
Aug, 2024