探索 - 指导:通过主动探索增加领域特定指导范围
探索不依赖于封闭源模型生成高质量指令数据的替代方法,并通过整合有效的变体和两种新策略进一步提高其质量,我们的生成指令数据能够胜过依赖封闭源模型的 Alpaca 方法。希望在不使用封闭源模型的情况下能够取得更多的高质量指令数据生成进展。
Aug, 2023
本文提出了 InstructMining 用于评估指令遵循数据的质量,并使用该方法选择高质量数据进行 Fei 调。研究结果表明,使用 InstructMining 所选择的数据集表现出更优的性能。
Jul, 2023
通过整合广泛覆盖的通用模型调优方式,本研究研究了在建立专用模型方面是否有助于提高性能,结果表明广泛覆盖的任务和有限的任务特定训练数据时,整合通用模型调优可以始终提高模型性能。
Oct, 2023
基于全面的模型性能至诚态度,我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响,并通过新的 40k 人工指导的指令数据集进行了数百个模型检查点(7b 到 33b)的全面指导优化。我们的研究揭示了三个主要发现:(i)尽管数据量和参数规模直接影响模型的整体性能,但某些能力更容易受到其增加的影响,并且可以通过有限数据进行有效训练,而某些能力对这些变化高度抵抗。(ii)人工指导的数据在效率上明显优于 GPT-4 的合成数据,并且可以随着数据量增加不断提高模型性能,而合成数据则无法达到这种效果。(iii)指令数据带来了强大的跨能力泛化性,域外数据的评估结果反映了前两个观察结果。此外,我们还展示了这些发现如何指导更高效的数据构建,从而在公共基准测试中实现实际性能的提升。
Oct, 2023
本文介绍了一种高效且多功能的方法,用于从微调数据集中选择多样且高质量的指令跟踪数据。我们首先通过数据集的增强和扩展增加了更多多样性和高质量的数据,然后依次应用多样性压缩和质量压缩来筛选所需的数据集。实验结果表明,即使只有有限数量的高质量指令数据,LLMs 在自然语言理解任务和代码生成任务中仍能保持稳定的性能,特别是在某些情况下超过了在明显更大的指令数据集上训练的模型。
Dec, 2023
使用上下文学习 (ICL) 来进行数据生成,结合自我指导和山羊驼等技术可以只通过少量人工监督即可训练出强大的对话代理。本论文研究探索了将这些技术应用于更小(大约 10B-40B 参数)且具有宽松许可的语言模型,并提出了新的 ICL 方法来提高指令学习数据的质量和改进指令调优的语言模型性能。
Oct, 2023
我们构建了一个日本指令数据集,并将其应用于一个日本预训练基础模型。通过我们的指令数据集,对日本和英文现有模型进行了低秩调整(LoRA)。从定量和定性的角度评估了这些模型,结果证实了日本指令数据集的有效性。同时也指出,即使在相对较小的大语言模型中,通过指令调整也能提高下游任务的性能。我们的指令数据集、调整模型和实现代码已在网上公开提供。
Sep, 2023
近年来,指导调整已经引起了越来越多的关注,并成为增强大型语言模型(LLM)功能的关键技术。为了构建高质量的指导数据集,已经提出了许多指导处理方法,旨在实现数据数量和数据质量之间的微妙平衡。然而,由于各种指导处理方法之间存在的不一致性,社区中没有标准的开源指导处理实现框架可用,这妨碍了从业者的进一步开发和进展。为了促进指导处理的研究和开发,我们提供了 EasyInstruct,这是一个易于使用的 LLM 指导处理框架,它将指导生成、选择和提示模块化,同时考虑它们的组合和互动。EasyInstruct 已在 https URL 上公开发布,并配有一个运行中的演示应用程序,用于快速启动,并呼吁更广泛的以指导数据为中心的研究。
Feb, 2024
本文介绍了一种从庞大的非结构化语料库中提取高质量文化相关调优数据集的新型流程。通过自我生成流程识别文化概念和触发指令,并与通用指令调优数据集相结合,我们的模型展示出了较强的识别和理解区域文化细微差别的能力,从而增强了其推理能力。我们在新加坡、菲律宾和美国三个地区开展了实验,取得了高达 6% 的性能改进。我们的研究为直接从非结构化数据中提取文化指令调优集开辟了新的途径,并为未来在该领域的创新设立了先例。
May, 2024
本研究探索指令调优提高大型语言模型在信息检索任务中的能力,并引入了一个新的指令调优数据集,INTER,涵盖了查询理解、文档理解和查询 - 文档关系理解三个基本 IR 类别的 21 个任务。实证结果表明,INTER 显著提高了公开可用的 LLMs(如 LLaMA、Mistral 和 Phi)在搜索相关任务中的性能。
Jan, 2024