instruction datasets | BriefGPT

关键词instruction datasets

搜索结果 - 5

EasyInstruct：大型语言模型简单易用的指令处理框架
近年来，指导调整已经引起了越来越多的关注，并成为增强大型语言模型（LLM）功能的关键技术。为了构建高质量的指导数据集，已经提出了许多指导处理方法，旨在实现数据数量和数据质量之间的微妙平衡。然而，由于各种指导处理方法之间存在的不一致性，社区中
PDF5 months ago
LLM 指导调优的数据选择调查
通过介绍使用的指导数据集，提出了数据选择方法的新分类，并详细介绍了最近的研究进展、评估策略和结果，强调了这一任务的挑战和新的前沿。
PDF5 months ago
大语言模型标注资源节约的有监督微调实验设计框架
我们提出使用实验设计来缓解 SFT 的标注成本，并避免在 LLM 的背景下应用主动学习的计算瓶颈。我们的方法在生成任务中实现了与随机抽样所需注释成本相同的泛化性能，仅需 50% 的注释成本。
PDF6 months ago
开源 LLM 指令调整的自动指令优化
通过自动修订样本来增强指令数据集的质量，CoachLM 训练自人工专家修订过的样本，并将数据集中高质量样本的比例从 17.7％提高到 78.9％。CoachLM 通过平均 29.9％的提升改善了指令调优的语言学习模型的指令跟随能力，并在华为
PDF7 months ago
NEFTune: 噪声嵌入改善指令微调
使用简单的增强方法 NEFTune，对语言模型进行细调可以显著提高性能，在 AlpacaEval 测试中，LLaMA-2-7B 的标准细调结果为 29.79%，而使用带有噪声的嵌入向量增强后提高至 64.69%。NEFTune 还在现代指令
PDF9 months ago