中文开放指令通用程序员:初步发布
通过整合广泛覆盖的通用模型调优方式,本研究研究了在建立专用模型方面是否有助于提高性能,结果表明广泛覆盖的任务和有限的任务特定训练数据时,整合通用模型调优可以始终提高模型性能。
Oct, 2023
近年来,大型语言模型在英语方面取得了显著进展,但在中文指令调整方面仍存在差距。为了缩小这一差距,本研究介绍了 COIG-CQIA,一个高质量的中文指令调整数据集,并通过训练模型和深度评估分析,提供了有关选择和开发中文指令调整数据集的宝贵见解。研究表明,在 CQIA-Subset 上训练的模型在人员评估以及知识和安全基准方面取得了有竞争力的结果。
Mar, 2024
通过对多种印欧语言中的大规模语言模型进行多语言指令调整数据集上的广泛研究,我们发现使用平行指令调整数据集相比单语数据集能提高跨语言指令遵循能力,还发现大规模指令调整数据集对于多语言 7B 参数模型至关重要,并进行人工注释研究以理解多语言聊天场景中基于人类和 GPT-4 的评价之间的对齐情况。
Feb, 2024
我们构建了一个日本指令数据集,并将其应用于一个日本预训练基础模型。通过我们的指令数据集,对日本和英文现有模型进行了低秩调整(LoRA)。从定量和定性的角度评估了这些模型,结果证实了日本指令数据集的有效性。同时也指出,即使在相对较小的大语言模型中,通过指令调整也能提高下游任务的性能。我们的指令数据集、调整模型和实现代码已在网上公开提供。
Sep, 2023
通过在图像文本对上进行预训练和在受监督的视觉语言指导数据上进行微调的两阶段训练,多模态大型语言模型实现了其遵循指令的能力。本文介绍了 InstructionGPT-4,该模型在仅包括 200 个示例的小数据集上进行了微调,相当于 MiniGPT-4 对齐数据集中使用的指令遵循数据的约 6%。我们首先提出了几个用于评估多模态指令数据质量的度量标准。基于这些度量标准,我们提出了一种简单而有效的数据选择器,用于自动识别和过滤低质量的视觉语言数据。采用这种方法,InstructionGPT-4 在各种评估(如视觉问答、GPT-4 偏好)上的表现优于原始的 MiniGPT-4。总的来说,我们的研究结果表明,较少但高质量的微调数据能够有效地提高多模态大型语言模型的输出质量。
Aug, 2023
本文利用 GPT-4 生成的 instruction-following 数据进行大型语言模型 finetuning,发现相较于之前最先进模型生成的数据,52K 的英文和中文 instruction-following 数据可以显着提高新任务的零 - shot 性能。同时我们公开了 GPT-4 生成的数据以及我们的代码库。
Apr, 2023
该研究关注于通过指令调整和提供全面的性能评估来增强开源大型语言模型,探讨各种训练数据因素,如数量、质量和语言分布,如何影响用于英语和中文语言的公开高质量指令数据集训练的指令调整模型的性能,目的是通过量化分析为开源聊天模型的持续进步提供有价值的见解,我们的模型、数据和代码可供其他人使用和构建。
May, 2023
通过跨语言调整指令和数据获取方法,研究表明对未知任务的指令调优在英文和韩文方面都取得了显著的改善效果,与单语指令调优相当甚至有些任务超过,强调了在指令调优过程中通过跨语言数据获取的相关性和语言一致性的重要性。
Jun, 2024
在自然语言处理(NLP)领域中,基于 GPT 模型在金融领域的潜力日益显现。然而,将这些模型与金融数据集结合存在一些挑战,特别是在确定它们的熟练程度和相关性方面。本文介绍了一种独特的方法,该方法以指令调整范式为基础,专门适用于金融环境中的开源大型语言模型。通过这种方法,我们充分利用开源模型的互操作性,确保了无缝透明的集成。我们首先解释了指令调整范式,强调其对即时集成的有效性。本文提出了一个基准测试方案,用于端到端的训练和测试,采用一种经济有效的进展方式。首先,我们评估了基本能力和基本任务,例如命名实体识别(NER)和情感分析,以增强特性。接下来,我们深入研究了一个全面的模型,通过汇集所有指令调整来执行多任务操作,以检验其多样性。最后,我们通过标记未见任务并结合新颖的数据集探索了零样本能力,以了解在未知领域的适应性。这样的范式巩固了开放性和可重现性的原则,为未来在开源金融大型语言模型(FinLLMs)中的研究奠定了坚实的基础。
Oct, 2023