Kun: 中文自对齐指导下的答案优化

Jan, 2024

Kun: 中文自对齐指导下的答案优化

Kun: Answer Polishment for Chinese Self-Alignment with Instruction Back-Translation

Tianyu Zheng, Shuyue Guo, Xingwei Qu, Jiawei Guo, Weixu Zhang...

TL;DR采用自我训练算法通过自给自足的方式生成高质量的指令调整数据集，为大规模语言模型的指令追踪能力提供一种可扩展和高效的解决方案。

Abstract

In this paper, we introduce Kun, a novel approach for creating high-quality instruction-tuning datasets for large language models (LLMs) without relying on manual annotations. Adapting a →

instruction-tuning datasets language models self-training algorithm instruction-output pairs data generation approach

发现论文，激发创造

Panda LLM: 开源中文指令模型的训练数据和评估

该研究关注于通过指令调整和提供全面的性能评估来增强开源大型语言模型，探讨各种训练数据因素，如数量、质量和语言分布，如何影响用于英语和中文语言的公开高质量指令数据集训练的指令调整模型的性能，目的是通过量化分析为开源聊天模型的持续进步提供有价值的见解，我们的模型、数据和代码可供其他人使用和构建。

May, 2023

指导反向翻译的自对齐

我们提出了一种可扩展的方法，通过自动标记人工编写的文本与相应的指令来构建高质量的指令跟随语言模型。我们的方法命名为指令反向翻译，使用少量种子数据和给定的网络语料库对语言模型进行微调，通过为网络文档生成指令提示来构建训练样本（自助增强），然后从这些候选样本中选择高质量的例子（自我策划）。然后使用这些数据对模型进行微调。对 LLaMa 进行两次迭代的微调可以得到一个模型，它在 Alpaca 排行榜上性能优于其他基于 LLaMa 的模型，并且不依赖蒸馏数据，展示了高度有效的自我对齐。

Aug, 2023

中文开放指令通用程序员：初步发布

通过多种方法适应 4 个子任务的内在特征，我们提出了一个项目来创建中文指令数据集，收集了约 20 万个中文指令调整样本，并总结了现有的英文和中文指令语料库以及新构建的中文指令语料库的潜在应用。

Apr, 2023

指导调优大型语言模型的实证研究

通过深入实证研究指导调优中文语言模型，本文提供了宝贵的研究结果，有助于定制能更好地应对中文指令的大型语言模型。

Oct, 2023

自问自答：无监督知识引导的语言模型对齐

本文介绍了一种称为 Self-QA 的创新框架，利用大量无监督知识代替传统的人工撰写指导文件种子，从而生成更多正确和特定于领域的指导数据，以克服创建用于指导调整的监督配对问答数据所面临的挑战。

May, 2023

开源 LLM 指令调整的自动指令优化

通过自动修订样本来增强指令数据集的质量，CoachLM 训练自人工专家修订过的样本，并将数据集中高质量样本的比例从 17.7％提高到 78.9％。CoachLM 通过平均 29.9％的提升改善了指令调优的语言学习模型的指令跟随能力，并在华为的 LLM 数据管理系统中实现了高达 20％的效率提升。

Nov, 2023

从基础到会话：日语指导数据集和调整大型语言模型

我们构建了一个日本指令数据集，并将其应用于一个日本预训练基础模型。通过我们的指令数据集，对日本和英文现有模型进行了低秩调整（LoRA）。从定量和定性的角度评估了这些模型，结果证实了日本指令数据集的有效性。同时也指出，即使在相对较小的大语言模型中，通过指令调整也能提高下游任务的性能。我们的指令数据集、调整模型和实现代码已在网上公开提供。

Sep, 2023

COIG-CQIA：中文指导微调只需一切皆优质

近年来，大型语言模型在英语方面取得了显著进展，但在中文指令调整方面仍存在差距。为了缩小这一差距，本研究介绍了 COIG-CQIA，一个高质量的中文指令调整数据集，并通过训练模型和深度评估分析，提供了有关选择和开发中文指令调整数据集的宝贵见解。研究表明，在 CQIA-Subset 上训练的模型在人员评估以及知识和安全基准方面取得了有竞争力的结果。

Mar, 2024

最小人工投入快速开发大型语言模型的高质量指导数据和评估基准：以日语为例的案例研究

我们提出了基于 GPT-4 的高效自指导方法，通过翻译少量英语指令并进行修订，为日语构建高质量的指令数据和评估基准，并证明使用我们的 GPT-4 自指导数据进行微调的模型在所有三个基本预训练模型上表现明显优于 Japanese-Alpaca。

Mar, 2024

PandaLM：LLM 指导调优优化的自动评估基准

通过引入一种名为 PandaLM 的大型语言模型来更公平地评估大型语言模型，该模型不依赖于基于 API 的评估，能够相对简要地比对大量 GPT 系列模型的效果，从而实现了最优超参数选择的自动化、健壮和可靠评估基准的确定。

Jun, 2023