COIG-CQIA：中文指导微调只需一切皆优质

Mar, 2024

COIG-CQIA：中文指导微调只需一切皆优质

COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning

Yuelin Bai, Xinrun Du, Yiming Liang, Yonggang Jin, Ziqiang Liu...

TL;DR近年来，大型语言模型在英语方面取得了显著进展，但在中文指令调整方面仍存在差距。为了缩小这一差距，本研究介绍了 COIG-CQIA，一个高质量的中文指令调整数据集，并通过训练模型和深度评估分析，提供了有关选择和开发中文指令调整数据集的宝贵见解。研究表明，在 CQIA-Subset 上训练的模型在人员评估以及知识和安全基准方面取得了有竞争力的结果。

Abstract

Recently, there have been significant advancements in large language models (LLMs), particularly focused on the English language. These advancements have enabled these LLMs to understand and execute complex instructions with unprecedented accuracy and fluency. However, despite these ad

large language models chinese instruction tuning coig-cqia dataset model behavior human assessment

发现论文，激发创造

中文开放指令通用程序员：初步发布

通过多种方法适应 4 个子任务的内在特征，我们提出了一个项目来创建中文指令数据集，收集了约 20 万个中文指令调整样本，并总结了现有的英文和中文指令语料库以及新构建的中文指令语料库的潜在应用。

Apr, 2023

指导调优大型语言模型的实证研究

通过深入实证研究指导调优中文语言模型，本文提供了宝贵的研究结果，有助于定制能更好地应对中文指令的大型语言模型。

Oct, 2023

从基础到会话：日语指导数据集和调整大型语言模型

我们构建了一个日本指令数据集，并将其应用于一个日本预训练基础模型。通过我们的指令数据集，对日本和英文现有模型进行了低秩调整（LoRA）。从定量和定性的角度评估了这些模型，结果证实了日本指令数据集的有效性。同时也指出，即使在相对较小的大语言模型中，通过指令调整也能提高下游任务的性能。我们的指令数据集、调整模型和实现代码已在网上公开提供。

Sep, 2023

Panda LLM: 开源中文指令模型的训练数据和评估

该研究关注于通过指令调整和提供全面的性能评估来增强开源大型语言模型，探讨各种训练数据因素，如数量、质量和语言分布，如何影响用于英语和中文语言的公开高质量指令数据集训练的指令调整模型的性能，目的是通过量化分析为开源聊天模型的持续进步提供有价值的见解，我们的模型、数据和代码可供其他人使用和构建。

May, 2023

CIDAR: 针对阿拉伯文的文化相关教学数据集

这篇论文介绍了 CIDAR，这是第一个由人类评论者文化对齐的开放式阿拉伯语指导调优数据集，CIDAR 拥有 10,000 个指令和输出对，代表着阿拉伯地区，实验证明 CIDAR 可以帮助将 LLMs 与阿拉伯文化相结合。

Feb, 2024

G-DIG: 面向基于梯度的多样化和高质量指导数据选择的机器翻译

我们提出了一种基于梯度的新方法，自动选择高质量和多样化的机器翻译指令微调数据。通过分析个别训练示例在训练过程中对模型的影响，我们选择对模型有益影响的示例作为高质量数据，并使用影响函数和一个小的高质量参考数据集。此外，为了提高训练数据的多样性，我们通过对梯度进行聚类和重新抽样来最大化它们对模型的影响的多样性。在 WMT22 和 FLORES 翻译任务上的大量实验证明了我们方法的优越性，深入分析进一步验证了它们的有效性和推广性。

May, 2024

指令采集：大型语言模型高质量指令数据选取

本文提出了 InstructMining 用于评估指令遵循数据的质量，并使用该方法选择高质量数据进行 Fei 调。研究结果表明，使用 InstructMining 所选择的数据集表现出更优的性能。

Jul, 2023

探究训练数据和评估对中文指示性语言模型的影响

本研究旨在使用公开数据集结合自身汉语多轮对话中的数据进行分析，选取各种评估指标来评价各类开源聊天机器人的性能表现，并对 LLaMA 进行词汇扩展及 34 亿汉语单词的二次预训练，以期提升聊天机器人在中文领域的表现与效率，最后将模型、数据、代码进行公开发布。

Apr, 2023

InstructIE：一个基于中文指令的信息提取数据集

该论文介绍了一种新的信息提取任务，名为 Instruction-based IE，旨在要求系统根据特定的指示或指南提取信息。作者从中文维基百科和高质量众包注释实例构造了一个名为 InstructIE 的数据集，并评估了各种基线模型在该数据集上的性能。结果表明，当前的模型表现出有希望的性能，但仍有改进的空间。此外，作者进行了综合案例分析，强调了 Instruction-based IE 任务中固有的挑战。

May, 2023

CBBQ：一個由人工智能協作策劃的中文偏差測試數據集，供大型語言模型使用

本文提供一个超过 10 万个问题的中文偏见基准数据集，包括与中国文化和价值观相关的 14 个社会维度中的刻板印象和社会偏见，通过广泛文献综述、生成环境、AI 辅助去歧义生成、手动审核和重组等步骤，展示了数据集的广泛覆盖和高多样性，实验表明所有 10 个公开可用的中文大型语言模型在某些类别中存在强烈的偏见。

Jun, 2023