指导调优大型语言模型的实证研究

Oct, 2023

指导调优大型语言模型的实证研究

An Empirical Study of Instruction-tuning Large Language Models in Chinese

Qingyi Si, Tong Wang, Zheng Lin, Xu Zhang, Yanan Cao...

TL;DR通过深入实证研究指导调优中文语言模型，本文提供了宝贵的研究结果，有助于定制能更好地应对中文指令的大型语言模型。

Abstract

The success of chatgpt validates the potential of large language models (LLMs) in artificial general intelligence (AGI). Subsequently, the release of LLMs has sparked the open-source community's interest in

发现论文，激发创造

探究指令数据比例对大型语言模型的影响：基于实际应用案例的经验研究

本文探讨了指令调整对大型语言模型性能的影响，并在在线应用案例中通过增加不同比例的指令数据探究了模型的表现。结果表明，增加指令数据可改善某些任务的表现，但对于数学和代码等任务，增加数据规模的改善效果不明显。

Mar, 2023

探究训练数据和评估对中文指示性语言模型的影响

本研究旨在使用公开数据集结合自身汉语多轮对话中的数据进行分析，选取各种评估指标来评价各类开源聊天机器人的性能表现，并对 LLaMA 进行词汇扩展及 34 亿汉语单词的二次预训练，以期提升聊天机器人在中文领域的表现与效率，最后将模型、数据、代码进行公开发布。

Apr, 2023

中文开放指令通用程序员: 初步发布

通过多种方法适应4个子任务的内在特征，我们提出了一个项目来创建中文指令数据集，收集了约20万个中文指令调整样本，并总结了现有的英文和中文指令语料库以及新构建的中文指令语料库的潜在应用。

Apr, 2023

基于完整参数和LoRA的微调在指令遵循大型语言模型的比较研究

本研究通过实验比较全参数微调和 LoRA 微调方法，使用 LLaMA 作为基础模型，发现基础模型选择、训练数据集规模、可训练参数数量和模型训练成本都是重要因素。该实验结论可以为训练大型语言模型提供启示，特别是在中文领域，帮助研究人员找到更好的训练成本和模型性能的平衡策略。为了方便本文结果的复现，我们将公开数据集、模型和代码。

Apr, 2023

Panda LLM: 开源中文指令模型的训练数据和评估

该研究关注于通过指令调整和提供全面的性能评估来增强开源大型语言模型，探讨各种训练数据因素，如数量、质量和语言分布，如何影响用于英语和中文语言的公开高质量指令数据集训练的指令调整模型的性能，目的是通过量化分析为开源聊天模型的持续进步提供有价值的见解，我们的模型、数据和代码可供其他人使用和构建。

May, 2023

关于中国文本纠错的大型语言模型的(非)有效性

对ChatGPT进行中文文本纠错的评估，发现ChatGPT在中文文本纠错中表现出令人惊讶的性能，但也存在一些不令人满意的问题。

Jul, 2023

Okapi: 指令调整的多语言大型语言模型及基于人类反馈的强化学习

Okapi是第一个基于RLHF进行多语言指导调整的系统，引入26种不同语言的指导和回应排序数据，以促进未来多语言LLM研究的实验和发展。

Jul, 2023

大型语言模型的指导调整：一项调研

对于指令调优（IT）领域的研究进行了概述，它是增强和可控大型语言模型（LLMs）能力的关键技术。该研究系统回顾了IT的一般方法论、IT数据集的构建、IT模型的训练以及不同模态、领域和应用的应用，并分析了影响IT结果的因素（例如，指令输出的生成、指令数据集的大小等）。还审查了IT存在的潜在问题以及对其的批评，指出了现有策略的不足之处，并提出了一些有益的研究方向。

Aug, 2023

ChatGPT的一周年：开源大规模语言模型是否在迎头赶上？

2022年底，ChatGPT的发布在AI的研究和商业领域引发了巨大的风潮，通过使用监督微调和强化学习来对大型语言模型进行指令调优，它展示了模型能够回答人类提出的问题并按照广泛的任务进行指令遵循，使得大型语言模型的研究兴趣得到了极大的加强，各种新的大型语言模型层出不穷，包括很多专注于大型语言模型的初创公司。然而，尽管封闭源的大型语言模型（如OpenAI的GPT和Anthropic的Claude）通常表现出色，但开源大型语言模型的进展也非常迅速，并声称在某些任务上实现了与ChatGPT持平甚至更好的结果，这对于研究和商业都具有重要的意义。在本研究中，我们在ChatGPT发布一周年之际，全面概述了这一成就，并调查了所有开源大型语言模型声称在各项任务中达到与ChatGPT持平或更好的情况。

Nov, 2023

CIF-Bench：一个用于评估大型语言模型通用性的中文指令遵循基准

LLMs在处理中文任务方面存在限制，该研究引入了中文指令跟踪基准（CIF-Bench），评估LLMs对中文语言的零射击泛化能力，并揭示出评估偏差和性能差距问题。

Feb, 2024