AlpaGasus: 用更少的数据训练更好的羊驼

Jul, 2023

AlpaGasus: 用更少的数据训练更好的羊驼

AlpaGasus: Training A Better Alpaca with Fewer Data

Lichang Chen, Shiyang Li, Jun Yan, Hai Wang, Kalpa Gunaratna...

TL;DR本研究提出了一种数据选取策略，利用一个强大的大型语言模型（ChatGPT）自动地识别和删除低质量的数据，从而过滤出高质量的数据并训练指令跟随模型。通过使用该策略，作者利用仅有的 9k 条高质量数据训练出了一个新的大型语言模型 AlpaGasus，相比于 Alpaca 的 52k 数据集，在多个测试集上获得了更好的表现。同时，AlpaGasus 提供了 5.7 倍更快的训练速度，训练时间从 Alpaca 的 80 分钟减少到了 14 分钟。该方法展示了一种数据中心的指令跟随模型训练范式，可广泛应用于指令调整数据，提高训练效率和准确率。

Abstract

large language models~(LLMs) obtain instruction-following capability through instruction-finetuning (IFT) on supervised instruction/response data. However, widely used IFT datasets (e.g., Alpaca's 52k data) surpr

large language models instruction-finetuning data selection alpagasus instruction-following models

发现论文，激发创造

用于中文 LLaMA 和 Alpaca 的高效有效文本编码

本研究旨在通过在大规模语言模型的基础上加强中文语义理解能力来解决其部署困难和开放性挑战，提出了 LLaMA 和 Alpaca 大规模语言模型，通过在中文数据集上进行预训练和指令微调，使其可以更好地执行指令，并通过 GitHub 开源该项目，为开放研究提供了基础资源。

Apr, 2023

对齐更长时间：一种简单但难以打败的教学微调基准

在对指令微调的研究中，最长指令的选择应该是任何研究的默认基线，因为经证实此方法能够在 LLMs 中提高性能，保持与对事实的知识进行测试的 OpenLLM 基准的竞争力。

Feb, 2024

为越南聊天机器人高效微调大型语言模型

通过利用开源项目中的大规模指令遵循数据集，我们采用参数高效调整方法对两个开放许可的大语言模型 (Bloomz 和 GPTJ) 进行了调整，使其在越南语上取得了显著的性能提升，并通过自动评分机制证明我们的方法相对于原始模型在评估任务上的效果提升了约 20-30%。

Sep, 2023

通过在线文本数据利用大型语言模型预测心理健康

我们在这项工作中，首次对多种大语言模型（LLMs）进行了全面评估，包括 Alpaca、Alpaca-LoRA 和 GPT-3.5，针对在线文本数据中的各种心理健康预测任务。我们进行了广泛的实验，涵盖了零样本提示、少样本提示和指令微调。研究结果表明，对于心理健康任务，LLMs 在零样本和少样本提示设计上具有有限但有希望的性能。更重要的是，我们的实验表明，指令微调可以显著提升 LLMs 在所有任务上的表现。我们最佳微调模型 Mental-Alpaca 在平衡精度上比 GPT-3.5（规模大 25 倍）高出 16.7％，并与最先进的任务特定模型相媲美。我们总结了一系列行动指南，供未来的研究人员、工程师和实践者参考，介绍如何赋予 LLMs 更好的心理健康领域知识，并成为心理健康预测任务的专家。

Jul, 2023

SelectIT: 基于不确定性感知的选择性指导调整大型语言模型的方法

使用 SelectIT 自动选择高质量的指令调优数据，并应用于选择性 Alpaca-GPT4 数据集，提高模型性能。

Feb, 2024

AlpacaFarm：从人类反馈中学习的方法的仿真框架

本文介绍 AlpacaFarm，一个低成本的模拟器，旨在帮助研究人员开发和了解从反馈学习的复杂工作流程。经过验证，AlpacaFarm 提供的人工反馈模拟与真实人类反馈具有高度一致性，且利用其提供的多种学习方法（如 PPO）可以取得较大的学习改善，优于传统的监督微调。

May, 2023

使用 GPT-4 进行指令调优

本文利用 GPT-4 生成的 instruction-following 数据进行大型语言模型 finetuning，发现相较于之前最先进模型生成的数据，52K 的英文和中文 instruction-following 数据可以显着提高新任务的零 - shot 性能。同时我们公开了 GPT-4 生成的数据以及我们的代码库。

Apr, 2023

COCO 是视觉指导微调所需的全部

利用 COOC 数据集和更多多样化指令建立了新的多模态大语言模型指令细调数据集，实验证明用该数据集进行的细调在单轮和多轮对话设置中，在开放式评估基准上能够获得更好的性能。

Jan, 2024

构建联邦 GPT: 联邦指导调优

本文提出了一种基于联邦学习的指令调整方法，名为 FedIT，它可以利用客户端上存储的异构和多样化指令，保护隐私和确保数据安全，提高了 LLM 的性能，同时在 GitHub 上开发了名为 Shepherd 的基础框架，提供了探索异构指令下的联邦微调 LLM 的支持。

May, 2023

应用于临床和生物医学任务的指导微调大型语言模型的零样本和少样本研究

评估四个最先进的面向指令的大型语言模型（ChatGPT、Flan-T5 UL2、Tk-Instruct 和 Alpaca）在 13 项真实世界的临床和生物医学自然语言处理（NLP）任务，如命名实体识别（NER）、问答（QA）、关系抽取（RE）等方面的表现。总体结果表明，评估的语言模型在大多数任务的零样本和少样本场景中已经接近最先进模型的性能，尤其在 QA 任务中表现出色，即使它们之前从未见过这些任务的示例。然而，我们观察到分类和 RE 任务的性能低于专门训练用于医学领域的模型（如 PubMedBERT）所能达到的水平。最后，我们注意到没有一个语言模型在所有研究任务中都胜过其他模型，某些模型在特定任务中更适合。

Jul, 2023