大语言模型标注资源节约的有监督微调实验设计框架

Jan, 2024

大语言模型标注资源节约的有监督微调实验设计框架

An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models

Gantavya Bhatt, Yifang Chen, Arnav M. Das, Jifan Zhang, Sang T. Truong...

TL;DR我们提出使用实验设计来缓解 SFT 的标注成本，并避免在 LLM 的背景下应用主动学习的计算瓶颈。我们的方法在生成任务中实现了与随机抽样所需注释成本相同的泛化性能，仅需 50% 的注释成本。

Abstract

supervised finetuning (SFT) on instruction datasets has played a crucial role in achieving the remarkable zero-shot generalization capabil

supervised finetuning instruction datasets zero-shot generalization active learning experimental design

发现论文，激发创造

主动微调：在预训练 - 微调模式中利用注释预算

该研究提出了一种新的主动微调任务，在预训练 - 微调范式下注重选择注释样本，通过优化连续空间中的参数模型来选择类似于整个未标记池的数据子集并保持足够的多样性，实验证明了该方法在计算机视觉任务上具有领先的性能和高效率。

Mar, 2023

STAR：基于动态主动学习的约束式纵横比用于大型语言模型的高效微调

通过结合基于不确定性的主动学习和 LoRA，本论文提出了一种新的方法，动态度量不确定性缺口且在 LoRA 训练中引入正则化方法，这种方法在三个复杂推理任务上优于现有的基线模型。

Mar, 2024

利用混合自然语言反馈对语言模型进行微调的 LaFFi

该论文介绍了一种名为自然语言反馈微调 LLM（LaFFi）的替代方法，通过要求 LLM 直接预测从评注者那里得到的反馈，显著提高了领域内问答任务的准确性，为自然语言反馈在 SFT LLMs 领域的应用提供了一个有前途的方向。

Dec, 2023

FreeAL：大语言模型时代的无人主动学习

在大型语言模型时代，我们提出了创新的协作学习框架 FreeAL，通过与 LLMs 交互式提取和过滤任务特定知识，显著提高了 SLM 和 LLM 的零样本性能，无需人工监督。

Nov, 2023

反思有监督微调的数据选择

通过选择具有长回应的实例，我们重新考虑了监督微调的数据选择直觉，提出了关于反映人类交互而非数据质量或多样性的关键示范的重要性，这种简单的启发式方法暗含了人性化对话的一个关键方面。

Feb, 2024

计算高效的主动学习

通过简单而有效的方法不仅可以降低主动学习过程的计算成本，还能保持模型性能，从而优化大规模数据集的标注效率。

Jan, 2024

LoBaSS：衡量监督微调数据的可学习性

利用数据的可学习性作为选择模型数据的主要标准，研究通过引入损失为基础的 SFT 数据选择方法（LoBaSS）来确保数据选择与模型能力的匹配，从而提高对话和数学领域的模型能力。LoBaSS 方法在仅使用总训练数据的 6% 的情况下，超过全数据微调方法，在使用 16.7% 的数据时，能够协调模型在对话和数学领域的能力，验证其有效性和适应性。

Oct, 2023

自我演进的策略优化微调

本研究在大型语言模型（LLMs）对齐方面引入自我演进微调（SEFT），旨在消除对注释样本的需求，同时保持 SFT 的稳定性和效率。通过 SEFT，模型能利用大量未标志的数据进行策略优化。实验结果表明 SEFT 的有效性，并对其相对于现有对齐技术的优势进行了全面分析。

Jun, 2024

主动测试：高效模型评估

本文介绍了一种新的样本效率模型评估框架 —— 主动测试，通过精心选择要标记的测试点，以充分利用样本，解决了现有文献大都忽略了标记测试数据的成本，从而导致模型评估与实际应用的脱节的问题，在理论上建立了基于目标的获取策略并做了进一步的改进，以消除引入的偏差并在相同时间内降低估计方差。

Mar, 2021

大语言模型上下文学习的主动学习原则

本文旨在探讨如何使用主动学习算法作为选择最佳演示文稿的方法来服务于上下文学习，对比了基于不确定性、多样性和相似性等各种标准的演示文稿选择算法，并表明相似性算法胜过其他所有方法，包括随机抽样和不确定性抽样。

May, 2023