异常样本微调

Apr, 2023

Fine Tuning with Abnormal Examples

Will Rieger

TL;DR本研究介绍了一种系统的数据集修剪方法，通过测量语句间的距离和词频分布的协变距离，筛选出 10500 个有效的样本，经过微调 ELECTRA 的训练可达到比使用全部 87000 个样本训练的模型更好的性能。

Abstract

Given the prevalence of crowd sourced labor in creating Natural Language processing datasets, these aforementioned sets have become increasingly large. For instance, the SQUAD dataset currently sits at over 80,000 records. However, because the English language is rather repetitive in s

crowdsourcing natural language processing dataset fine-tuning performance

发现论文，激发创造

微调、提示、上下文学习和指导微调：我们需要多少标记样本？

在本研究中，我们旨在调查专用模型需要多少标记样本才能达到优越性能，同时考虑结果方差。我们通过观察提示、上下文学习、微调和指令调整的行为，确定它们在增加不同复杂度任务的标记训练样本数量时的平衡点，发现专用模型通常只需要少量样本（100-1000）就能达到或超越通用模型。与此同时，所需的标记数据量强烈依赖于任务复杂度和结果方差。

Feb, 2024

数字之力：通过每个示例使用四个对抗句进行微调的强大阅读理解

通过添加对抗性句子来攻击阅读理解模型并测试新模型 ELECTRA-Small 的抗性，发现将模型分别在一句和五句对抗性句子上进行微调可以提高其对抗攻击的鲁棒性。

Jan, 2024

LIMIT: 指令调整跨评估范式中的越少越好

通过对小规模多样化的 fine-tune 样本进行研究，本文发现 1k-6k 个指令 fine-tuning 样本的子集足以在传统 NLP 基准测试和基于模型的评估上取得良好性能，并展示了将教科书形式和开放式问答 fine-tuning 数据集混合的优化方法。

Nov, 2023

少样本上采样用于抗议规模检测

提出了一个新的任务和数据集，旨在利用问答的形式将粗糙的文本标签提升为细粒度标签，以便在英语新闻文本中识别示威活动的实际人数，并通过零样本学习，微调和弱监督等多个模型进行了评估。

May, 2021

大规模语言模型词表筛选在低频词语音识别中的应用

通过降采样、明确筛选稀有词以及使用基于困惑度的对比筛选等简单的策略，结合生产语音引擎，利用语言模型融合技术，相对于使用原始语料训练出的语言模型，使智能语音助手能够更好地辨别听众说出的稀有词而不影响总体识别准确率，并在实时语音搜索流量中得到了有利的侧面对比评估结果。

Mar, 2022

從原則出發的數據選擇，為 LLMs 的預熱微調提供更多、花費更少

使用无标签开放数据进行预精调预训练语言模型以最小化领域特定数据需求，并在达到预期性能水平的同时选择数据以将预训练分布推向目标分布的优化方法，展示了该方法在各种任务中的优越性和快速性，为经济高效的微调奠定了基础。

May, 2024

微调预训练语言模型：权重初始化，数据排序和早期停止

该研究通过对 GLUE 基准测试中的四个数据集进行 BERT 的微调，发现同样参数下，不同的随机种子会导致非常不同的结果表现，并且在权重初始化和训练数据排序的两个方面探究其对结果的影响。此外，该研究对微调方法的实现提出了最佳实践，并公开其所有实验数据以供更深入的分析。

Feb, 2020

为少样本情感语音识别进行预微调

此研究旨在通过使用预先训练的模型来提高语音模型的泛化能力，将说话者自适应视为少样本学习问题，并将 Wav2Vec2.0 在每个多类情感语音识别语料库的四个排列上进行预先微调，并通过 33,600 个 few-shot 微调试验在情感语音数据集上评估模型。

Feb, 2023

大型语言模型的性能误区揭秘：微调与失败？

研究探讨了大型语言模型在细调、提取上下文数据和性能增强方面的影响，以及它们在多个领域的应用情况，并指出了细调模型在特定任务中性能下降的问题。

Jun, 2024

论极度不平衡的成对任务自适应数据收集的重要性

本研究利用基于 BERT 模型的嵌入方法，采用主动学习的方式收集训练数据，创造了更加平衡和信息量更丰富的负例样本，有效提高了 QQP 和 WikiQA 测试数据的平均准确率。

Oct, 2020