异常样本微调
在本研究中,我们旨在调查专用模型需要多少标记样本才能达到优越性能,同时考虑结果方差。我们通过观察提示、上下文学习、微调和指令调整的行为,确定它们在增加不同复杂度任务的标记训练样本数量时的平衡点,发现专用模型通常只需要少量样本(100-1000)就能达到或超越通用模型。与此同时,所需的标记数据量强烈依赖于任务复杂度和结果方差。
Feb, 2024
通过添加对抗性句子来攻击阅读理解模型并测试新模型 ELECTRA-Small 的抗性,发现将模型分别在一句和五句对抗性句子上进行微调可以提高其对抗攻击的鲁棒性。
Jan, 2024
通过对小规模多样化的 fine-tune 样本进行研究,本文发现 1k-6k 个指令 fine-tuning 样本的子集足以在传统 NLP 基准测试和基于模型的评估上取得良好性能,并展示了将教科书形式和开放式问答 fine-tuning 数据集混合的优化方法。
Nov, 2023
提出了一个新的任务和数据集,旨在利用问答的形式将粗糙的文本标签提升为细粒度标签,以便在英语新闻文本中识别示威活动的实际人数,并通过零样本学习,微调和弱监督等多个模型进行了评估。
May, 2021
通过降采样、明确筛选稀有词以及使用基于困惑度的对比筛选等简单的策略,结合生产语音引擎,利用语言模型融合技术,相对于使用原始语料训练出的语言模型,使智能语音助手能够更好地辨别听众说出的稀有词而不影响总体识别准确率,并在实时语音搜索流量中得到了有利的侧面对比评估结果。
Mar, 2022
使用无标签开放数据进行预精调预训练语言模型以最小化领域特定数据需求,并在达到预期性能水平的同时选择数据以将预训练分布推向目标分布的优化方法,展示了该方法在各种任务中的优越性和快速性,为经济高效的微调奠定了基础。
May, 2024
该研究通过对 GLUE 基准测试中的四个数据集进行 BERT 的微调,发现同样参数下,不同的随机种子会导致非常不同的结果表现,并且在权重初始化和训练数据排序的两个方面探究其对结果的影响。此外,该研究对微调方法的实现提出了最佳实践,并公开其所有实验数据以供更深入的分析。
Feb, 2020
此研究旨在通过使用预先训练的模型来提高语音模型的泛化能力,将说话者自适应视为少样本学习问题,并将 Wav2Vec2.0 在每个多类情感语音识别语料库的四个排列上进行预先微调,并通过 33,600 个 few-shot 微调试验在情感语音数据集上评估模型。
Feb, 2023
本研究利用基于 BERT 模型的嵌入方法,采用主动学习的方式收集训练数据,创造了更加平衡和信息量更丰富的负例样本,有效提高了 QQP 和 WikiQA 测试数据的平均准确率。
Oct, 2020