通过数据过滤实现文本分类的高效模型微调

Jul, 2022

通过数据过滤实现文本分类的高效模型微调

Efficient Model Finetuning for Text Classification via Data Filtering

PDF

Xu Ouyang, Shahina Mohd Azam Ansari, Felix Xiaozhu Lin, Yangfeng Ji

TL;DR本篇研究拟提高 NLP 中模型微调的效率，设计了一个过滤训练用例的算法，分为三个步骤，可以将训练用例数量降低五倍，同时并未出现明显的性能下降。

Abstract

As model finetuning is central to the modern nlp, we set to maximize its efficiency. Motivated by →

model finetuning nlp training examples algorithm efficiency

发现论文，激发创造

改进文本流中 Fine-tuning SentenceBERT 的采样方法

本研究旨在解决概念漂移的问题，探索了七种文本抽样方法对于语言模型进行精细调整并缓解性能退化的有效性。通过评估基于四种不同损失函数的 SBERT 模型的微观 F1 分数和耗时，研究发现 Softmax loss 和 Batch All Triplets loss 在文本流分类方面表现出色，且较大的样本量通常与提高的宏观 F1 分数相关联。值得注意的是，提出的 WordPieceToken 比例抽样方法显著提升了使用所识别的损失函数的性能，超过了基准结果。

Mar, 2024

适应文本分类任务中性能与效率的权衡

本文研究了不同的训练方法，使用预训练语言模型来进行文本分类。研究发现，在训练大型语言模型时，虽然标准微调和提示可以很好地运作，但是还有更有效的替代方法可以降低计算或数据成本。有趣的是，发现提示结合知识蒸馏可以同时降低计算和数据成本。

Oct, 2022

在资源匮乏环境中通过大型语言模型的微调进行文本数据增强

通过细调教师大型语言模型产生和注释的数据，可以改善较小模型的下游性能，有时只需要原始训练数据的一小部分。

Oct, 2023

Superfiltering：快速指令调整的弱到强数据过滤

通过 Superfiltering 方法，利用弱模型选择数据用于训练更大的语言模型，不仅大大提高了数据过滤速度，而且在标准基准测试中取得了更好的性能表现。

Feb, 2024

数据饮食中的 NLU: 动态数据子集选择用于 NLP 分类任务

本研究提出了一种基于动态数据修剪的方法，使用 EL2N 度量和初始微调阶段，在保持完整准确性的同时，可将数据量减少 50%~80% 以大大减少微调时间，并在 GLUE 基准测试和四个联合 NLU 数据集上展现出更好的时间 - 准确性平衡。

Jun, 2023

基于 Transformer 的语言模型的自适应微调用于命名实体识别

本次研究提出了自适应微调的替代方案，使用早期停止和自定义学习速率表来动态调整训练轮数，特别针对小型数据集，我们在命名实体识别的示例用例中表现出比现有的微调算法更好的性能、稳定性和效率。

Feb, 2022

利用自然语言监督改进视觉微调

本文通过引入一种基于文本监督的微调方法（TeS），旨在缓解预训练模型中的 bias 问题，并在 11 个下游任务上进行了验证。实验结果表明，该方法能够显著提高微调的效果。

Apr, 2023

迭代数据编程扩展文本分类语料库

该研究采用数据编程方法，使用基于邻域的弱模型来扩充文本数据集，并通过迭代的过程从大量未标记的数据中鉴别出稀疏分布的例子，并以人为中心确认这些标记数据的过程中，不断改进新的弱模型。研究结果表明，该方法可以显著提高文本分类任务的准确性。

Feb, 2020

数据过滤网络

通过构建数据过滤网络，该论文研究了大训练集上数据筛选的问题，并基于该网络构建了新的图像 - 文本数据集，为状态 - of-the-art 模型训练提供了高性能数据集，同时还释放了可从公开数据从头训练高性能数据过滤网络的新的 200 亿样本数据集，以促进数据集设计的进一步研究。

Sep, 2023

高效条件预训练用于迁移学习

提出了用于计算机视觉任务的预训练神经网络的有效过滤方法，包括图像分辨率下采样和数据子集筛选，验证结果表明这种方法明显降低了训练成本并提高了性能。

Nov, 2020