改进文本流中 Fine-tuning SentenceBERT 的采样方法

Mar, 2024

改进文本流中 Fine-tuning SentenceBERT 的采样方法

Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams

Cristiano Mesquita Garcia, Alessandro Lameiras Koerich, Alceu de Souza Britto Jr, Jean Paul Barddal

TL;DR本研究旨在解决概念漂移的问题，探索了七种文本抽样方法对于语言模型进行精细调整并缓解性能退化的有效性。通过评估基于四种不同损失函数的 SBERT 模型的微观 F1 分数和耗时，研究发现 Softmax loss 和 Batch All Triplets loss 在文本流分类方面表现出色，且较大的样本量通常与提高的宏观 F1 分数相关联。值得注意的是，提出的 WordPieceToken 比例抽样方法显著提升了使用所识别的损失函数的性能，超过了基准结果。

Abstract

The proliferation of textual data on the Internet presents a unique opportunity for institutions and companies to monitor public opinion about their services and products. Given the rapid generation of such data, the text stream mining setting, which handles sequentially arriving, potentially infinite text streams, is often more suitable than traditional bat

text stream mining language models concept drift text sampling methods sbert model

发现论文，激发创造

文本流挖掘中的概念漂移适应性：综述

这篇论文对文本流场景中的概念漂移适应进行了系统的文献综述，包括文本漂移类别、文本漂移检测类型、模型更新机制、流式挖掘任务、文本表示类型以及文本表示更新机制，并讨论了漂移可视化和模拟，列举了所选论文中使用的真实世界数据集。

Dec, 2023

生成文本流中的漂移方法

本文提供了四种文本漂移生成方法，以便生成带有标记漂移的数据集，并使用增量分类器测试它们恢复漂移的能力。结果表明，所有方法在漂移后性能都有所下降，增量支持向量机在准确性和宏 F1 得分方面运行速度最快，恢复了之前的性能水平。

Mar, 2024

通过数据过滤实现文本分类的高效模型微调

本篇研究拟提高 NLP 中模型微调的效率，设计了一个过滤训练用例的算法，分为三个步骤，可以将训练用例数量降低五倍，同时并未出现明显的性能下降。

Jul, 2022

重新审视少样本 BERT 微调

本文研究了 BERT 上下文表示的微调，重点关注少样本场景中常见的不稳定性，我们确定了引起这种不稳定性的几个因素，包括使用非标准优化方法、BERT 网络的显著部分在下游任务中的有限适用性以及使用预先确定的训练迭代次数的普遍做法。在这些观察的基础上，我们重新审视了最近提出的改善 BERT 少样本微调的方法，并重新评估了它们的有效性。通常情况下，我们观察到这些方法在我们修改后的过程中的影响显著降低。

Jun, 2020

如何为文本分类微调 BERT?

研究 BERT 语言模型在文本分类任务上的微调方法，提供一般的解决方案，并在 8 个广泛研究的文本分类数据集上取得了最新的最好结果。

May, 2019

通过自我集成和自我蒸馏提高 BERT 微调

本文提出了两种有效机制，即自我集成和自我蒸馏来改进 BERT 的微调，实验证明这些方法可以显着提高 BERT 的适应性。

Feb, 2020

从数学文本中微调 BERT 模型进行定义提取

本研究使用三种预训练的 BERT 模型对数学英语 (使用 LaTeX 编写) 的 “定义提取” 任务进行微调，将其作为一个二元分类问题。通过对原始数据集 “芝加哥” 和 “TAC” 的微调和测试，以及与 Vanetik 和 Litvak 在 2021 年提出的 WFMALL 数据集的对比测试，我们发现高性能的 Sentence-BERT transformer 模型在整体准确度、召回率和精确度等指标上表现最佳，且相较于早期模型，所需的计算资源更少。

Jun, 2024

机器翻译人类评估的有效性改进探讨

本研究探讨了一种简单的降低标注成本的方法，即采用分层抽样和控制变量等技术，结合文档成员身份信息和自动评估指标，从而在固定标注预算下获得更高的准确性。在测试集上，相比于纯随机抽样，平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。

Apr, 2022

动态语言模型用于不断演变的内容

本文研究如何将预训练语言模型适应于不断变化的 Web 内容，通过分析 Twitter 数据的演化，探索了词汇组成和抽样方法对语言模型的增量训练的影响，证明了该方法比离线重新训练新模型更具优越性

Jun, 2021

BERTTune: 使用 BERTScore 微调神经机器翻译

本文提出使用基于 BERTScore 评估指标的新型训练目标对神经机器翻译模型进行微调，以克服在训练过程中出现的过拟合偏见问题；作者提出三种生成软预测的方法，可使网络保持端到端的完全可微性，实验表明在四种不同的语言对上，微调目前具有一个强基线模型的 BLEU 分数提高了 0.58pp（3.28%），BERTScore 得分提高了 0.76pp（0.98%）。

Jun, 2021