如何为文本分类微调 BERT?

May, 2019

How to Fine-Tune BERT for Text Classification?

Chi Sun, Xipeng Qiu, Yige Xu, Xuanjing Huang

TL;DR研究 BERT 语言模型在文本分类任务上的微调方法，提供一般的解决方案，并在 8 个广泛研究的文本分类数据集上取得了最新的最好结果。

Abstract

language model pre-training has proven to be useful in learning universal language representations. As a state-of-the-art language model <

language model pre-training bert fine-tuning text classification

发现论文，激发创造

BERT: 深度双向变换器的预训练用于语言理解

介绍了一种新的语言表示模型 BERT，可以通过预训练深度双向表示生成模型从未标记的文本中学习，通过微调可用于广泛的任务，包括自然语言处理。

Oct, 2018

微调可以有多精细？学习高效语言模型

通过使用 BERT 来验证，文章研究了当使用大规模未标注文本语料库进行预训练的语言模型进行轻量级有监督微调以学习任务时，微调只在参数空间中引入了轻微的差异，可以通过对预训练参数的某些层的特定数量的条目设置为零来达到对巨大语言模型的精细调节，从而节省了任务特定参数存储和计算成本的开销。

Apr, 2020

利用 Transformer 的双向编码表示进行答案选择

本文探讨了在大规模数据集上对 transformer 模型进行语言模型的预训练，并在 QA 和 CQA 数据集上微调 BERT 模型进行答案选择任务，在 QA 数据集中观察到了最大 13.1% 的提升，在 CQA 数据集中观察到了最大 18.7% 的提升。

Nov, 2020

基于 Transformer 的细调编码器在土耳其语言理解任务中的应用

我们在这项研究中，为土耳其语提供了基于 Transformer 模型的 BERTurk 模型，并进行了多个下游任务的微调和评估，包括命名实体识别、情感分析、问题回答和文本分类。与其他基线方法相比，我们的研究在土耳其语中显著提高了性能，并公开发布了这四个微调模型和资源，以支持其他土耳其研究人员和应用。

Jan, 2024

小语料下 LSTM 和 BERT 的对比

本文利用小型数据集对比了双向 LSTM 模型和预训练 BERT 模型的表现，结果表明对于小数据集，使用双向 LSTM 模型的性能显著优于使用 BERT 模型，且训练时间更短，因此在选择模型时需要考虑任务和数据等因素。

Sep, 2020

可视化理解 BERT 的有效性

本文研究了使用 BERT 等语言模型进行预训练，并 fine-tuning 在不同任务上的应用。通过可视化损失函数和优化轨迹，本研究得出：预训练可以在不同任务上发现较好的初始参数点，这有利于 fine-tuning 得到更宽的稳定最优解，更好地实现泛化，而且 BERT 在 fine-tuning 过程中具有较强的鲁棒性。BERT 的下层更具有不变性且能学习到更具传递性的语言表示。

Aug, 2019

使用预训练编码器进行文本摘要

本研究展示了 BERT 如何在文本摘要中有用地应用，并提出了一种通用的框架，包括抽取式模型和生成式模型。在此框架下，我们引入了一种新的基于 BERT 的文档级编码器，该编码器能够表达文档的语义并获取其句子的表示，通过堆叠多个 Transformer 层来构建我们的抽取式模型，对于生成式摘要，我们提出一种新的微调策略，以解决编码器和解码器之间的不匹配问题，并演示了两阶段微调方法可以进一步提高生成摘要的质量。在三个数据集上的实验表明，我们的模型不仅在抽取式设置下，在生成式设置下也达到了最先进的水平。

Aug, 2019

通过主动学习对 BERT 进行微调，以提高低资源自然语言理解能力

本文探讨了在数据点少于 1,000 的低资源环境下利用基于预训练 Transformer 的语言模型的微调方法，通过利用基于池的主动学习加速训练同时保持标记新数据的成本不变。实验结果表明，通过最大化从未标记数据池中查询的模型的近似知识收益，可提高模型性能。最后，我们演示并分析了语言模型冻结层的好处，以减少可训练参数的数量，使其更适用于低资源环境。

Dec, 2020

提高自然语言处理变形金刚模型长期的分类可靠性

本研究比较不同方法用于长期分类任务的 BERT 模型的微调，发现使用所有可用的未标记评论来微调模型是最佳解决方案，而仅关注模型之前未遇到的单词的评论并不可取，其中一个更有效的解决方案是从新时期的评论中随机抽样评论。

Feb, 2023

阿拉伯文本摘要的 BERT 微调

本文介绍了一种使用 fine-tuning 方法构建阿拉伯语文本摘要模型的方法，并且展示了该模型在抽取式和文本生成式摘要任务中的性能，同时还展示了该模型在多语种语料库上的性能表现。

Mar, 2020