如何为文本分类微调 BERT?
介绍了一种新的语言表示模型 BERT,可以通过预训练深度双向表示生成模型从未标记的文本中学习,通过微调可用于广泛的任务,包括自然语言处理。
Oct, 2018
通过使用 BERT 来验证,文章研究了当使用大规模未标注文本语料库进行预训练的语言模型进行轻量级有监督微调以学习任务时,微调只在参数空间中引入了轻微的差异,可以通过对预训练参数的某些层的特定数量的条目设置为零来达到对巨大语言模型的精细调节,从而节省了任务特定参数存储和计算成本的开销。
Apr, 2020
本文探讨了在大规模数据集上对 transformer 模型进行语言模型的预训练,并在 QA 和 CQA 数据集上微调 BERT 模型进行答案选择任务,在 QA 数据集中观察到了最大 13.1% 的提升,在 CQA 数据集中观察到了最大 18.7% 的提升。
Nov, 2020
我们在这项研究中,为土耳其语提供了基于 Transformer 模型的 BERTurk 模型,并进行了多个下游任务的微调和评估,包括命名实体识别、情感分析、问题回答和文本分类。与其他基线方法相比,我们的研究在土耳其语中显著提高了性能,并公开发布了这四个微调模型和资源,以支持其他土耳其研究人员和应用。
Jan, 2024
本文利用小型数据集对比了双向 LSTM 模型和预训练 BERT 模型的表现,结果表明对于小数据集,使用双向 LSTM 模型的性能显著优于使用 BERT 模型,且训练时间更短,因此在选择模型时需要考虑任务和数据等因素。
Sep, 2020
本文研究了使用 BERT 等语言模型进行预训练,并 fine-tuning 在不同任务上的应用。通过可视化损失函数和优化轨迹,本研究得出:预训练可以在不同任务上发现较好的初始参数点,这有利于 fine-tuning 得到更宽的稳定最优解,更好地实现泛化,而且 BERT 在 fine-tuning 过程中具有较强的鲁棒性。BERT 的下层更具有不变性且能学习到更具传递性的语言表示。
Aug, 2019
本研究展示了 BERT 如何在文本摘要中有用地应用,并提出了一种通用的框架,包括抽取式模型和生成式模型。在此框架下,我们引入了一种新的基于 BERT 的文档级编码器,该编码器能够表达文档的语义并获取其句子的表示,通过堆叠多个 Transformer 层来构建我们的抽取式模型,对于生成式摘要,我们提出一种新的微调策略,以解决编码器和解码器之间的不匹配问题,并演示了两阶段微调方法可以进一步提高生成摘要的质量。在三个数据集上的实验表明,我们的模型不仅在抽取式设置下,在生成式设置下也达到了最先进的水平。
Aug, 2019
本文探讨了在数据点少于 1,000 的低资源环境下利用基于预训练 Transformer 的语言模型的微调方法,通过利用基于池的主动学习加速训练同时保持标记新数据的成本不变。实验结果表明,通过最大化从未标记数据池中查询的模型的近似知识收益,可提高模型性能。最后,我们演示并分析了语言模型冻结层的好处,以减少可训练参数的数量,使其更适用于低资源环境。
Dec, 2020
本研究比较不同方法用于长期分类任务的 BERT 模型的微调,发现使用所有可用的未标记评论来微调模型是最佳解决方案,而仅关注模型之前未遇到的单词的评论并不可取,其中一个更有效的解决方案是从新时期的评论中随机抽样评论。
Feb, 2023
本文介绍了一种使用 fine-tuning 方法构建阿拉伯语文本摘要模型的方法,并且展示了该模型在抽取式和文本生成式摘要任务中的性能,同时还展示了该模型在多语种语料库上的性能表现。
Mar, 2020