BERT 走出题材范畴：通过类型分类研究领域转换挑战

EMNLPNov, 2023

BERT 走出题材范畴：通过类型分类研究领域转换挑战

BERT Goes Off-Topic: Investigating the Domain Transfer Challenge using Genre Classification

Dmitri Roussinov, Serge Sharoff

TL;DR基于预训练语言模型的文本分类任务在主题分布变化时仍存在性能差距，本文通过大规模语料库和大量主题的实证研究量化了这一现象，验证了经典 PLMs 和现代大模型都面临领域转移的挑战。同时，通过将训练数据集增加主题控制的合成文本，F1 得分在某些主题上提高了 50％接近在主题上训练的结果，而其他主题则显示出较少或无改进。尽管我们的实证结果侧重于类型分类，但我们的方法适用于其他分类任务，如性别、作者或情感分类。

Abstract

While performance of many text classification tasks has been recently improved due to pre-trained language models (PLMs), in this paper we show that they still suffer from a →

text classification pre-trained language models performance gap domain transfer topically-controlled synthetic texts

发现论文，激发创造

跨越国家、时间和体裁的多语种政党宣言分类

通过对政治宣言的大规模数据库进行研究，我们展示了领域转移在地理位置、语言、时间和体裁等方面的潜力，以及细调的变压器模型在领域内的分类性能。此外，我们观察到不同来源国家的政治宣言存在（部分）显著差异，即使这些国家共享一种语言或文化背景。

Jul, 2023

使用统一文本到文本转换 Transformer 进行极端多领域、多任务学习

研究了多领域文本转换转换器在 Python Code 和 Chess 领域中 4 个任务上的行为，发现 GPT 风格的联合预训练 + 联合微调策略在多领域，多任务学习中表现最好。

Sep, 2022

主题、领域和语言变化的桥梁：综合离域场景的评估

在真实世界中，语言模型在超出分布范围的场景中的泛化能力变得更低，基于提示的微调方法在语义差异较大的任务中表现更好，而基于梯度的学习存在结构障碍的偏差问题。

Sep, 2023

基于预训练语言模型的正则增强领域迁移主题分类：金融领域应用

本文探讨在 fine tuning 过程中采用正则表达式模式作为领域知识的特征以及注意力网络的应用，用于改善对下游文本分类任务的 fine tuning 效果。实验结果表明，相较于仅在特定领域文本上进行 fine tuning，采用这种方法可以提高下游文本分类任务的准确性。

May, 2023

BERTopic 在多领域短文本上的泛化实验

本研究探讨了在短的多领域文本中如何运用 BERTopic 算法进行主题建模，并发现与 Latent Dirichlet Allocation 相比，BERTopic 在主题连贯性和多样性方面的表现更好。我们进一步分析了 BERTopic 所使用的 HDBSCAN 聚类算法的性能，并发现其将大多数文档分类为异常值。在使用 k-Means 替换 HDBSCAN 后，我们取得了类似的性能表现，但不再出现异常值。

Dec, 2022

探索抽取式文本摘要中的领域转移

本文研究了文本摘要技术中的领域转移问题，提出了将领域的定义从类别扩展到数据源，并探讨了四种不同的学习策略以解决领域转移问题，在新测试中呈现出不同的性能特点。

Aug, 2019

基于可转移 BERT 的故事结局预测

本研究旨在研究一种可转移的 BERT 训练框架，该框架不仅可以从大规模未标记数据中转移一般语言知识，还可以从各种语义相关的监督任务中转移特定类型的知识以用于目标任务。在本实验中，提出了利用三种转移任务，包括自然语言推理、情感分类和下一动作预测，以进一步训练预训练模型的思想，并将故事结尾预测作为目标任务进行实验。最终结果，准确率达到了 91.8％，明显优于先前最先进的基线方法。同时，进行了一些比较实验，给出了一些关于如何选择转移任务的有益建议。通过误差分析，还显示了基于 BERT 的模型在故事结尾预测中的优势和劣势。

May, 2019

大型语言模型进行政策文件的多类别分类

使用 GPT 3.5 和 GPT 4 模型对议会法案和听证会进行分类，与人工干预程度相关的三种使用情景中，我们的结果表明完全依赖最小化人工干预的 GPT 不够充分，人工投入程度越高准确性越高，并在最需要人工干预的情况下取得了令人惊讶的高准确率。然而，优秀的使用情景中的 83% 准确率仅在两个模型达成一致的 65% 数据上实现，暗示着类似我们的方法相对容易实施，并可实现对大多数给定数据集的自动编码，从而节省资源并降低成本。

Oct, 2023

低资源领域适应的多阶段预训练

本文研究使用预训练语言模型的转移学习、领域特定术语扩展词汇表以及利用未标记数据结构创造辅助合成任务等方法，在 IT 领域的三个任务中，采用逐步应用的策略在预先训练的 Roberta-large LM 上显示出显着的性能提升。

Oct, 2020

BERT 是一个跨学科的知识学习者吗？预训练模型可转移性的惊人发现

本文探讨了预训练模型在文本数据上的可迁移性是否能够转化为一般的 token 序列分类应用。我们发现，即使在非文本数据上，也可以快速收敛，表现优异。这些训练好的模型与非文本模型的表示有相似之处。

Mar, 2021