EMNLPNov, 2023

BERT 走出题材范畴:通过类型分类研究领域转换挑战

TL;DR基于预训练语言模型的文本分类任务在主题分布变化时仍存在性能差距,本文通过大规模语料库和大量主题的实证研究量化了这一现象,验证了经典 PLMs 和现代大模型都面临领域转移的挑战。同时,通过将训练数据集增加主题控制的合成文本,F1 得分在某些主题上提高了 50%接近在主题上训练的结果,而其他主题则显示出较少或无改进。尽管我们的实证结果侧重于类型分类,但我们的方法适用于其他分类任务,如性别、作者或情感分类。