EMNLPOct, 2022
无监督边界感知语言模型预训练用于中文序列标注
Unsupervised Boundary-Aware Language Model Pretraining for Chinese Sequence Labeling
Peijie Jiang, Dingkun Long, Yanzhao Zhang, Pengjun Xie, Meishan Zhang...
TL;DR该论文提出了一种在预训练语言模型中直接编码无监督统计边界信息的体系结构 Boundary-Aware BERT (BABERT),并将其应用于中文序列标注任务的特征诱导,实验结果表明 BABERT 在十个中文序列标注基准上均可提供一致的改善,同时,该方法可以补充先前监督词典探索的不足,实现与外部词典信息的集成以进一步提高性能。