无监督边界感知语言模型预训练用于中文序列标注

EMNLPOct, 2022

无监督边界感知语言模型预训练用于中文序列标注

Unsupervised Boundary-Aware Language Model Pretraining for Chinese Sequence Labeling

Peijie Jiang, Dingkun Long, Yanzhao Zhang, Pengjun Xie, Meishan Zhang...

TL;DR该论文提出了一种在预训练语言模型中直接编码无监督统计边界信息的体系结构 Boundary-Aware BERT (BABERT)，并将其应用于中文序列标注任务的特征诱导，实验结果表明 BABERT 在十个中文序列标注基准上均可提供一致的改善，同时，该方法可以补充先前监督词典探索的不足，实现与外部词典信息的集成以进一步提高性能。

Abstract

boundary information is critical for various chinese language processing tasks, such as word segmentation, part-of-speech tagging, and named entity recognition. Previous studies usually resorted to the use of a h

chinese language processing boundary information unsupervised statistical boundary information boundary-aware bert chinese sequence labeling

发现论文，激发创造

基于半监督边界感知语言模型预训练的中文序列标注

通过将监督边界信息用于 BABERT，我们构建了一种半监督的边界感知 PLM，实验结果表明我们改进的 BABERT 在中文序列标注和自然语言理解任务中表现出更好的性能，并且我们提出的度量方法具有方便和准确的评估 PLM 边界感知能力的特点。

Apr, 2024

使用 BERT Adapter 进行词典增强的中文序列标注

本文提出了一种增强 BERT 的方法，称为 LEBERT，通过引入一个词典适配器层，将外部词典知识直接集成到 BERT 的底层中，以便实现深层次的词典知识融合，从而在多项中文序列标注任务中取得了最佳结果。

May, 2021

MarkBERT：标注词边界提升中文 BERT 表现

本研究提出了一种名为 MarkBERT 的中文 BERT 模型，此模型使用了单词信息并在中文字符之间插入了边界标记，具有较好的对 OOV 词汇的处理能力和较好的语义标注表现，可以通过插入边界标记轻易地增加单词级别的学习目标，并有效提高下游任务表现。

Mar, 2022

双向语言模型的半监督序列标注

本文探讨了一种半监督的方法，通过添加双向语言模型的预训练上下文嵌入到 NLP 系统中用于序列标注任务，相比其他转移学习或添加标记数据和任务特定词典的方法，在命名实体识别和块分割等任务上实现了最先进的结果。

Apr, 2017

Few-shot 自然语言理解统一 BERT

该研究提出了 UBERT 模型，基于 BERT 框架，可以通过双向仿射网络对不同自然语言理解任务的训练对象进行普遍建模，并通过模型得分来实现各种分类和提取结构的通用、跨任务的语义理解。在 2022 年 AIWIN - 世界人工智能创新大赛中国保险小样本多任务跟踪中获得一等奖，并实现了广泛的信息提取和语言推理任务的统一。

Jun, 2022

单词边界对于无监督语言学习是否有用？

本论文系统比较了不同输入单元（字符、音素、词、词部分）对基于物理词或物理词段的语言模型的影响，并使用三个语音调整的黑盒 NLP 心理语言学基准（pWUGGY、pBLIMP、pSIMI）在词汇、句法和语义层面上探测网络中的语言知识。研究发现，边界信息的缺失会在不同的任务中导致 2％到 28％不等的相对性能损失。同时，本论文还表明，自动找到的边界信息可以替代人工标注的边界信息，并且即使在两个任务中表现合理的分词算法也能给三个任务中的两个任务带来性能提升，而不需要边界信息的基本字符 / 音素模型。

Oct, 2022

BERT 遇见中文分词

应用 BERT 模型对中文分词任务进行了探究，在标注不一致的情况下 BERT 模型可以稍稍提高性能，具有良好的特征提取能力，大模型通常具有更好的性能，可作为其他神经网络模型的优秀特征候选项，Softmax 表现可以不输 CRF。

Sep, 2019

利用词语语义丰富汉语预训练模型的字表示

本文提出了一种新的方法，利用单词结构并将词汇语义融入预训练模型的字符表示中，以加强单词信息的表达，通过词 - 字符对齐注意机制和集成方法来提高不同中文自然语言处理任务的性能，并进一步证明了模型各组件的有效性。

Jul, 2022

BERT: 深度双向变换器的预训练用于语言理解

介绍了一种新的语言表示模型 BERT，可以通过预训练深度双向表示生成模型从未标记的文本中学习，通过微调可用于广泛的任务，包括自然语言处理。

Oct, 2018

利用无监督多语言上下文化表示进行低资源序列标注

本文提出了多语言语言模型与深度语义对准（MLMA），用于产生跨语言标注的语言无关表示，方法不需要平行数据或一个词一个词匹配，只需要单语语料库，并利用深度上下文表示。实验结果表明，本方法在欧洲语言以及英语和汉语等远距离语言对上实现了新的最新 NER 和 POS 性能。

Oct, 2019