针对中文分词的对抗多标准学习

Apr, 2017

Adversarial Multi-Criteria Learning for Chinese Word Segmentation

Xinchi Chen, Zhan Shi, Xipeng Qiu, Xuanjing Huang

TL;DR本文提出了对抗多准则学习方法来集成多个异构分词准则的共享知识，通过在八个具有异构分词准则的语料库上的实验表明，相对于单一准则学习，每个语料库的性能都有显着提高。

Abstract

Different linguistic perspectives causes many diverse segmentation criteria for chinese word segmentation (CWS). Most existing methods focus on improve the performance for each single criterion. However, it is in

chinese word segmentation linguistic perspectives multi-criteria learning shared knowledge heterogeneous segmentation criteria

发现论文，激发创造

多标准学习方法实现快速准确的神经网络中文分词

为适应不同注释标准而设计的基于 BERT 的多标准中文分词模型，在 10 个中文分词数据集上实现了比之前最先进的模型更高的效率和性能。

Mar, 2019

用于多标准中文分词的 Switch-LSTMs

本文提出了一种灵活的多标准中文分词学习方法：Switch-LSTMs，它由几个长短时记忆神经网络 (LSTM) 和一个自动选择器组成，可以在多个子标准之间灵活切换，相比之前的方法和单一标准学习，该模型在八个具有不同标准的语料库上取得了显著的改进。

Dec, 2018

多标准单词分割的有效神经解决方案

本文研究了训练在多样化语料库上的单一联合模型，并提出了一种新颖的设计，使得该模型在中文分词任务上达到了最新的高性能表现。

Dec, 2017

基于 Transformer 编码器的多准则中文分词简明模型

提出了一种基于 Transformer 编码器的多准则中文词分割 (MCCWS) 统一模型，该模型可对简体和繁体中文进行分割，并具有出色的迁移能力。在八个具有不同准则的数据集上进行实验，结果表明我们的模型优于单准则基线模型和其他多准则模型。

Jun, 2019

使用 BERT 统一多准则中文分词

本文利用预训练 Bert 模型和 bigram 特征，提出了一个新的基于 Bert 的统一的 MCCWS 模型并加入了一个辅助分类任务，在 8 个具有不同标准的数据集上进行实验，并取得了新的最优结果。

Apr, 2020

具有词典知识的神经网络中文分词

本文探讨了优化中文分词的策略，两种基于神经网络的方法被提出，分别是基于伪标签数据的生成和基于多任务学习。实验结果验证了这些方法在缺乏标注数据时都能有效地提高性能。

Jul, 2018

重新思考中文分词：一个已解决的任务吗？

本文评估了现有中文分词系统，提出了一种细粒度评估方法，并针对多准则学习提出了解决方案，为未来研究方向提供了参考。

Nov, 2020

异质图神经网络的中文分词

本文提出了一个名为 HGNSeg 的框架，它利用预训练语言模型和异构图神经网络充分利用多层次的外部信息以提高中文分词的性能，并在六个基准数据集上进行了实验，证明了我们的方法的有效性。尤其是在跨领域情况下，我们的方法还表现出很强的缓解词表外（OOV）问题的能力。

Jan, 2022

利用单词嵌入改善跨领域中文分词

本文提出了一种基于半监督学习的词嵌入方法，用于提高跨领域中文分词的性能，实验证明该方法在小样本领域中表现良好，可以优化分词结果，尤其是在分割具有特定领域名词实体的数据集时较为有效。

Mar, 2019

远程注释和对抗训练相结合的跨领域中文分词

本文提出了一种跨域中文分词的方法，使用远程注释和对抗训练来解决领域间的分布差异和词汇表外问题，实验结果表明该方法优于之前的领先的跨域中文分词方法。

Jul, 2020