古代汉语 CWS 和 POS 的基于不确定性的检索框架

Oct, 2023

古代汉语 CWS 和 POS 的基于不确定性的检索框架

The Uncertainty-based Retrieval Framework for Ancient Chinese CWS and POS

Pengyu Wang, Zhichen Ren

TL;DR提出古代汉语词分割和词性标注框架，通过捕捉词性语义和引入外部知识重新预测基线模型的不确定样本，有效提升性能。

Abstract

Automatic analysis for modern Chinese has greatly improved the accuracy of text mining in related fields, but the study of ancient chinese is still relatively rare. Ancient text division and lexical annotation ar

ancient chinese text division lexicon annotation word segmentation part-of-speech tagging

发现论文，激发创造

运用远程监督的古代汉语词语切分与词性标注

本文提出了一种新的远程监督方法来增加古代汉语分词和词性标注的数据，利用深度神经网络的记忆效应和少量已注释数据来重新标记句子，以解决远程监督中不可避免的错误和未标记的问题，取得了优异的分词效果。

Mar, 2023

将不确定的分割信息融入社交媒体中文 NER

本文提出一种针对中文社交媒体的命名实体识别模型 (UIcwsNN)，通过利用词语切分的不确定性信息，实现对实体的识别，其使用了候选位置嵌入、位置选择性注意和自适应词卷积的三合一编码方式来获取合适的词层次表达，并在社交媒体语料库上得到了显著的性能提高。

Apr, 2020

具有词典知识的神经网络中文分词

本文探讨了优化中文分词的策略，两种基于神经网络的方法被提出，分别是基于伪标签数据的生成和基于多任务学习。实验结果验证了这些方法在缺乏标注数据时都能有效地提高性能。

Jul, 2018

基于二阶段跨度标注的中文分词与词性标注

提出了一种名为 SpanSegTag 的神经模型，采用跨度标记跟踪每个中文单词和其分词标记的概率，利用相邻字符的左右边界表示的双交注意力机制学习字符的 n-gram 特征，在中文分词和词性标注方面显著优于以 BERT 或 ZEN 编码器为基础的现有技术。

Dec, 2021

TURNER：面向中文命名实体识别的基于不确定性的检索框架

本文提出了一个基于不确定性抽取辅助知识的中文命名实体识别框架 TURNER，该框架利用搜索引擎等通用知识资源代替特定领域的高质量词典，通过不确定性抽样方法选择难以判断的实体，再由知识融合模型对这些实体进行重新预测。实验表明，TURNER 在四个基准数据集上的表现优于现有的基于词典的方法，取得了新的最优成绩。

Feb, 2022

中文分词：另一篇十年回顾（2007-2017）

本文章回顾了中文分词（CWS）在最近的十年（2007-2017）的发展，特别关注了已经渗透到自然语言处理（NLP）大多数领域中的深度学习技术。作者得出的基本观点是，与传统的监督式学习方法相比，基于神经网络的方法还未表现出更优秀的性能，最关键的挑战仍然在于平衡对词汇内（IV）和词汇外（OOV）单词的识别。然而，由于神经模型有捕捉自然语言基本结构的潜力，因此我们对未来的显着进展持乐观态度。

Jan, 2019

BERT 遇见中文分词

应用 BERT 模型对中文分词任务进行了探究，在标注不一致的情况下 BERT 模型可以稍稍提高性能，具有良好的特征提取能力，大模型通常具有更好的性能，可作为其他神经网络模型的优秀特征候选项，Softmax 表现可以不输 CRF。

Sep, 2019

多标准学习方法实现快速准确的神经网络中文分词

为适应不同注释标准而设计的基于 BERT 的多标准中文分词模型，在 10 个中文分词数据集上实现了比之前最先进的模型更高的效率和性能。

Mar, 2019

重新思考中文分词：一个已解决的任务吗？

本文评估了现有中文分词系统，提出了一种细粒度评估方法，并针对多准则学习提出了解决方案，为未来研究方向提供了参考。

Nov, 2020

中文分词的多字符嵌入

本篇论文提出一种采用多种字符嵌入的共享 Bi-LSTM-CRF 模型来进行中文分词，并在实验中证明此方法能够显著提高分词准确率，同时在 AS 和 CityU 语料库中取得了 96.9 和 97.3 的最优 F1 得分。

Aug, 2018