为了利用中文语言系统中存在的字符下的语言信息,我们提出了一种基于 SubChar (即 SubCharacter) 的分词方法,该方法通过将每个汉字转换为一个基于其字形或发音的短序列,再基于编码后的文本进行子词分割来构建词汇表,实验结果表明 SubChar 的分词器相比现有分词器有两个主要优势:它们可以将输入标记为更短的序列,从而提高计算效率;以发音为基础的 SubChar 分词器可以将中文同音字编码为相同的音译序列并产生相同的标记化输出,从而具有抗同音错误的鲁棒性。
Jun, 2021
本篇论文提出一种采用多种字符嵌入的共享 Bi-LSTM-CRF 模型来进行中文分词,并在实验中证明此方法能够显著提高分词准确率,同时在 AS 和 CityU 语料库中取得了 96.9 和 97.3 的最优 F1 得分。
Aug, 2018
提出了一种基于注意力机制编码解码框架的序列到序列的中文分词模型,拥有全局信息和多任务融合的能力,并在微博、北大和微软亚洲等数据集上取得了与最先进方法相当的竞争性能。
Nov, 2019
本文提出了一种新的方法,利用单词结构并将词汇语义融入预训练模型的字符表示中,以加强单词信息的表达,通过词 - 字符对齐注意机制和集成方法来提高不同中文自然语言处理任务的性能,并进一步证明了模型各组件的有效性。
Jul, 2022
本文提出了基于卷积神经网络的、能够自动获取丰富 n-gram 特征的中文分词模型,并结合词嵌入有效地解决了单个字不足以表示完整词汇信息的问题,经过在 PKU 和 MSR 两个基准数据集的实验,该模型在两个数据集上均表现出有竞争力的性能。
Nov, 2017
通过利用子词增强嵌入式框架,本文介绍了一种学习和合成计算产生的子词级别表示的新方法,经过在英文和汉语测试基准上的各种文本理解任务中的实验测试,发现子词增强嵌入式显着改善了我们在各种文本理解任务上的基线。
Nov, 2018
该研究引入了一种新颖的开放词汇语言模型,包含两个层次:词级和序列级,并通过对字符的表示以及全局的序列级别上下文调整,使模型直接处理字符序列,而不是子词或词级别的词汇表,取得了比强基准表现更好的效果,并且具有文本破坏和域移位的鲁棒性。
May, 2023
本文提出了一种新的基于汉字视觉外观的表示方法,采用卷积神经网络来将汉字的空间 - 结构模式以原始像素的方式统一表示,从而在两个基本的中文 NLP 任务:语言建模和分词中有效地表征了每个字符的语义和句法信息。
Aug, 2017
CDBERT 是一种改进了语义理解的学习范例,它结合了语汇知识和汉字结构。该方法使用 Shuowen 和 Jiezi 两个核心模块,前者用于从汉字字典中获取最合适的意义,后者用于通过结构理解增强汉字的字形表示。通过在现代汉语理解基准 CLUE 和古代汉语基准 CCLUE 上评估,我们的方法表现出对以前的汉语 PLM 的一致提高。此外,我们在收集的古代汉字字典上提出了一种新的多义词鉴别任务 PolyMRC,并在古代汉语理解的少量数据情况下获得了显著的提升。
本文提出了一种新颖的神经网络框架,利用门控组合神经网络和 LSTM 语言评分模型,消除上下文窗口,可以利用完整的分词历史,产生分布式表示,从而实现中文分词,并在基准数据集上进行实验,结果不需要使用现有方法的特征工程,获得了与现有最先进方法相当甚至更好的性能。
Jun, 2016