组件增强的汉字嵌入
利用偏旁部首进行汉字向量嵌入,研发了一种具有专门神经网络结构的方法,在中文字符相似度判别和中文词分割等任务上,该方法通过整合汉字中的偏旁部首信息,实现了较好的效果。
Apr, 2014
本文提出了一种新的基于汉字视觉外观的表示方法,采用卷积神经网络来将汉字的空间-结构模式以原始像素的方式统一表示,从而在两个基本的中文NLP任务:语言建模和分词中有效地表征了每个字符的语义和句法信息。
Aug, 2017
本篇论文提出一种采用多种字符嵌入的共享Bi-LSTM-CRF模型来进行中文分词,并在实验中证明此方法能够显著提高分词准确率,同时在AS和CityU语料库中取得了96.9和97.3的最优F1得分。
Aug, 2018
通过利用子词增强嵌入式框架,本文介绍了一种学习和合成计算产生的子词级别表示的新方法,经过在英文和汉语测试基准上的各种文本理解任务中的实验测试,发现子词增强嵌入式显着改善了我们在各种文本理解任务上的基线。
Nov, 2018
本文提出一种基于三级组合的模型来学习中文词嵌入,其中包括卷积神经网络从字符视觉形状中提取内部组合性,循环神经网络与自我注意力将字符表示组合成词嵌入,以及Skip-Gram框架从上下文信息中直接捕捉非组合性。在四个任务上的评估表明了我们模型的优越性能:词相似性、情感分析、命名实体识别和词性标注。
Feb, 2019
本文探究了中文BERT在注意力权重分布统计和探测任务方面的表现,发现其捕捉了单词信息,其中单词级别特征主要集中在中间表示层,在文本理解等下游任务中,词特征以不同的方式被应用。
Oct, 2020
本文提出了一种新的方法,利用单词结构并将词汇语义融入预训练模型的字符表示中,以加强单词信息的表达,通过词-字符对齐注意机制和集成方法来提高不同中文自然语言处理任务的性能,并进一步证明了模型各组件的有效性。
Jul, 2022
提出Moto模型以融合汉字的语义信息,包括偏旁部首、拼音码和五笔码以提高中文文本分类性能。通过对四项任务的广泛实验,该模型在中文新闻标题,复旦语料库和清华新闻上实现显著改善,F1得分最高可达0.8316,词性标注任务的准确率可达96.38%,文本分类任务的准确率可达0.9633。
Dec, 2022
本文提出了一种混合粒度的中文BERT模型(MigBERT),通过同时考虑字符和词来学习其特征表示,并在各种中文NLP任务上进行了广泛的实验以评估现有的PLMs以及所提出的MigBERT,实验结果表明,MigBERT在所有这些任务中都实现了新的最佳表现,MigBERT还能与日语一起使用。
Mar, 2023
本文提出了一种混合粒度的中文BERT模型(MigBERT),通过同时考虑字符和词,设计了学习字符和单词级表示的目标函数,在各种中文NLP任务上获得了新的SOTA性能,实验结果表明,单词语义比字符更丰富,而MigBERT也适用于日语。
Mar, 2023