利用多重联合因素增强中文文本分类的嵌入

Dec, 2022

利用多重联合因素增强中文文本分类的嵌入

Moto: Enhancing Embedding with Multiple Joint Factors for Chinese Text Classification

Xunzhu Tang, Rujie Zhu, Tiezhu Sun, Shi Wang

TL;DR提出Moto模型以融合汉字的语义信息，包括偏旁部首、拼音码和五笔码以提高中文文本分类性能。通过对四项任务的广泛实验，该模型在中文新闻标题，复旦语料库和清华新闻上实现显著改善，F1得分最高可达0.8316，词性标注任务的准确率可达96.38％，文本分类任务的准确率可达0.9633。

Abstract

Recently, language representation techniques have achieved great performances in text classification. However, most existing representation models are specifically designed for English materials, which may fail in Chinese because of the huge difference between these two languages. Actually, few existing methods for →

发现论文，激发创造

基于部首增强的汉字嵌入

利用偏旁部首进行汉字向量嵌入，研发了一种具有专门神经网络结构的方法，在中文字符相似度判别和中文词分割等任务上，该方法通过整合汉字中的偏旁部首信息，实现了较好的效果。

Apr, 2014

组件增强的汉字嵌入

本文创新性地发展了两种增强中文字符嵌入模型及其二元模型扩展，它们通过探索中文字符的组合，来有效地捕捉语义信息并已成功地应用于词语相似度和文本分类任务。

Aug, 2015

中、英、日、韓語文本分類中最佳編碼方式為何？

本文针对中日韩和英语言的文本分类，研究了不同编码方式，包括 UTF-8 字节、字符、词、罗马化字符和罗马化词，对线性模型、fastText 和卷积神经网络进行了比较，对卷积神经网络的编码机制进行了研究，使用了包括字符字形图像、one-hot 编码和嵌入在内的不同编码机制，总共使用了 473 个模型，并使用包括中英日韩四种语言的 14 个大型文本分类数据集。结果表明，基于 UTF-8 的字节级 one-hot 编码一致表现出色，词级 n-gram 的线性模型即使没有完美的词分割也能表现出色，而 fastText 提供了最佳结果，但当特征过于丰富时容易出现过拟合。

Aug, 2017

中文分词的多字符嵌入

本篇论文提出一种采用多种字符嵌入的共享Bi-LSTM-CRF模型来进行中文分词，并在实验中证明此方法能够显著提高分词准确率，同时在AS和CityU语料库中取得了96.9和97.3的最优F1得分。

Aug, 2018

ZEN：基于N-gram表示增强的中文文本预训练编码器

本篇论文提出了基于BERT的中文文本编码器ZEN，使用N-gram表示法考虑不同字符组合，明确预训练并在字符编码器(BERT)的细调中进行单词或短语分界处理，使用较少资源比其他已发布的编码器在大部分任务上获得了最先进的表现，同时在小语料库上进行ZEN的训练，也可以获得合理的性能并且可以应用于限定数据的场景。

Nov, 2019

基准测试中文文本识别：数据集，基线和实证研究

本文填补了中文文本识别领域的数据集缺失和统一的评测标准，提出了搜集四大类中文文本数据集的方法，为各类应用场景提供基准，并探究了基于偏旁部首的辅助方法对中文识别性能的提升。

Dec, 2021

利用词语语义丰富汉语预训练模型的字表示

本文提出了一种新的方法，利用单词结构并将词汇语义融入预训练模型的字符表示中，以加强单词信息的表达，通过词-字符对齐注意机制和集成方法来提高不同中文自然语言处理任务的性能，并进一步证明了模型各组件的有效性。

Jul, 2022

基于部首先验的自然场景中的汉字识别

本文介绍了一种基于偏旁部首的汉字表示方法，并使用多任务学习和监督训练来提高该方法在中文场景文本识别上的性能，实现了在六个中文数据集上的优异表现。

Oct, 2022

汉语预训练语言模型中的分词粒度：字符、词语还是两者兼备？

本文提出了一种混合粒度的中文BERT模型（MigBERT），通过同时考虑字符和词来学习其特征表示，并在各种中文NLP任务上进行了广泛的实验以评估现有的PLMs以及所提出的MigBERT，实验结果表明，MigBERT在所有这些任务中都实现了新的最佳表现，MigBERT还能与日语一起使用。

Mar, 2023

带检索的分类方法及其解耦表示

本文提出了一种混合粒度的中文BERT模型（MigBERT），通过同时考虑字符和词，设计了学习字符和单词级表示的目标函数，在各种中文NLP任务上获得了新的SOTA性能，实验结果表明，单词语义比字符更丰富，而MigBERT也适用于日语。

Mar, 2023