该论文旨在改善神经机器翻译系统的词汇表外 (未知) 单词的翻译水平,特别是针对神经机器翻译系统用于中文翻译的方法,并且通过引入汉字偏旁部首信息进行语义分析。实验结果表明,所提出的模型在包括 LEPOR、BEER 和 CHARACTER 在内的多种评估指标上均优于基线模型。
May, 2018
该研究证明中文字符的偏旁部首作为特征,可以轻松提高基于字符级别的神经机器翻译的质量,并在 WAT2016 上取得了最先进的结果。
本文提出一种基于笔画的方法对中文字符进行识别,在解决中文字符零样本问题方面具有重要意义。在实验验证中,该方法比现有方法优异,不仅适用于手写文字,还适用于印刷艺术文字和场景文字。此外,该方法可以很容易地推广到可以分解成笔画的其他语言中的字符。
Jun, 2021
利用偏旁部首进行汉字向量嵌入,研发了一种具有专门神经网络结构的方法,在中文字符相似度判别和中文词分割等任务上,该方法通过整合汉字中的偏旁部首信息,实现了较好的效果。
Apr, 2014
本文提出了使用字符和形态级别单词分解学习单词表示的若干结构,并将这些表示法纳入一种新颖的机器翻译模型中,通过一个硬注意力机制联合学习单词对齐和翻译,从而提高 morphologically rich languages 翻译成英语的机器翻译的性能,相对强基线模型提高了 1 到 1.5 个 BLEU 分数。
Jun, 2016
本研究利用 Wubi 编码方案将汉字划分为类似于印欧语系的语言单元,为实现基于字符级的汉英翻译建立了基础,并使用循环和卷积模型等方法进行训练以取得了良好的结果。
该研究着眼于汉字与英文字母等不同书写语言之间的差异,并使用了一种简单的方法来利用汉字更细致的结构信息,以提高神经机器翻译系统的性能。结果表明,这种方法不仅改进了汉英翻译,还进一步改进了汉日翻译,因为它利用了类似汉字部首的共享信息。
Sep, 2018
本篇论文提出了一种基于多元数据嵌入跨 Transformer(MECT)的方法,结合汉字的结构信息来提高汉语命名实体识别(NER)的性能,并使用两个流 Transformer 进行多元数据嵌入来集成汉字特征与基本层次嵌入。在多个著名的基准测试数据集上进行的实验表明,该方法在 NER 方面具有较好的表现。
Jul, 2021
提出 Moto 模型以融合汉字的语义信息,包括偏旁部首、拼音码和五笔码以提高中文文本分类性能。通过对四项任务的广泛实验,该模型在中文新闻标题,复旦语料库和清华新闻上实现显著改善,F1 得分最高可达 0.8316,词性标注任务的准确率可达 96.38%,文本分类任务的准确率可达 0.9633。
Dec, 2022
通过对多词表达式的深入调查,我们发现 Transformer 模型在捕捉多词表达式的语义上存在不一致性,主要依赖表面模式和记忆信息,并且其表示在架构的早期层中主要存在。另外,我们强调了更直接可比较的评估设置的需求。
Jan, 2024