神经机器翻译中的汉字分解与多词表达

Apr, 2021

神经机器翻译中的汉字分解与多词表达

Chinese Character Decomposition for Neural MT with Multi-Word Expressions

Lifeng Han, Gareth J. F. Jones, Alan F. Smeaton, Paolo Bolzoni

TL;DR本研究探讨了不同层次的汉字分解对机器翻译的影响，包括偏旁、笔画和中间层级。研究还考察了分解多词表达式对提高翻译模型学习的影响。

Abstract

chinese character decomposition has been used as a feature to enhance Machine Translation (MT) models, combining radicals into character and word level models. Recent work has investigated ideograph or stroke level embe

chinese character decomposition machine translation multiword expressions radical level embedding stroke level embedding

发现论文，激发创造

将汉字部首融入神经机器翻译：更深入的层次

该论文旨在改善神经机器翻译系统的词汇表外 (未知) 单词的翻译水平，特别是针对神经机器翻译系统用于中文翻译的方法，并且通过引入汉字偏旁部首信息进行语义分析。实验结果表明，所提出的模型在包括 LEPOR、BEER 和 CHARACTER 在内的多种评估指标上均优于基线模型。

May, 2018

使用部首作为额外输入特征改善基于字符级别的日汉神经机器翻译

该研究证明中文字符的偏旁部首作为特征，可以轻松提高基于字符级别的神经机器翻译的质量，并在 WAT2016 上取得了最先进的结果。

May, 2018

基于笔画分解的零样本中文字符识别

本文提出一种基于笔画的方法对中文字符进行识别，在解决中文字符零样本问题方面具有重要意义。在实验验证中，该方法比现有方法优异，不仅适用于手写文字，还适用于印刷艺术文字和场景文字。此外，该方法可以很容易地推广到可以分解成笔画的其他语言中的字符。

Jun, 2021

基于部首增强的汉字嵌入

利用偏旁部首进行汉字向量嵌入，研发了一种具有专门神经网络结构的方法，在中文字符相似度判别和中文词分割等任务上，该方法通过整合汉字中的偏旁部首信息，实现了较好的效果。

Apr, 2014

神经机器翻译中适用于形态丰富语言的词表示模型

本文提出了使用字符和形态级别单词分解学习单词表示的若干结构，并将这些表示法纳入一种新颖的机器翻译模型中，通过一个硬注意力机制联合学习单词对齐和翻译，从而提高 morphologically rich languages 翻译成英语的机器翻译的性能，相对强基线模型提高了 1 到 1.5 个 BLEU 分数。

Jun, 2016

通过 ASCII 编码的汉英字符级翻译

本研究利用 Wubi 编码方案将汉字划分为类似于印欧语系的语言单元，为实现基于字符级的汉英翻译建立了基础，并使用循环和卷积模型等方法进行训练以取得了良好的结果。

May, 2018

利用子字符级信息的表意文字神经机器翻译

该研究着眼于汉字与英文字母等不同书写语言之间的差异，并使用了一种简单的方法来利用汉字更细致的结构信息，以提高神经机器翻译系统的性能。结果表明，这种方法不仅改进了汉英翻译，还进一步改进了汉日翻译，因为它利用了类似汉字部首的共享信息。

Sep, 2018

MECT: 基于多元数据嵌入的跨注意力机制转换器用于中文命名实体识别

本篇论文提出了一种基于多元数据嵌入跨 Transformer（MECT）的方法，结合汉字的结构信息来提高汉语命名实体识别（NER）的性能，并使用两个流 Transformer 进行多元数据嵌入来集成汉字特征与基本层次嵌入。在多个著名的基准测试数据集上进行的实验表明，该方法在 NER 方面具有较好的表现。

Jul, 2021

利用多重联合因素增强中文文本分类的嵌入

提出 Moto 模型以融合汉字的语义信息，包括偏旁部首、拼音码和五笔码以提高中文文本分类性能。通过对四项任务的广泛实验，该模型在中文新闻标题，复旦语料库和清华新闻上实现显著改善，F1 得分最高可达 0.8316，词性标注任务的准确率可达 96.38％，文本分类任务的准确率可达 0.9633。

Dec, 2022

基于 Transformer 模型的多词表达语义研究：一项调查

通过对多词表达式的深入调查，我们发现 Transformer 模型在捕捉多词表达式的语义上存在不一致性，主要依赖表面模式和记忆信息，并且其表示在架构的早期层中主要存在。另外，我们强调了更直接可比较的评估设置的需求。

Jan, 2024