使用部首作为额外输入特征改善基于字符级别的日汉神经机器翻译

May, 2018

使用部首作为额外输入特征改善基于字符级别的日汉神经机器翻译

Improving Character-level Japanese-Chinese Neural Machine Translation with Radicals as an Additional Input Feature

Jinyi Zhang, Tadahiro Matsumoto

TL;DR该研究证明中文字符的偏旁部首作为特征，可以轻松提高基于字符级别的神经机器翻译的质量，并在WAT2016上取得了最先进的结果。

Abstract

In recent years, neural machine translation (NMT) has been proven to get impressive results. While some additional linguistic features of input words improve word-level NMT, any additional character features have not been used to improve →

发现论文，激发创造

基于部首增强的汉字嵌入

利用偏旁部首进行汉字向量嵌入，研发了一种具有专门神经网络结构的方法，在中文字符相似度判别和中文词分割等任务上，该方法通过整合汉字中的偏旁部首信息，实现了较好的效果。

Apr, 2014

字符级神经机器翻译的语法性如何？通过对比翻译对评估机器翻译质量

通过对神经机器翻译实现对特定语言现象的质量评估，我们提出了一种新方法并给出了包含97000对用于WMT英语->德语翻译任务的对照翻译数据集LingEval97，对字符级别和字节对编码（BPE）分割模型的实验结果显示，前者在翻译转写方面表现更好，但在形态句法协议和翻译非连续的意义单元方面表现较差。

Dec, 2016

将汉字部首融入神经机器翻译：更深入的层次

该论文旨在改善神经机器翻译系统的词汇表外(未知)单词的翻译水平，特别是针对神经机器翻译系统用于中文翻译的方法，并且通过引入汉字偏旁部首信息进行语义分析。实验结果表明，所提出的模型在包括LEPOR、BEER和CHARACTER在内的多种评估指标上均优于基线模型。

May, 2018

通过 ASCII 编码的汉英字符级翻译

本研究利用Wubi编码方案将汉字划分为类似于印欧语系的语言单元，为实现基于字符级的汉英翻译建立了基础，并使用循环和卷积模型等方法进行训练以取得了良好的结果。

May, 2018

利用子字符级信息的表意文字神经机器翻译

该研究着眼于汉字与英文字母等不同书写语言之间的差异，并使用了一种简单的方法来利用汉字更细致的结构信息，以提高神经机器翻译系统的性能。结果表明，这种方法不仅改进了汉英翻译，还进一步改进了汉日翻译，因为它利用了类似汉字部首的共享信息。

Sep, 2018

利用次字符级别信息的中日无监督神经机器翻译

本研究聚焦于使用包含子字符（表意符号或笔画）级别信息的数据训练中文-日语无监督神经机器翻译，通过比较字符和子字符级别系统的BLEU分数，结果表明尽管无监督神经机器翻译在字符级数据上很有效，但是子字符级数据能够进一步提高性能，其中笔画级系统优于表意符号级系统。

Mar, 2019

论字符级神经机器翻译中词边界的重要性

本文提出了一种更高效的字符级神经机器翻译解码方法，使用词和字符级别的分层解码结构，能够优化机器翻译性能并学习更长的上下文和语法依赖。

Oct, 2019

神经机器翻译中的汉字分解与多词表达

本研究探讨了不同层次的汉字分解对机器翻译的影响，包括偏旁、笔画和中间层级。研究还考察了分解多词表达式对提高翻译模型学习的影响。

Apr, 2021

解决中文字符表示瓶颈问题：基于笔画序列建模的神经机器翻译

本篇论文提出了一种名为StrokeNet的新型汉字表示方法，它通过拉丁化的笔划序列为汉字表示，解决了学习瓶颈和参数瓶颈问题，可应用于神经机器翻译中，有效提高翻译性能并减少模型参数。

Nov, 2022

汉字级别翻译是否值得等待？字符级别与子词级别机器翻译模型的广泛比较

通过对多种语言和实验条件下的状态-of-the-art字符-和子词级预训模型（ByT5和mT5）进行了广泛的比较，这项工作展示了前者不仅在翻译方面有效，并且在某些情况下比子词模型表现更好，特别是在训练数据有限的情况下。字符模型唯一的缺点似乎是效率低（至少慢4倍的训练和推理时间）。进一步的分析表明，字符模型能够隐含地在词或子词级别上进行翻译，从而抵消了字符级别操作的一个主要潜在弱点。

Feb, 2023