使用部首作为额外输入特征改善基于字符级别的日汉神经机器翻译
利用偏旁部首进行汉字向量嵌入,研发了一种具有专门神经网络结构的方法,在中文字符相似度判别和中文词分割等任务上,该方法通过整合汉字中的偏旁部首信息,实现了较好的效果。
Apr, 2014
通过对神经机器翻译实现对特定语言现象的质量评估,我们提出了一种新方法并给出了包含97000对用于WMT英语->德语翻译任务的对照翻译数据集LingEval97,对字符级别和字节对编码(BPE)分割模型的实验结果显示,前者在翻译转写方面表现更好,但在形态句法协议和翻译非连续的意义单元方面表现较差。
Dec, 2016
该论文旨在改善神经机器翻译系统的词汇表外(未知)单词的翻译水平,特别是针对神经机器翻译系统用于中文翻译的方法,并且通过引入汉字偏旁部首信息进行语义分析。实验结果表明,所提出的模型在包括LEPOR、BEER和CHARACTER在内的多种评估指标上均优于基线模型。
May, 2018
本研究利用Wubi编码方案将汉字划分为类似于印欧语系的语言单元,为实现基于字符级的汉英翻译建立了基础,并使用循环和卷积模型等方法进行训练以取得了良好的结果。
May, 2018
该研究着眼于汉字与英文字母等不同书写语言之间的差异,并使用了一种简单的方法来利用汉字更细致的结构信息,以提高神经机器翻译系统的性能。结果表明,这种方法不仅改进了汉英翻译,还进一步改进了汉日翻译,因为它利用了类似汉字部首的共享信息。
Sep, 2018
本研究聚焦于使用包含子字符(表意符号或笔画)级别信息的数据训练中文-日语无监督神经机器翻译,通过比较字符和子字符级别系统的BLEU分数,结果表明尽管无监督神经机器翻译在字符级数据上很有效,但是子字符级数据能够进一步提高性能,其中笔画级系统优于表意符号级系统。
Mar, 2019
本篇论文提出了一种名为StrokeNet的新型汉字表示方法,它通过拉丁化的笔划序列为汉字表示,解决了学习瓶颈和参数瓶颈问题,可应用于神经机器翻译中,有效提高翻译性能并减少模型参数。
Nov, 2022
通过对多种语言和实验条件下的状态-of-the-art字符-和子词级预训模型(ByT5和mT5)进行了广泛的比较,这项工作展示了前者不仅在翻译方面有效,并且在某些情况下比子词模型表现更好,特别是在训练数据有限的情况下。字符模型唯一的缺点似乎是效率低(至少慢4倍的训练和推理时间)。进一步的分析表明,字符模型能够隐含地在词或子词级别上进行翻译,从而抵消了字符级别操作的一个主要潜在弱点。
Feb, 2023