BriefGPT.xyz
Oct, 2018
学习将输入分段有利于基于字符级处理的神经机器翻译
Optimally Segmenting Inputs for NMT Shows Preference for Character-Level Processing
HTML
PDF
Julia Kreutzer, Artem Sokolov
TL;DR
提出了一种基于自适应计算时间算法的动态分词算法,该算法可通过端到端的训练驱动,并可在不同的分词级别之间进行自由导航。在四个翻译任务的评估中,发现模型更喜欢在几乎字符级别上运行,从一种新的角度支持了纯字符级NMT模型。
Abstract
Most modern
neural machine translation
(NMT) systems rely on presegmented inputs.
segmentation
granularity importantly determines the input and output sequence lengths, hence the modeling depth, and source and ta
→