基于子词分割的下采样在字级别翻译中的应用
通过对多种语言和实验条件下的状态 - of-the-art 字符 - 和子词级预训模型(ByT5 和 mT5)进行了广泛的比较,这项工作展示了前者不仅在翻译方面有效,并且在某些情况下比子词模型表现更好,特别是在训练数据有限的情况下。字符模型唯一的缺点似乎是效率低(至少慢 4 倍的训练和推理时间)。进一步的分析表明,字符模型能够隐含地在词或子词级别上进行翻译,从而抵消了字符级别操作的一个主要潜在弱点。
Feb, 2023
通过利用子词增强嵌入式框架,本文介绍了一种学习和合成计算产生的子词级别表示的新方法,经过在英文和汉语测试基准上的各种文本理解任务中的实验测试,发现子词增强嵌入式显着改善了我们在各种文本理解任务上的基线。
Nov, 2018
本文对多个使用不同类型划分的翻译模型在中英翻译任务中进行了探究和比较,发现在中文翻译到英文的任务中,使用子词模型效果最好。在英文翻译到中文的任务中,使用混合词形式模型最优。此外,使用 混合_BPE 方法在中文翻译到英文的任务中取得了最佳效果。
Nov, 2017
通过文献和实证调查,我们批判性地评估了机器翻译(MT)中基于字符级建模的最新技术发展现状。尽管文献中有证据表明,与子词级方法相比,字符级系统相当可靠,但在竞争性的 WMT 比赛中几乎不被使用。我们的实证研究表明,尽管在自然语言处理的字符级建模方面取得了一些创新,但字符级 MT 系统仍然难以与基于子词的系统相匹配,也没有更好的领域稳健性或更好的形态概括性。但是,我们能够表现出对源端噪声的稳健性,并且在解码时随着 Beam size 的增加,翻译质量不会降低。
Oct, 2021
实现字符级别的 Transformer 架构通常需要非常深的架构,难以训练。本文提出一种通过在模型中将分词与字元结合进行初步训练,然后在字符级别上调整,从而实现不需要分词的神经机器翻译模型的方法,并且展示了这种方法更好地捕捉了语言形态现象和更加健壮,训练的代价相对较小。
Apr, 2020
该论文提出了一种新的方法 Byte2Word,通过引入交叉注意力网络建立单词级别的表示,并基于单词级别的隐藏状态进行子词级别的预测,从而实现了更精简的输入嵌入方式,同时在语言模型和文本分类上表现出与强大的基准模型 BERT 相当的性能。
Nov, 2022
本文针对机器翻译中常用的子词级神经网络模型提出了基于字符级翻译的 Transformer 模型,实验证明所提出的模型在训练效率和翻译质量方面是优于先前的字符级模型且与子词级模型相当的,代码和模型已经公开发布。
May, 2020
本研究提出了一种解决 Charformer 在 Transformer 解码器中信息泄漏问题的方法,从而实现字符分组。研究发现 Charformer 的下采样在 NMT 中的翻译质量没有明显的优势,但训练速度可以提高 30%,在英––土耳其翻译中表现优异,表明字符级模型在形态丰富的语言中具有潜在的优势。
May, 2022
本文分析了基于字符级别机器翻译模型在使用基于中间转换的翻译中的应用,特别是在稀疏和嘈杂的数据集,例如众包电影字幕上。我们发现此类模型可以将未翻译的单词数量减少超过 40%,在有限的训练数据情况下尤其具有竞争力(2-3 BLEU 分的提高)。我们研究了字符对齐,短语表过滤,双语数据大小以及中间转换语言选择对翻译质量的影响。我们进一步比较级联翻译模型和通过多个中间转换的合成训练数据的使用,我们发现后者更好地工作。最后,我们证明了无论是词 Bleu 还是字符 Bleu 都没有完全与人类判断相符,这是由于 Bleu 对长度的敏感性所致。
Sep, 2021