不使用嵌入的神经机器翻译
本篇论文探讨了一种基于字节级子词(BBPE)的机器翻译模型,该模型比字符词汇表更紧凑且没有超出词汇表的令牌,并显示了与 BPE 相当的性能,BBPE 在跨多种语言的情况下最大化词汇共享并实现更好的翻译质量,同时使非重叠字符集的语言之间的模型传递成为可能。
Sep, 2019
该论文提出了一种新的方法 Byte2Word,通过引入交叉注意力网络建立单词级别的表示,并基于单词级别的隐藏状态进行子词级别的预测,从而实现了更精简的输入嵌入方式,同时在语言模型和文本分类上表现出与强大的基准模型 BERT 相当的性能。
Nov, 2022
本研究提出了一种基于字节的机器翻译方法 (Local Byte Fusion, LOBEF),它利用基于 byte-ngram 和单词边界的方法来聚合局部语义信息,经过对多语种翻译、零 - shot 跨语言转移和域自适应的大量实验证明,在多种情况下比传统的基于字节的方法和子词分割技术都有更好的性能表现。
May, 2022
本文研究了基于字节级别文本的 Transformer 架构,相比于基于词或子词的标准模型,该模型可处理任何语言的文本,更加稳健且精度更高,并开源了基于 T5 架构的预训练模型及所有实验所用代码和数据。
May, 2021
本文探讨神经机器翻译 (NMT) 的简化与编码器自由的 NMT 模型。研究结果指出,在编码器自由的模型中,注意力机制作为强特征提取器,并且源表示不可缺少,但词嵌入在编码器自由的模型中是有竞争力的。此外,编码器自由的模型对德英和中英的对齐质量具有不同影响。
Jul, 2019
该研究提出了一个无需分词的神经机器翻译模型,在 WMT'15 数据集上使用多语言字符级编码器和基于字符卷积神经网络的模型,不仅速度快,泛化性能好,而且能够跨多语言实现高质量普适翻译,效果优于子词级编码器。
Oct, 2016
该研究探讨神经机器翻译模型所学到的嵌入,在需要同时考虑概念相似性和词汇 - 句法角色知识的任务中,它们的性能优于单语言模型所学到的嵌入。研究结果还表明,词汇扩展算法对嵌入质量的影响很小。
Dec, 2014
本文提出了使用视觉文本表示(visual text representations)替代有限的文本嵌入向量(finite set of text embeddings),以建立起使用连续词汇(continuous vocabularies)的翻译模型,以此提高模型的稳健性减少了噪声对模型的影响。实验证明,使用视觉文本表示的模型在小型和大型数据集上实现了与传统文本模型相当或更好的表现。
Apr, 2021