不使用嵌入的神经机器翻译

ACLAug, 2020

Neural Machine Translation without Embeddings

Uri Shaham, Omer Levy

TL;DR通过实现以字节作为序列的计算机文本的表示，同时将深度学习模型中的嵌入层替换为每个字节的一热表示，可以在不影响模型性能的情况下，将最先进的机器翻译模型推广到字节级别。

Abstract

Many nlp models operate over sequences of subword tokens produced by hand-crafted tokenization rules and heuristic subword induction algorithms. A simple universal alternative is to represent every computerized t

nlp models subword tokens byte-to-byte machine translation embedding layer decoder-input dropout

发现论文，激发创造

基于字节级子词的神经机器翻译

本篇论文探讨了一种基于字节级子词（BBPE）的机器翻译模型，该模型比字符词汇表更紧凑且没有超出词汇表的令牌，并显示了与 BPE 相当的性能，BBPE 在跨多种语言的情况下最大化词汇共享并实现更好的翻译质量，同时使非重叠字符集的语言之间的模型传递成为可能。

Sep, 2019

字节级表示在语言建模中的应用

该论文提出了一种新的方法 Byte2Word，通过引入交叉注意力网络建立单词级别的表示，并基于单词级别的隐藏状态进行子词级别的预测，从而实现了更精简的输入嵌入方式，同时在语言模型和文本分类上表现出与强大的基准模型 BERT 相当的性能。

Nov, 2022

神经机器翻译的本地字节融合

本研究提出了一种基于字节的机器翻译方法 (Local Byte Fusion, LOBEF)，它利用基于 byte-ngram 和单词边界的方法来聚合局部语义信息，经过对多语种翻译、零 - shot 跨语言转移和域自适应的大量实验证明，在多种情况下比传统的基于字节的方法和子词分割技术都有更好的性能表现。

May, 2022

采用子单元的神经机器翻译生僻词

本文提出了一种基于子单词单位的、更简单且更有效的方法来处理翻译中的开放性词汇问题，并通过实验证明了这种方法相较于备用字典模式可以提升该模型的翻译效果。

Aug, 2015

ByT5: 面向预训练字节到字节模型的无令牌未来

本文研究了基于字节级别文本的 Transformer 架构，相比于基于词或子词的标准模型，该模型可处理任何语言的文本，更加稳健且精度更高，并开源了基于 T5 架构的预训练模型及所有实验所用代码和数据。

May, 2021

不是所有神经嵌入都是平等的

研究神经机器翻译模型和单语模型在表征词汇相似性和语法角色方面的性能，结果表明，神经翻译模型在捕捉概念的本体论状态方面比单语模型更胜一筹。

Oct, 2014

简化神经机器翻译：以无编码器模型为例

本文探讨神经机器翻译 (NMT) 的简化与编码器自由的 NMT 模型。研究结果指出，在编码器自由的模型中，注意力机制作为强特征提取器，并且源表示不可缺少，但词嵌入在编码器自由的模型中是有竞争力的。此外，编码器自由的模型对德英和中英的对齐质量具有不同影响。

Jul, 2019

不需显式分段的全字符级神经机器翻译

该研究提出了一个无需分词的神经机器翻译模型，在 WMT'15 数据集上使用多语言字符级编码器和基于字符卷积神经网络的模型，不仅速度快，泛化性能好，而且能够跨多语言实现高质量普适翻译，效果优于子词级编码器。

Oct, 2016

利用神经机器翻译嵌入词汇相似度

该研究探讨神经机器翻译模型所学到的嵌入，在需要同时考虑概念相似性和词汇 - 句法角色知识的任务中，它们的性能优于单语言模型所学到的嵌入。研究结果还表明，词汇扩展算法对嵌入质量的影响很小。

Dec, 2014

从视觉文本表示实现鲁棒性开放词汇翻译

本文提出了使用视觉文本表示（visual text representations）替代有限的文本嵌入向量（finite set of text embeddings），以建立起使用连续词汇（continuous vocabularies）的翻译模型，以此提高模型的稳健性减少了噪声对模型的影响。实验证明，使用视觉文本表示的模型在小型和大型数据集上实现了与传统文本模型相当或更好的表现。

Apr, 2021