EMNLPAug, 2018

SentencePiece: 一种简单且独立于语言的子词标记器和去标记器,用于神经文本处理

TL;DR本文介绍了 SentencePiece,一种语言无关的子单词标记器和去标记器,旨在用于神经文本处理,包括神经机器翻译。它提供了 C++ 和 Python 的开源实现来得到子单词,并能够直接从原始语句中生成子单词模型,从而实现纯粹的端到端系统和语言无关性。我们对英日机器翻译的 NMT 进行了验证实验,并发现与直接使用原始语句的子单词训练相比,可以实现相当的准确性。我们还使用不同配置比较了子单词训练和分割的性能。SentencePiece 可在 Apache 2 许可证下获得:https:// 该网址。