Jun, 2023

评估NMT中基于子词的标记化的频率与组合重要性

TL;DR该研究探讨了子词分词在神经语言模型和机器翻译系统中的应用,并提出了一种基于Huffman编码的分词方法,表明非常高频的单词分别出现,是达到比贪心算法高的分数的一个相对较重要的因素。