随机选择 BPE 合并操作时有哪些变化?不多
本文探索了不同 BPE 合并操作的影响,以理解其与模型架构、构建词表策略和语言对之间的交互。对于 LSTM 架构,需要尝试不同的 BPE 操作,而对于 Transformer 架构,较小的 BPE 尺寸往往是一个典型的最优选择。我们强烈建议社区在选择子词合并操作时谨慎,因为我们的实验表明,单独一个次优的 BPE 配置就可以轻易地将系统性能降低 3-4 BLEU 分数。
May, 2019
本文探究了针对四种多合成语言(Nahuatl,Raramuri,Shipibo-Konibo 和 Wixarika)的一系列监督式和非监督式的词形分割方法,并将词形分割方法与字节对编码(BPEs)进行比较,发现在翻译到和从西班牙语的所有语言对中,除了 Nahuatl 外,非监督式的词形分割算法一直表现优异,而监督式的方法在机器翻译挑战中表现不佳。最后,我们为 Raramuri 和 Shipibo-Konibo 捐献了两个新的词形分割数据集,以及一个 Raramuri - 西班牙语平行语料库。
Mar, 2022
本文提出了一个简单的方法来解决 NMT 系统处理大词汇量时的问题,该方法是训练系统生成单词的词元和丰富的词性标记,然后进行确定性生成步骤,应用于英语 - 捷克语和英语 - 德语翻译方案中,获得了改进。
Jul, 2017
分析使用不同词汇分割方法,如 BPE 和 unigram 在提前训练 Transformer 语言模型时对其细微的影响,并比较它们的效果,在任务绩效中发现 unigram 的方法匹配或优于 BPE,建议开发者在预训练时采用 unigram 方法。
Apr, 2020
通过实验证明,对于孟加拉语,Byte pair encoding (BPE) 是一种在自动语音识别(ASR)中改善识别性能的有效分词方法,较佳的 BPE token 数量为大约 500-1000 个。
Jan, 2024
通过子模函数,我们将 BPE 形式化为组合优化问题,并证明了迭代贪心版本是最佳合并序列的 1/sigma (mu*)-(1-e^(sigma (mu*)))- 近似,其中 sigma (mu*) 是相对于最佳合并序列 mu * 的总反向曲率。此外,我们优化了朴素算法以实现最佳 BPE。
Jun, 2023
本研究提出了一种名为 BPE-dropout 的简单有效的子词规则化方法,通过随机扰动 BPE 的分词过程,在相同的 BPE 框架下生成多个分词方法,使用 BPE-dropout 能够显著提高机器翻译质量,比使用 BPE 和其他子词规则化方法均能够带来更好的效果。
Oct, 2019
本文研究了使用字节对编码(称为 BPE units)以及拼音音节作为翻译任务基本单元的效果, 结果表明,BPE units 作为翻译单元略优于拼音音节单元, 并且更适用于非元音书写系统的语言。
Oct, 2016
在这篇论文中,我们研究了阈值词汇裁剪在字节对编码子词分词中的应用,这是一种后处理步骤,可以将罕见的子词替换为其组成的子词。尽管在机器翻译实现中建议删除罕见的子词以减小模型大小并提高模型性能,但我们的实验表明,在各种超参数设置下,词汇裁剪无法提高性能,甚至可能导致严重的性能下降。
Mar, 2024