- 词汇基础的子词切分
我们提出了三个在标记化和子词分割中的创新。首先,我们建议使用 Morfessor 的无监督形态分析作为预标记化。其次,我们提出了一种代数方法来获取基于词嵌入空间的子词嵌入。基于此,我们设计了一种使用嵌入的新型子词分割算法,确保该过程考虑了词 - 多语言翻译中的子词和跨语言转移的系统分析
此研究探讨了子词切分在跨语言迁移中的作用,发现子词规范化提高了多语言建模的协同效应,而 BPE 在跨语言微调中更有效地促进了迁移,在子词建模方面的决策对于优化多语言建模的好处至关重要。
- 预训练语言模型是否能在噪声下从损坏子词中推导出正确语义?
本研究提出了一种名为 CoLeS 探针的子词分割评估框架,它提供了关于噪声下的多种分割破坏的系统分类及评价规则,实验证明预训练语言模型对完全不同的子词、小的子词碎片或大量附加子词的噪声较为敏感,尤其是当它们被插入其他子词中时。
- ACL语序很重要(洗牌语言模型知道)
研究发现,经过随即排列的句子进行预训练和 / 或微调的语言模型表现出与 GLUE 上竞争力的表现,这给单词顺序信息的重要性带来了质疑。尽管有一些研究表明位置嵌入对于模型在混乱的文本上表现良好似乎很让人费解,但我们对这些语言模型进行了单词顺序 - 基于压缩的多子词分割神经机器翻译 LCP-dropout
本研究提出了 LCP-dropout 的概率方法,旨在解决基于数据压缩算法的子词切分中多重分段生成的困难问题。研究结果表明 LCP-dropout 方法在小型训练数据学习中优于传统方法。
- EMNLP子词切分对非拼接形态转换的适用性如何?
本论文研究基于数据驱动的子词分割在自然语言处理等领域的应用是否适用于非连接语素构词方式,通过一套测试套件对分割策略在不同形态学现象上的表现进行比较,并发现学习分析和生成表面的形态上下文仍然具有挑战性且应针对多种语言应用测试新的文本表征策略, - ACL基于形态学意识的分词在低资源神经机器翻译中的有效性
比较了基于形态学和 BPE 方法的子词切分对低资源神经机器翻译任务的影响,发现其对翻译性能影响不一,并且各自有表现最好的情况。
- ACL形态学很重要:多语言语言建模分析
本文通过对 145 个语言的 92 个圣经翻译及其更多的分类特征的分析,探讨了语言的屈折变化是否使得多语言语言建模更加困难,发现基于神经网络的语言建模方法可以通过采用 FST 等分词策略来进一步降低语言构型的影响。
- 子词分词和单桥语言对零样本神经机器翻译的影响
研究了多语言零 - shot 机器翻译中的稳定性问题,发现语言特定的次词分割会提高翻译性能,单独的中间语言反而降低零 - shot 翻译表现,但是 在 非英语语言配对中使用少量的平行数据可以有效减少对英语的偏见。
- EMNLPPBoS: 概率词袋子字形式用于推广词嵌入
提出了一种概括单词嵌入的方法,称为 PBoS 模型,该模型基于单词的拼写,同时对子词划分建模和计算子词组合的单词嵌入,并在词汇相似性和词性标注实验中显示出较好的性能,不需要明确的形态学知识。
- ACL2kenize: 中文转换中绑定次字序列
本文提出了一种基于子词分割,两种语言模型以及子词序列映射方法的模型,能够在中文自然语言处理中对简体和繁体中文实现准确的转换,能够有效地解决语种混合和命名实体问题,并在主题分类和脚本转换的基准数据集上取得了 6% 的准确度提升。
- 神经机器翻译中的子词分割动态规划编码
本文介绍了一种名为 “动态规划编码” 的新的分词算法,它使用轻量级混合字符 - 子词转换器进行动态规划分割,实验结果表明,DPE 对于分割输出句子非常有效,并可与 BPE dropout 结合使用。
- ACLBPE-Dropout: 简单而有效的子词规范化
本研究提出了一种名为 BPE-dropout 的简单有效的子词规则化方法,通过随机扰动 BPE 的分词过程,在相同的 BPE 框架下生成多个分词方法,使用 BPE-dropout 能够显著提高机器翻译质量,比使用 BPE 和其他子词规则化方 - ACL使用多个子词候选项改进神经网络翻译模型的子词正则化
介绍了一种利用 subword segmentation 的噪声来提高神经机器翻译鲁棒性的正则化方法,主要应用于低资源领域。