意义的界限：神经机器翻译的案例研究

Oct, 2022

意义的界限：神经机器翻译的案例研究

The boundaries of meaning: a case study in neural machine translation

Yuri Balashov

TL;DR本文讨论词的子词分割算法在自然语言处理和机器翻译等任务中的应用。虽然这些算法将单词分为形式上相对含义不明确的子词，然而它们在高效的机器翻译系统中发挥着作用。本文探讨这种算法的语言学和哲学学理基础，并试图使人工智能更透明和可解释。

Abstract

The success of deep learning in natural language processing raises intriguing questions about the nature of linguistic meaning and ways in which it can be processed by natural and artificial systems. One such que

deep learning natural language processing subword segmentation algorithms machine translation artificial intelligence

发现论文，激发创造

多语言翻译中的子词和跨语言转移的系统分析

此研究探讨了子词切分在跨语言迁移中的作用，发现子词规范化提高了多语言建模的协同效应，而 BPE 在跨语言微调中更有效地促进了迁移，在子词建模方面的决策对于优化多语言建模的好处至关重要。

Mar, 2024

论字符级神经机器翻译中词边界的重要性

本文提出了一种更高效的字符级神经机器翻译解码方法，使用词和字符级别的分层解码结构，能够优化机器翻译性能并学习更长的上下文和语法依赖。

Oct, 2019

Subword 分段机器翻译：统一分段和目标句子生成

该研究提出了一种称为子词分节机器翻译（SSMT）的新方法，通过在单个可训练模型中联合学习目标句子单词的分割和目标句子生成，在生成翻译过程中采用动态解码算法进行细分操作，实验结果表明，SSMT 能提高粘着语言的 chrF 分数以及对于评估形态组成通用性构建的测试集的鲁棒性也更强。

May, 2023

采用子单元的神经机器翻译生僻词

本文提出了一种基于子单词单位的、更简单且更有效的方法来处理翻译中的开放性词汇问题，并通过实验证明了这种方法相较于备用字典模式可以提升该模型的翻译效果。

Aug, 2015

阿拉伯语言相关分词的挑战：机器翻译和词性标注的应用

本研究探讨用数据驱动的子字单元、字符和卷积神经网络（CNN）学习的单词嵌入来替代传统的形态学分割，实现阿拉伯语自然语言处理（NLP）中的词分割。实验表明，这些方法在机器翻译和词性标注任务中，可以达到接近或超过最先进性能。同时，研究揭示神经机器翻译系统对源和目标令牌的比值敏感，接近 1 或更大的比值有最佳性能。

Sep, 2017

机器翻译中的意义丢失缩减方法

该论文提出了一种基于贝叶斯模型和神经序列到序列模型的 less ambiguous 翻译方法，通过提高注射性以及测量集合一致性的改进来更好地保留语义，同时不影响翻译质量。

Feb, 2019

面向开放词汇神经机器翻译的隐变形模型

本文提出了一种通过分层潜在变量模拟词态变化过程的方法，通过组合两个潜在表示（一个连续的表示和一组（近似）离散特征），逐个字符生成单词，从而使神经机器翻译在三种形态丰富的语言中的精度和资源利用率得到了提高。

Oct, 2019

神经机器翻译模型的语言表征能力

本研究分析了神经机器翻译模型在不同粒度上学习到的表示，并通过相关的外围特性对其质量进行评估，结果表明深层次的 NMT 模型学习了大量的语言信息，其中鲜明的发现包括：（i）词组结构和词类等语言单元在模型较低的层次上被捕捉；（ii）而词汇语义或非局部的句法和语义依存则在较高层次上表示更好；（iii）使用字符所学习的表示比使用子词单位所学习的更具有词形信息；（iv）多语言模型所学习的表示比双语模型更加丰富。

Nov, 2019

词汇基础的子词切分

我们提出了三个在标记化和子词分割中的创新。首先，我们建议使用 Morfessor 的无监督形态分析作为预标记化。其次，我们提出了一种代数方法来获取基于词嵌入空间的子词嵌入。基于此，我们设计了一种使用嵌入的新型子词分割算法，确保该过程考虑了词汇意义。第三，我们引入了一种基于子词二元模型的高效分割算法，可使用词汇感知分割方法进行初始化，以避免在推理时使用 Morfessor 和大型嵌入表。我们使用两个内在指标评估了所提出的方法，并在两个下游任务上测试了其性能：词性标注和机器翻译。我们的实验证明，在各语言上，通过在词素边界上评估的分割精度和改进的 Rényi 效率方面，该分割的形态合理性得到了显著提高。尽管所提出的标记化方法对自动翻译质量影响不大，但我们观察到在词性标注这个更具形态学特征的任务中一直存在性能提升。

Jun, 2024

神经机器翻译中形态丰富输入的组合表示

本文提出用双向循环神经网络替代 NMT 源语言嵌入层，在任何所需的粒度水平上生成组合表示，从而解决基于统计的分词方法中可能导致的形态错误，实现了从字符 N-gram 组成词表示的 NMT 训练方法的一致逆袭。

May, 2018