神经机器翻译的数据排序模式:实证研究
本文通过实证研究生成顺序来探讨机器翻译的效果,发现对于英德翻译任务,以字母和最短优先等方式生成的效果相当于标准 Transformer 生成的效果,提出了不必严格遵循从左到右的翻译方式。而对于英中翻译任务,由于语言对齐度低,生成的效果则对生成顺序更加敏感。
Oct, 2019
本文从实证角度研究了多任务学习的优化动态,特别关注了在存在显著数据不平衡的多个任务集合中所涉及的优化过程。我们提出了一种简单但有效的方法,即在高资源任务上进行预训练,然后在高 / 低资源任务的混合中进行微调。通过彻底的实证研究和分析,我们证明了该方法相对于标准静态加权的性能权衡概况实现了持续改进。我们分析了在什么样的数据条件下该方法适用,并在神经机器翻译(NMT)和多语言语言建模中实证了其改进效果。
Dec, 2023
通过课程学习的数据中心培训策略,根据数据的不同指标进行排序可以提高大型语言模型的性能,而无需增加模型大小或数据集容量,从而解决大型语言模型培训中的可扩展性挑战。
May, 2024
本研究提出了多个关键短语拼接作为目标序列的学习方法,研究了拼接顺序对模型行为的影响,并通过综合比较发现了一种更好的拼接顺序,总结了几个实证发现和挑战,这些可以为未来相关研究提供指导和启示。
Sep, 2019
本文研究从结构化数据和文本对中选择训练样本以优化 CURRICULUM LEARNING,并提出了一种软编辑距离度量方法,实验表明,该方法能够提高训练速度和性能。
Feb, 2021
研究发现,经过随即排列的句子进行预训练和 / 或微调的语言模型表现出与 GLUE 上竞争力的表现,这给单词顺序信息的重要性带来了质疑。尽管有一些研究表明位置嵌入对于模型在混乱的文本上表现良好似乎很让人费解,但我们对这些语言模型进行了单词顺序信息的探究并研究了从混淆的文本中学习的位置嵌入编码的内容,表明这些模型保留了与原始的自然顺序有关的信息。我们表明,这在某种程度上是由于先前的研究中所实现的混淆的微妙之处 —— 而不是在子单词分段之后而是在之前。但令人惊讶的是,我们发现即使是在子单词分段之后洗牌的文本上训练出的语言模型也保留了单词顺序信息的某些方面,因为句子长度和单字概率之间存在统计依赖关系。最后,我们证明除了 GLUE,各种语言理解任务确实需要单词顺序信息,这往往不能通过微调来学习。
Mar, 2022
本文通过两阶段课程训练框架及对六种语言对的全面实验,证明了基于预训练方法和在线评分的确定性评分选择数据子集,对神经机器翻译模型进行微调训练的课程训练策略会显著提高 BLEU 质量(高达 2.2 个 BLEU),并且更快地收敛(更新次数减少了约 50%)。
Mar, 2022
通过使用一种新的称为 IBIS 的过程,本文否认了一种假说,即单词顺序对于进行 NLP 基准任务而言必须编码含义的观点,我们在 GLUE 套件和各种英语文本流派中的多种情况下证明这一点,并探讨了诸如 IBIS 这样的洗牌推理过程如何有益于语言建模和约束生成。
Sep, 2021
本文介绍了如何使用双语平行数据集来模拟目标语序,在改进了位置编码机制的基础上,提出了一种新的序列重排序方法来显式地模拟源语句子的重排序信息,同时实验证明,该方法在多种翻译任务中均有效。
Apr, 2020