ParaBank:基于词汇约束神经机器翻译的单语种双语文本生成和句子改写
使用神经机器翻译将大型平行语料库的非英语部分翻译为英语,生成超过五千万个英语句子的同义句数据集 PARANMT-50M,该数据集可用于同义句生成,提供丰富的语义知识以改善下游自然语言理解任务。我们使用 PARANMT-50M 训练了同义句嵌入,能在所有 SemEval 基于语义相似度的比赛中胜过所有监督系统,并展示了它在同义句生成中的应用。
Nov, 2017
通过引入简单的改进算法,不鼓励生成输入中已有的 N-grams,利用多语言神经机器翻译模型生成同义句,控制输入和输出之间的词汇多样性,人工评估表明,该方法比基于 ParaBank 2 的同义句生成器更好地维护意义和语法正确性,并且在两种非英语语言上也同样有效。
Aug, 2020
本研究使用神经机器翻译通过回译双语句子对生成句子的解释,并对语料对进行了筛选处理,在此基础上建立通用的释义句子表示模型,结果显示该模型对于很多语言领域其正确率与手动编写的英语释义句子相当。
Jun, 2017
该研究研究了如何在只有大型单语语料库的情况下学习翻译。提出了两种模型,一种是神经模型,一种是基于短语的模型。这些模型通过参数的精心初始化、语言模型的去噪效应和反向迭代自动生成的并行数据来提高翻译性能。在 WMT'14 英语 - 法语和 WMT'16 德语 - 英语 基准测试上,这些模型分别获得 28.1 和 25.2 BLEU 分数,比现有方法的 BLEU 分数高出 11 个分数。方法在英语 - 乌尔都语和英语 - 罗马尼亚语等低资源语言中也取得了良好的结果。
Apr, 2018
使用神经机器翻译系统,通过 beam search 生成多个候选翻译样本,选择词汇最多样化的一对生成句式相似,语义丰富、跨 17 种语言的人工合成平行释义语料库,并用 BLEU 对比了其与 ParaBank2,结果表明其生成的句子语义类似而且词汇丰富度较高。
May, 2022
通过使用边际化双语挖掘技术在多语言句子空间内,我们能够针对百亿级别的单语语料库,挖掘出 45 亿双语句子。使用这些挖掘的数据,我们在 TED、WMT 和 WAT 的测试集上,超越了 WMT'19 的最佳结果,并且对于远程语言对(如俄语 / 日语),我们的表现非常出色。
Nov, 2019
本文介绍如何使用包含一致结构的训练数据作为语料库级别的释义,并将释义视为外语词汇进行 Neural Machine Translation 的训练。本方法表现出比过去的单词或短语级别的方法更好的效果,并且在使用多种语言的平行释义进行训练时表现最佳。该方法提高了翻译的 BLEU 分数,增加了词汇选择的熵和多样性。
Aug, 2018
基于预训练语言模型的词汇简化方法取得了显著进展,通过分析词语在其上下文环境中的替代词生成复杂词的潜在替代词。然而,这些方法需要针对不同语言进行单独的预训练模型,并且忽略了对句子意义的保留。本文提出了一种新颖的多语言词汇简化方法,通过生成释义来提供词语选择的多样性,同时保持句子的意义。我们将释义任务视为支持数百种语言的多语言神经机器翻译中的零 - shot 翻译任务。在释义建模的编码器中输入句子后,我们基于一种集中于复杂词的词汇变体的新颖解码策略生成替代词。实验结果表明,我们的方法在英语、西班牙语和葡萄牙语上明显优于基于 BERT 的方法和零 - shot GPT3 方法。
Jul, 2023
该研究探讨了四种生成马拉雅拉姆语释义的方法,利用了英语释义和预训练的神经机器翻译模型的资源。我们使用自动化评估指标(如 BLEU、METEOR 和余弦相似度)和人工标注来评估生成的释义。我们的发现表明,自动化评估指标可能不完全适用于马拉雅拉姆语,因为它们与人的判断不一致。这种差异凸显了对高度聚集语言特别是马拉雅拉姆语更细致的释义评估方法的需求。
Jan, 2024
本文使用端到端的 Siamese 双向递归神经网络从 Wikipedia 的可比较多语言文章中提取并生成平行句子,证明使用所收集的数据集可以提高低资源语言对 (英―印度语和英―泰米尔语) 上的 BLEU 分数。
Jun, 2018