- EMNLP无监督机器翻译的快速反向翻译
利用 Transformer 和反向翻译算法,以及引入 Quick Back-Translation (QBT) 的改进方法,提高无监督机器翻译的数据通量、利用率及训练效率。
- Bilex Rx:大规模多语机器翻译的词汇数据增强
本文探讨使用双语词汇表在网络爬取的文本训练数据上进行无监督机器翻译的有效性,通过词汇数据增强,我们证明了其对于提升无监督翻译成果的重要性,并开源了 GATITOS,这是一个在 26 种低资源语言中表现最好的多语种词汇表。
- 无监督的普通话 - 粤语机器翻译
本研究探讨了基于无监督机器翻译的普通话和粤语之间的翻译,通过构建包含约 100 万个粤语句子的语料库,以及采用基于字符的分词和 Transformer 架构的模型,实现了最佳的翻译效果。
- 跨语言迁移学习中平行数据的作用
本文研究并比较了使用无监督机器翻译生成的合成平行数据与有监督机器翻译和现有规范平行数据的效果;使用这些数据解决一些下游任务的表现。作者发现,即使是模型生成的平行数据也可以在继续预训练和具体任务训练方面对下游任务有所帮助,但目前最佳结果仍然来 - 领域不匹配并不总是阻止跨语言迁移学习
本文展示了一种简单的初始化方案,用于克服跨语言转移中不同领域的影响,通过在领域不匹配的语料库上预训练词和上下文嵌入,然后用于多个任务中,包括 UBLI、UNMT 和 SemEval 2017 跨语言词汇相似性任务,挑战了之前的研究论文并指出 - 基于动物交流理解的无监督翻译理论
我们提出了一个理论框架,用于分析无平行数据可用且源语料库与目标语料库不相干或具有相似语言结构时的 UMT,并且研究表明翻译准确性取决于源语言的复杂性和源语言与目标先验之间的 “共同基础”。
- 通过语言分离多语言模型提高低资源无监督翻译的精度
该论文提出一种简单的细化流程,将语言从预训练的多语言 UMT 模型中分离出来,使其专注于目标低资源任务,并实现了英语到尼泊尔语、僧伽罗语、古吉拉特语、拉脱维亚语、爱沙尼亚语和哈萨克语的全无监督翻译任务的最先进,其 BLEU 得分分别为 3. - COLING基于无监督机器翻译的改写生成
本文提出了一种将改写生成任务视为无监督机器翻译的新方法,通过将大规模无标签单语语料库拆分成多个簇并使用这些簇的对训练多个 UMT 模型,然后基于这些 UMT 模型生成的改写语句对,可以训练出一个统一的代理模型,用于生成改写句子,该方法避免了 - MM将无监督数据生成技术融入自监督神经机器翻译中,以应对低资源语言
本文介绍了一种将无监督机器翻译和自监督 NMT 相结合的方法,该方法利用合成数据生成技术和 back-translation 的方法提高 SSNMT 的性能,特别是在缺乏语言对数据的情况下可以对距离较远的语言对进行翻译。
- ACL无监督和有监督机器翻译中系统风格差异及其在高资源机器翻译中的应用
比较了具有相似质量的监督机器翻译和无监督机器翻译系统之间的翻译结果,发现无监督输出在流畅性和结构上比监督机器翻译更不同,同时提出一种将两种方法相结合的方式,可通过人工评估提高充分性和流畅性。
- ACL基于元学习的低资源领域无监督神经机器翻译
本研究提出了一种元学习算法,以解决数据稀缺领域的非监督神经机器翻译问题。通过扩展从高资源领域中学习的知识来提高低资源 UNMT 的性能,实验证明我们的方法具有快速适应性和一致的优越性能。
- 迭代自监督训练的跨语言检索
本研究中,我们发现对自己的编码器输出进行挖掘,可以进一步提高多语言预训练语言模型的跨语言对齐能力;利用这一发现,我们提出了一种新方法 -- 交叉语言检索用于迭代自监督训练 (CRISS),并取得了 9 种语言方向的最新无监督机器翻译结果以及 - ICML跨模型反向翻译蒸馏用于无监督机器翻译
本文介绍一种新的 UMT 框架组成部分叫做跨模型反向传递蒸馏(CBD)来促进数据多样性,与其他变体相比,CBD 更加有效
- ACL无监督机器翻译数据增强改善跨语言词向量结构相似度
提出了一种使用非监督机器翻译生成的伪平行语料库以优化跨语言词嵌入的无监督映射方法的新思路,改进了现有方法,并通过详细分析证明伪数据增强方法特别适用于基于映射的跨语言词嵌入任务。
- ACL基于伪可视中心词的无监督多模态神经机器翻译
本研究探讨如何利用视觉内容实现无监督多模态机器翻译领域的降歧和提升潜空间的对齐度。该模型采用多模态反向翻译,具备伪视觉枢轴功能,实现了多语言视觉 - 语义嵌入空间学习和视觉轴描述补充弱监督。实验证明该模型显著超越了最先进的方法,并能在测试时 - 利用反向翻译和非对称去噪自编码器的半监督文本简化
本文提出了一种基于无监督机器翻译的文本简化方法,使用 back-translation 架构和噪声自编码器生成平行语料,引入不同类型的噪声进行训练的不对称去噪方法可以显著提高简化性能。模型在无监督和半监督学习中均具备较好性能,能够与当前多种 - 无监督机器翻译何时有效?
通过对不同语言对、语料库和低资源语言实施 extensive empirical evaluation,我们发现 unsupervised machine translation 的性能很大程度上取决于 source 和 target co - 多语言去噪预训练用于神经机器翻译
本文的研究表明,多语言去噪预训练在各种机器翻译任务中都有显著的性能提升,通过使用 BART 目标在许多语言的大规模单语语料库上进行序列到序列去噪自动编码器的预训练,我们提出了 mBART。mBART 是预训练完整序列到序列模型的首个方法之一 - EMNLP从口语汉语生成古典诗歌
本文提出了一种利用非文言文生成古典诗歌的新任务,并采用了无监督机器翻译的方法,在语义上给予用户更多控制权,通过基于分词的填充和强化学习等方法,取得了很好的实验效果,同时探索了如何提高生成诗歌的输入口诀,得到了高质量的诗歌生成。
- EMNLP显式跨语言预训练用于无监督机器翻译
本文提出了一种新的跨语言预训练方法,通过融合显式的跨语言训练信号,从交叉语境中获取受益的跨语言信息并使用 CMLM 预训练模型大幅提高了无监督机器翻译的性能.