- 句法和语义接近度对机器翻译及逆向翻译的影响
无监督神经机器翻译中的实时反向翻译与多语言预训练是主要方法,该论文通过人工语言的实验,发现词汇、句法和语义属性并不能充分解释反向翻译成功的原因,但是语义信号能通过反向翻译改进两种语言的对齐,推测多语言间存在平行的丰富语义依赖,这证明了无监督 - POMP: 低资源无监督神经机器翻译中基于概率的元图提示器
提出了基于概率的元图提示器 (POMP) 方法,通过动态抽样的多个辅助语言构建有向无环的元图,以增强大型语言模型在低资源语言的翻译能力,并借助 BLEURT 评价指标验证有效性。
- 无监督神经机器翻译的实证研究:NMT 输出、模型行为和句子贡献的分析
无监督神经机器翻译(UNMT)关注于提高无人翻译平行数据的 NMT 结果,但在突出其优势与分析除翻译准确性以外的输出方面,迄今为止还做得很少。我们聚焦于三种非常不同的语言,法语、古吉拉特语和哈萨克语,并使用不同程度的监督来训练双语 NMT - 关于无监督 NMT 复制问题的训练进度与语言区分器损失
本文提出一种简单且有效的训练方法,通过增加语言鉴别器的损失,来约束中间翻译结果的语言,从而减轻低资源语言翻译中常见的抄袭问题,并提升翻译表现。
- 使用去噪反向翻译提升级联无监督语音翻译
我们提出了一种基于叠层系统的语音翻译方法,使用全非配对数据训练了我们的无监督系统,并采用去噪回译法提高翻译结果。研究结果显示,我们的方法可以有效解决低资源语言数据难以获取的问题,并在某些语言对上表现出可比较的效果。
- ACL利用社交媒体内容进行自监督风格转移
本篇论文提出一种新型自我监督的风格转换模型(3ST),根据社交媒体文章中的非并行实例,通过增强自我监督 NMT (SSNMT) 与 UNMT 方法,旨在有效地识别和利用监督信号,实现非并行数据的风格转换,表现良好。
- ACL无监督神经机器翻译训练和推断之间数据差距的纾解
通过在线自我训练方法缩小数据差距,使用伪并行数据来模拟推理情景,从而解决了 Unsupervised Neural Machine Translation中的源数据差异所带来的挑战。
- 无监督生成式语言模型神经机器翻译
通过使用大型预训练语言模型的零 - shot 翻译能力,结合少样本放大、去噪和回译等方法,成功地实现了最新的无监督神经机器翻译模型,在 WMT14 英法数据集上获得了 BLEU 42.1 的最高性能表现。
- EMNLP利用课程学习提升无监督神经机器翻译的性能
通过提出一种课程学习方法,将从多个粒度发现语料库中的质量,逐渐利用从易到难的数据,通过平衡不同部分的质量得分,推动模型关注更高质量的数据,从而显著提高无监督神经机器翻译的翻译性能.
- 人工智能翻译中的人类与 AI 合作:完美无需必要?
本文探讨采用无监督神经机器翻译生成源代码,如何应对编译和逻辑错误,通过实验发现置信度亮显和备选翻译等 UI 设计在增强软件工程师的使用体验方面起到了重要作用。
- 印度德拉维达语系自监督机器翻译
本研究探讨无监督神经机器翻译在象征 Dravidian 家族的低资源语言翻译领域中的应用,并通过使用其他相关 Dravidian 语言之间的有限而有益的辅助数据,建议在 UNMT 模型中统一书写系统是非常重要的。利用所提出的语言相似度指标可 - ACL针对无监督神经机器翻译,提升预训练语言模型的词汇能力
本文介绍了一种基于子词嵌入的双语掩码语言模型预训练方法,应用于无监督神经机器翻译和双语词汇归纳任务中均取得了较好的性能表现。
- EMNLP利用预训练语言模型进行未监督 NMT 的低语料语言重用
通过对两种大规模单语数据进行预先训练的语言模型(LM)初始化无监督神经机器翻译(UNMT)系统可以获得最先进的结果,但当一个语言的数据有限时,则会导致翻译不佳。 我们提出了一种有效的方法,该方法重新使用仅在高资源语言上进行预训练的 LM。单 - ACL多语言无监督神经机器翻译的知识蒸馏
本文介绍了一种简单的方法,使用单个编码器和解码器之间的翻译来在 13 种语言之间翻译,基于经验发现,提出了两种知识蒸馏方法,以进一步增强多语言机器翻译性能。我们的实验表明,在零 - shot 翻译方案中,在低资源语言对中减轻了糟糕的性能,并 - ACL非平衡训练数据情景下的无监督神经机器翻译自训练
本文旨在解决源语言文本资源匮乏时,因失衡的训练数据导致无监督神经机器翻译系统(UNMT)性能低下的问题,提出基于自训练机制的 UNMT 系统,实验证明了其比传统 UNMT 系统的性能更好。
- COLING带有对抗去噪训练的强鲁棒性无监督神经机器翻译
本文研究了无监督神经机器翻译在噪声数据下的鲁棒性问题,并且提出了一种针对这种噪声数据的对抗性训练方法,通过去噪来提高无监督神经机器翻译的鲁棒性。经过实验验证,该方法在一些语言对上,显著提高了传统无监督神经机器翻译系统在嘈杂场景下的性能。
- PidginUNMT:从西非皮钦语到英语的无监督神经机器翻译
本文介绍了针对西非洋泾浜英语最常用的变体进行的第一项自然语言处理工作,提供了标准语料库、跨语言嵌入和无监督神经机器翻译模型等三个贡献,有效地降低了未来 NLP 工作的准入门槛。
- MM乱序翻译问题:去噪 UNMT 问题
该论文提出了一种针对 Unsupervised 神经机器翻译(UNMT)系统中的错误类型 - 了解到的(Undreamt)中存在的 Scrambled Translation 问题,通过重新训练策略,该问题得到了有效的解决。
- ACL远程语言无监督中介翻译
本研究提出了一种基于无监督的跨语言翻译模型,采用多跳的方式将源语言翻译为目标语言,通过语言对之间的最佳翻译路径选择,最终在 20 种语言和 294 个跨度较大的语言对的实验中展示了该方法的优势。
- 利用次字符级别信息的中日无监督神经机器翻译
本研究聚焦于使用包含子字符(表意符号或笔画)级别信息的数据训练中文 - 日语无监督神经机器翻译,通过比较字符和子字符级别系统的 BLEU 分数,结果表明尽管无监督神经机器翻译在字符级数据上很有效,但是子字符级数据能够进一步提高性能,其中笔画