- ACL基于字节的神经机器翻译中整合多尺度上下文信息
在神经机器翻译(NMT)模型中,子词标记化是一种常见的词汇构建方法,但是越来越复杂的任务使其劣势显现。我们提出了多尺度上下文化(MSC)方法,它通过学习不同隐藏状态维度上的不同尺度的上下文化信息,并利用注意力模块动态地集成多尺度的上下文化信 - COLINGm3P: 走向多模多语翻译与多模提示
通过引入视觉语境作为通用的语言无关表示来促进多语言翻译的方法,该方法利用多模态提示来指导多模态多语言神经机器翻译,在低资源和大规模多语言场景下改善了翻译质量。
- BigTrans:通过超过 100 种语言的多语种翻译能力增强大型语言模型
本研究提出了 BigTrans,它基于 LLaMA-13B 模型,并通过三个步骤对其进行优化,使其在超过 100 种语言上具备多语翻译能力,初步实验表明,BigTrans 在多种语言上的表现与 ChatGPT 和 Google Transl - 通过使用翻译指示进行多语言微调,引发大型语言模型的翻译能力
本篇论文通过对一个多语种预训练语言模型 XGLM-7B 进行微调并给出指示进行多语种翻译的实验,展示了预训练语言模型在翻译任务中的较强能力,并发现其翻译能力依赖于对翻译指令的理解和语言之间的对齐,研究结果可启发模型改进。
- 众包数据集中的代词错误
研究使用多语言翻译技术在虚拟助手中嵌入多元化,解决人称代词翻译偏差问题的实践方案。
- ChatGPT 是否是一个好的翻译器?使用 GPT-4 作为引擎,是的
该报告提供了 ChatGPT 在机器翻译方面的初步评估,包括翻译提示、多语言翻译和翻译健壮性。我们采用了 ChatGPT 建议的提示来触发其翻译能力,并发现候选提示通常表现良好,并显示出轻微的性能差异。在多个基准测试集上进行评估后,我们发现 - ACL多语言神经机器翻译:深度编码器与多浅层解码器
对多语种翻译使用深度编码器和浅层解码器 (DEMSD) 的方法,使得在翻译质量没有显著损失的情况下,可获得 1.8 倍的平均速度提升。
- 面向低资源语言的更优中心化神经机器翻译
本文介绍了一种在低资源语言环境下基于汉语的多语言机器翻译方法,并采用了单语词嵌入数据增强、双语课程学习、对比重排和一种新型的 Incomplete-Trust(In-trust)损失函数,实现了优于其他先进方法的性能。
- EMNLP超越蒸馏:面向任务的专家混合方法实现高效推断
该论文研究了不同粒度(令牌、句子、任务)MoE 模型中的路由策略,以绕过蒸馏。通过任务级路由(task-MoE)在 WMT 和 Web 规模数据集上进行的实验表明,我们能够从大型稀疏模型中提取更小、可部署的子网络。对于 30 种语言对,我们 - EMNLP多语言和多域神经机器翻译训练的不确定性平衡
本文介绍了一种能够动态调整训练数据使用的方法 MultiUAT,用于多语料机器翻译,通过信任的干净数据确定模型的不确定性,实现数据平衡,经过实验证明,MultiUAT 在多语言和多领域环境下都比现有方法表现更好。
- EMNLP重新审视模块化多语言神经机器翻译以满足工业需求
本研究对多语言神经机器翻译模型重回共享同一语言模块作为一种实用的替代方法,发现使用多路径训练可将模型的性能提升到与要求相当的水平,而增量学习可比单一训练模式具有更好的效果,在工业应用中是一种有竞争力的候选模型。
- ACL零样本神经机器翻译中一致性的达成
通过将多语言翻译问题重新构造为概率推理,定义了零 - shot 一致性的概念;引入了一种基于一致性约束的训练方法,鼓励模型在辅助语言中生成等效的平行句子翻译,最终我们测试了多种公共的零 - shot 翻译基准数据集,并证明基于一致性约束训练 - 面向多语言神经翻译的同源词意感知形态分割
Aalto 大学使用基于 Transformer 模型的系统,通过引入跨语言的 Cognate Morfessor 来改进英语到芬兰语和爱沙尼亚语翻译的一致性,尤其是对于爱沙尼亚语这种资源相对较少的语言,同时在 WMT18 新闻翻译中取得了 - 生成式神经机器翻译
介绍了生成神经机器翻译(GNMT)的概念,通过添加潜在变量提高翻译模型的语义建模能力,从而实现跨语言翻译,半监督学习以及降低过拟合的效果。
- ACL不需显式分段的全字符级神经机器翻译
该研究提出了一个无需分词的神经机器翻译模型,在 WMT'15 数据集上使用多语言字符级编码器和基于字符卷积神经网络的模型,不仅速度快,泛化性能好,而且能够跨多语言实现高质量普适翻译,效果优于子词级编码器。