利用目标词元注释促进术语翻译
本文介绍了我们在德英(DE-EN)、英捷(EN-CS)和中英(ZH-EN)语言对上提交给 WMT 2023 术语共享任务的方法,通过使用大型语言模型(LLMs)生成二语合成数据并将预批准术语整合入机器翻译(MT)中,成功地提高了术语的使用率。
Oct, 2023
在机器翻译的下游应用中,术语的正确性非常重要,通过将术语约束注入翻译系统可以实现。本研究采用一种翻译后再优化的方法,可以实现跨领域且需要较少手动操作。我们通过使用从词对齐中获得的伪术语翻译来注释随机源词,首先训练一个术语感知模型。此外,我们还探索了两种后处理方法。第一,我们使用对齐过程来发现是否违反了术语约束,如果是,则使用负面约束对违反术语的词进行重新解码。或者,我们利用大型语言模型通过提供术语约束来优化假设。结果表明,我们的术语感知模型能够有效地学习并整合术语,而大型语言模型优化过程可以进一步提高术语的召回率。
Oct, 2023
论文提出了一种模块化框架,可以用来在神经机器翻译中灵活地应用语言学知识和不同类型的神经机器翻译模型,特别是设计了用于领域适应和低资源机器翻译设置的英德医疗和英立新闻测试套件,结果表明,我们的基于规则的屈折模块比神经模块更准确地引入了引文限制,并且在低成本的训练下优于现有的端到端方法。
Sep, 2021
本文研究机器翻译中针对形态丰富的目标语言面临的挑战以及采用词元标记策略和语言学知识进行目标语言语言建模的实验,结果表明词汇量限制、语法一致性和语言关联性问题仍然是机器翻译需要解决的重要问题。
Mar, 2022
在机器翻译中,当源语言句子未提供主语的性别信息时,系统往往选择最常见的翻译选项,从而可能加剧某些群体和人员的偏见和边缘化。为减少对性别刻板印象的依赖,本论文提出使用包含主语性别信息的单词级别注释训练机器翻译系统的方法,实验结果表明,这可使机器翻译系统在五种语言对上的 WinoMT 测试集上准确度提高高达 25.8 个百分点。
Oct, 2020
本文提出了一种新颖的方法,在神经机器翻译中运行时注入自定义术语。作者通过训练神经机器翻译系统学习如何在输入时使用自定义术语,并比较实验证明这种方法不仅更有效,而且与自由约束解码一样快。
Jun, 2019
本研究提出在跨熵优化的范畴中改进后向翻译,其涵盖包括从目标到源 NMT 模型中进行采样的更广泛的合成数据生成方案,并在 WMT 2018 德语 - 英语新闻翻译任务上验证了我们的陈述。
Jun, 2019
我们提出一种新颖的形态学感知概率模型用于双语词典归纳,该模型以结构化方式联合建模词元翻译和屈折形态学。我们的模型利用词元是意义的关键词汇单位而屈折形态学提供额外句法信息的基本语言直觉。这种方法导致了显着的性能改进 - 在监督场景和弱监督场景下,跨 6 种语言对平均准确性提高了 19% 和 16%。作为另一个贡献,我们强调现代 BLI 所面临的忽视屈折形态学的问题,并提出三个改进任务的建议。
Nov, 2020
使用大型语言模型通过少量提示将英文数据集转化为多种语言,以实现多语言语义解析,并在两个公共数据集上与传统的翻译 - 训练方法进行比较,表明使用 LLM 更有效。
Oct, 2022
研究了词级语言标注对资源不足的神经机器翻译的影响,通过实验发现,当在源语言进行标注时,语法 - 语义描述标签在某些语言对中表现优于词性标签;但在目标语言进行标注时,词性标签在自动评估指标上始终优于语法 - 语义描述标签,尽管后者可改善输出的语法性。该研究提供了对此结果的详细分析。
Jan, 2024