利用文档最小风险训练解决生物医学翻译任务中的曝光偏差问题：剑桥在 WMT20 中的实践

Oct, 2020

利用文档最小风险训练解决生物医学翻译任务中的曝光偏差问题：剑桥在 WMT20 中的实践

Addressing Exposure Bias With Document Minimum Risk Training: Cambridge at the WMT20 Biomedical Translation Task

Danielle Saunders, Bill Byrne

TL;DR本研究使用最小风险训练方法对 WMT 医学翻译任务进行微调，解决训练样本不足和句子对不匹配等问题，取得了较好的翻译结果。

Abstract

The 2020 wmt biomedical translation task evaluated Medline abstract translations. This is a small-domain translation task, meaning limited relevant training data with very distinct style and vocabulary. Models trained on such data are susceptible to →

wmt biomedical translation task exposure bias effects minimum risk training fine-tuning translation results

发现论文，激发创造

WMT19：UCAM 生物医学翻译：多领域的迁移学习集成

本研究使用迁移学习和多域集成的方法，在 2019 WMT 生物医学翻译任务中取得优秀的成果，并尝试使用自适应语言模型集成权重方案来优化模型。该模型在英西双向翻译任务中取得了最佳结果。

Jun, 2019

神经机器翻译的最小风险训练

本论文提出了最小风险训练方法用于端到端神经机器翻译，在优化模型参数方面比传统的最大似然估计方法更加灵活，可适用于任意不可微分的评价指标，在多种语言对上均表现出显著改进，其方法与网络结构无关，可应用于更多神经网络和潜在的自然语言处理任务。

Dec, 2015

神经机器翻译中的曝光偏差、幻觉和领域偏移

本论文从三个数据集中的多个测试域的实验中，展示了暴露偏差对于幻觉的部分责任，并且证明了避免暴露偏差的 Minimum Risk Training 可以缓解幻觉问题，并说明了暴露偏差在领域转移下更加问题，并且将其与 Beam Search 问题联系起来。因此，即使暴露偏差算法不会增加在领域测试集上的性能，但它们可以提高模型对领域移位的鲁棒性。

May, 2020

微软提交 WMT2018 新闻翻译任务报告：如何不再担忧，爱上数据

本文介绍了微软参加 WMT2018 新闻翻译共享任务的提交，对于英语到德语的一种语言方向中，基于最佳实践，采用了最先进的模型和新数据过滤和句子加权方法来训练在 Paracrawl 上实验结果表明，根据自动指标 (BLEU)，我们在此子任务中得分最高，比接下来最强大的系统高近 2 BLEU 分数，根据人工评估，我们在受限系统中排名第一，我们认为这主要是由于我们的数据过滤 / 加权组合的实施。

Sep, 2018

神经机器翻译的词汇表和最小风险训练：NAIST-CMU 在 WAT2016 中的表现

NAIST/CMU 使用注意力神经机器翻译模型参加 2016 年亚洲翻译研讨会日 - 英翻译任务，通过使用离散翻译词典和最小风险训练等技术，取得最高翻译评估分数.

Oct, 2016

BLEURT 具有通用翻译能力：最小风险训练下自动度量分析

自动评估指标在机器翻译中起着关键作用，研究表明预训练模型和神经网络评估指标在提高机器翻译性能时存在稳健性缺陷，并提出通过引入基于标记的约束来增强评估指标的鲁棒性。

Jul, 2023

神经机器翻译中最小贝叶斯风险解码的特性理解

本论文探讨神经机器翻译中的偏差以及在域偏移和样本干扰下的弱点，并找到应用最小贝叶斯风险解码对抗这些问题的方案。结果表明，这个方法虽然仍有长度和频率偏差，但同样增加了模型的鲁棒性，对样本干扰和域偏移具有更好的适应能力

May, 2021

领域适应问题中的神经机器翻译性别偏见减少

翻译系统中存在的性别偏见问题影响翻译质量，作者使用许多小规模相似数据的迁移学习替代了传统的样本平衡方法，并使用弹性权重共享和基于网络重叠的方法解决了迁移学习中的遗忘问题。最后，作者构建了优于其他系统的词网重新评分方案来解决性别偏见问题。

Apr, 2020

神经机器翻译中的语言覆盖偏差

本文研究神经机器翻译中的语言覆盖偏差问题，并提出两种有效方法来缓解该问题。结果表明，通过明确区分源语言和目标语言的训练数据，可以提高现有方法在六个翻译任务上的表现。同时，作者还发现语言覆盖偏差问题也能够解释回译所导致的性能下降表现，并在数据增强的两种代表性方法中实现了更好的表现。

Jun, 2021

通过最小贝叶斯风险解码识别机器翻译指标的缺陷：以 COMET 为例的案例研究

本论文探讨神经测量在机器翻译评估中的作用，提出最小贝叶斯风险解码策略，以消除评估的偏见，发现机器翻译中存在数字和命名实体的偏见，提供代码和数据以便未来的研究。

Feb, 2022