BLEURT: 学习文本生成的鲁棒度量
本文介绍我们对 RoBLEURT(Robustly Optimizing the training of BLEURT)分享指标任务的提交,并通过联合利用源自模型和仅参考模型优势、大量合成数据对模型进行持续预训练和使用数据去噪策略进行微调等关键操作,实现了在 8 个中英翻译语言对上达到 WMT2020 人类注释技术最高相关性的模型。
Apr, 2022
本文介绍了我们在 WMT 2020 Metrics Shared Task 中的贡献,通过扩展 BLEURT 度量标准评估 14 种语言对以及 4 种 ' 零样本 ' 语言对,针对英德语言对结合 BLEURT 和 YiSi 的预测结果进行性能增强,实验证据表明模型在 WMT Metrics 2019 Shared Task 中取得了有竞争力的结果,并展示了其在 2020 年版中的潜力。
Oct, 2020
自动评估指标在机器翻译中起着关键作用,研究表明预训练模型和神经网络评估指标在提高机器翻译性能时存在稳健性缺陷,并提出通过引入基于标记的约束来增强评估指标的鲁棒性。
Jul, 2023
研究探讨了基于模型衡量 BLEURT 度量标准是否有益于优化 NMT 并提出了一种基于对比分裂损失的奖励优化方法,结果显示 BLEURT 的奖励优化能够较大幅度提高度量分数,并且人类评估结果显示使用 BLEURT 训练的模型提高了翻译的充分性和覆盖性。
Apr, 2021
使用 RemBERT 模型的实验表明,模型大小限制了跨语言转换的效率,将知识从一名教师传递到以相关语言训练的多个学生可以通过蒸馏解决这个问题,该方法可以使性能提高 10.5%,并仅使用 RemBERT 的三分之一的参数即可达到 92.6%的性能。
Oct, 2021
该研究回顾了 BLEU 和 ROUGE 两种不足,并提出了衡量文本摘要的好指标需要具备的标准以及使用最近的基于 Transformers 的语言模型来评估参考摘要与假设摘要的具体方法。
Sep, 2019
本文研究了基于 BERT 的评估指标在文本生成上的效果。通过使用一种简单的回归全局可解释性技术,将指标分解成了语言要素,包括语义、句法、形态和词汇重叠。研究表明,不同的评估指标在一定程度上对所有方面都有所捕捉,但它们都非常敏感于词汇重叠,正如 BLEU 和 ROUGE 所做的那样。这揭示了这些新提出的指标的限制,在敌对测试场景下也得到了证实。
Oct, 2021
我们研究了对抗性合成文本上的机器翻译评估指标的性能,以阐明指标的稳健性。我们对三个流行的机器翻译指标(BERTScore、BLEURT 和 COMET)进行了单词级和字符级的攻击实验。我们的人工实验验证了自动指标倾向于过度惩罚对抗性降级翻译。我们还发现了 BERTScore 评级的不一致性,在判断原始句子和对抗性降级句子相似的同时,将降级翻译与参考文献相比较,判断其比原始句子明显更差。我们确定了一些脆弱性模式,从而推动更稳健的指标开发。
Nov, 2023
本研究探讨将传统评估方法如 BLEU 或 chrF 与基于神经网络的机器翻译评估方法如 COMET 或 BLEURT 相结合,通过使用附加的诸如句子级特征和单词级标签等额外信息训练评估指标,提高了最新状态下的机器翻译评估方法的稳健性,从而在几种语言对上提高了与人类判断的相关性和在挑战数据集上获得了更好的表现。
May, 2023