期望 BLEU 得分的可微下限

NIPSDec, 2017

Differentiable lower bound for expected BLEU score

Vlad Zhukov, Eugene Golikov, Maksim Kretov

TL;DR本文提出一种计算期望 BLEU 分数的可微下限的方法，避免了使用强化学习（RL）框架的 REINFORCE 规则所需的计算昂贵的采样过程，并解决了语言处理任务中非可微度量指标和最优化所需目标的不匹配问题。

Abstract

In natural language processing tasks performance of the models is often measured with some non-differentiable metric, such as bleu score.

natural language processing non-differentiable metric surrogate loss function bleu score differentiable lower bound

发现论文，激发创造

序列预测任务损失估计

本文提出了一种新的方法来推导可微的替代损失函数，以用于训练包含每个输入 - 输出对的得分的模型，并在语音识别任务中证明了其有效性。

Nov, 2015

学习指标的神经机器翻译奖励优化

研究探讨了基于模型衡量 BLEURT 度量标准是否有益于优化 NMT 并提出了一种基于对比分裂损失的奖励优化方法，结果显示 BLEURT 的奖励优化能够较大幅度提高度量分数，并且人类评估结果显示使用 BLEURT 训练的模型提高了翻译的充分性和覆盖性。

Apr, 2021

deltaBLEU: 一种针对本质多样化目标的生成任务的鉴别指标

我们引入了判别式 BLEU (deltaBLEU)，这是一种新的度量生成文本内在质量的度量方法；它能够在多样化的输出任务中为多参考文本 BLEU 加权，对于生成对话回复的任务，该度量方法与人类判断有较高相关性且在 Spearman's rho 和 Kendall's tau 方面优于句子级别和 IBM BLEU。

Jun, 2015

利用大语言模型学习低资源语言的翻译质量评估

使用大型语言模型，无需人工注释，将合成数据集混合到现有数据集中，可以提高低资源语言的 BLEURT 模型性能。

Feb, 2023

超越 BLEU：利用语义相似性训练神经机器翻译

本文提出了一种基于语义相似度的代替奖励函数来优化 NMT 系统，在四种不同的语言翻译成英语的情况下，本文的方法不仅能提高 BLEU 和语义相似度的评估准确性，而且优化过程更快。

Sep, 2019

BLEURT: 学习文本生成的鲁棒度量

提出了一种基于 BERT 的学习评估指标 BLEURT，可以通过数千个训练实例建模人类判断，并使用数百万个合成实例的新型预训练方案来帮助模型泛化，提供在 WMT Metrics 共享任务和 WebNLG 大赛数据集上的最佳结果。

Apr, 2020

朝向神经语言评估器

该研究回顾了 BLEU 和 ROUGE 两种不足，并提出了衡量文本摘要的好指标需要具备的标准以及使用最近的基于 Transformers 的语言模型来评估参考摘要与假设摘要的具体方法。

Sep, 2019

NLP 训练中的辛普森偏差

研究机器学习中，针对不同数据集测量方法与训练模型的不一致性，引起 Simpson's bias 现象。

Mar, 2021

CodeBLEU: 一种自动评估代码合成的方法

本研究提出 CodeBLEU 作为一种新的自动代码评估指标，它可通过 n-gram 匹配吸收 BLEU 的优点，并通过抽象语法树和数据流注入代码语法和语义，实现对三种代码合成任务的质量评估，结果表明，与 BLEU 和准确性相比，我们的提出的 CodeBLEU 可以更好地与程序员分配的分数相关联。

Sep, 2020

探索机器翻译中的监督和无监督奖励

提出了两种方法来使机器翻译系统对训练中使用的度量函数的依赖性降低，一种是熵正则化 RL 方法，另一种是探索动态无监督奖励函数的新的 RL 方法，这些方法可改善机器翻译的质量和泛化性能，同时减少 BLEU 奖励函数对参考文本中所使用的单词的依赖。

Feb, 2021