本文提出了一种新的方法来推导可微的替代损失函数,以用于训练包含每个输入 - 输出对的得分的模型,并在语音识别任务中证明了其有效性。
Nov, 2015
研究探讨了基于模型衡量 BLEURT 度量标准是否有益于优化 NMT 并提出了一种基于对比分裂损失的奖励优化方法,结果显示 BLEURT 的奖励优化能够较大幅度提高度量分数,并且人类评估结果显示使用 BLEURT 训练的模型提高了翻译的充分性和覆盖性。
Apr, 2021
我们引入了判别式 BLEU (deltaBLEU),这是一种新的度量生成文本内在质量的度量方法;它能够在多样化的输出任务中为多参考文本 BLEU 加权,对于生成对话回复的任务,该度量方法与人类判断有较高相关性且在 Spearman's rho 和 Kendall's tau 方面优于句子级别和 IBM BLEU。
Jun, 2015
使用大型语言模型,无需人工注释,将合成数据集混合到现有数据集中,可以提高低资源语言的 BLEURT 模型性能。
Feb, 2023
本文提出了一种基于语义相似度的代替奖励函数来优化 NMT 系统,在四种不同的语言翻译成英语的情况下,本文的方法不仅能提高 BLEU 和语义相似度的评估准确性,而且优化过程更快。
Sep, 2019
提出了一种基于 BERT 的学习评估指标 BLEURT,可以通过数千个训练实例建模人类判断,并使用数百万个合成实例的新型预训练方案来帮助模型泛化,提供在 WMT Metrics 共享任务和 WebNLG 大赛数据集上的最佳结果。
Apr, 2020
该研究回顾了 BLEU 和 ROUGE 两种不足,并提出了衡量文本摘要的好指标需要具备的标准以及使用最近的基于 Transformers 的语言模型来评估参考摘要与假设摘要的具体方法。
研究机器学习中,针对不同数据集测量方法与训练模型的不一致性,引起 Simpson's bias 现象。
Mar, 2021
本研究提出 CodeBLEU 作为一种新的自动代码评估指标,它可通过 n-gram 匹配吸收 BLEU 的优点,并通过抽象语法树和数据流注入代码语法和语义,实现对三种代码合成任务的质量评估,结果表明,与 BLEU 和准确性相比,我们的提出的 CodeBLEU 可以更好地与程序员分配的分数相关联。
Sep, 2020
提出了两种方法来使机器翻译系统对训练中使用的度量函数的依赖性降低,一种是熵正则化 RL 方法,另一种是探索动态无监督奖励函数的新的 RL 方法,这些方法可改善机器翻译的质量和泛化性能,同时减少 BLEU 奖励函数对参考文本中所使用的单词的依赖。
Feb, 2021