本文研究了现代测量方法的 “动态范围”,旨在提供有关分数差异的集体理解,包括在测量之间以及内部分数之间的意义,即我们问对于人类来说,系统之间需要多大的指标差异 X 才能被注意到。我们在一个新的大型数据集 ToShip23 上进行评估,使用该数据集发现了在评估指标达到对人类有意义的系统级差异时的差值,我们通过成对系统准确性来衡量这种差异。在数据量允许的情况下,我们还探讨了指标差异和准确性对于更细粒度特征的影响,例如翻译方向、领域和系统接近程度。
Jan, 2024
通过研究发现,基于单一标准(如总体质量)的自动评估指标与人工评分不能很好地关联,因此我们提出了 CheckLists 以更好地设计和评估自动评估指标,并通过模板针对特定标准对输出进行干扰,从而暴露指标的局限性,并有利于更好地设计、分析和评估这些指标。
Sep, 2021
我们引入了判别式 BLEU (deltaBLEU),这是一种新的度量生成文本内在质量的度量方法;它能够在多样化的输出任务中为多参考文本 BLEU 加权,对于生成对话回复的任务,该度量方法与人类判断有较高相关性且在 Spearman's rho 和 Kendall's tau 方面优于句子级别和 IBM BLEU。
Jun, 2015
Delta Denoising Score 是一种针对基于文本的图像编辑的新的评分函数,使用在最小修改输入图像为所需内容的过程中,利用文本生成模型的生成先验,通过 SDS 机制作为图像编辑的损失项,使用 DDS 去识别和去除 SDS 的误差方向,从而在文本的指导下实现图像到图像的翻译和零样本的图像翻译。
Apr, 2023
本文提出三个语言数据漂移维度:词汇、结构和语义漂移,通过词频差异、句法差异和不可被词频捕捉的语义变化等度量,研究发现该方法比以前的方法更能够预测模型准确性,特别是在预测模型在测试集上的表现时。
May, 2023
使用潜在空间中的统计工具,比较语言模型生成的文本与真实数据的分布,评估生成文本的高级结构,发现基于 Transformer 的语言模型能够捕捉主题结构,但在维持结构连贯性和建模指代关系方面存在困难。
Oct, 2022
本文章提出一种同时评估生成文本方法质量和多样性的度量标准,通过逼近学习生成模型和真实数据分布的距离,并介绍了基于 n-gram 和 BERT 特征的度量方法,并且在 Oracle 训练模式下使用相应显式分布之间的距离。最后,使用现有和提出的度量标准对最流行和最新的文本生成模型进行评估,确定提出度量标准的优势。
Apr, 2019
该论文提出了一种用于故事细粒度控制的模型,它允许根据个性化指导生成定制故事,实验证明其具有强大的可控性。
介绍了一种基于 Centering 理论和 BERT 的参数化的 Discourse 评估度量,DiscoScore,在结构连贯性、事实一致性等方面优于当前流行的评估度量 BARTScore。
Jan, 2022
本文提出了一个称为 GREAT Score 的新框架,用于利用生成模型对对抗扰动进行全球鲁棒性评估。该方法具有高效性、可扩展性、适用于隐私敏感的黑盒模型等多个优点。