DeltaScore：通过不同的扰动评估故事生成

Mar, 2023

DeltaScore：通过不同的扰动评估故事生成

DeltaScore: Evaluating Story Generation with Differentiating Perturbations

Zhuohan Xie, Miao Li, Trevor Cohn, Jey Han Lau

TL;DR该论文介绍了一种针对故事生成的评估方法 deltascore，它利用扰动来评估细颗粒度的故事因素，并表明其与人类判断的相关性。

Abstract

Various evaluation metrics exist for natural language generation tasks, but they have limited utility for story generation since they generally do not correlate well with human judgments and do not measure fine-g

natural language generation story generation deltascore perturbation fine-grained story aspects

发现论文，激发创造

度量迷宫导航：调和分数幅度和准确性

本文研究了现代测量方法的 “动态范围”，旨在提供有关分数差异的集体理解，包括在测量之间以及内部分数之间的意义，即我们问对于人类来说，系统之间需要多大的指标差异 X 才能被注意到。我们在一个新的大型数据集 ToShip23 上进行评估，使用该数据集发现了在评估指标达到对人类有意义的系统级差异时的差值，我们通过成对系统准确性来衡量这种差异。在数据量允许的情况下，我们还探讨了指标差异和准确性对于更细粒度特征的影响，例如翻译方向、领域和系统接近程度。

Jan, 2024

用于评估 NLG 评估指标的扰动检查清单

通过研究发现，基于单一标准（如总体质量）的自动评估指标与人工评分不能很好地关联，因此我们提出了 CheckLists 以更好地设计和评估自动评估指标，并通过模板针对特定标准对输出进行干扰，从而暴露指标的局限性，并有利于更好地设计、分析和评估这些指标。

Sep, 2021

deltaBLEU: 一种针对本质多样化目标的生成任务的鉴别指标

我们引入了判别式 BLEU (deltaBLEU)，这是一种新的度量生成文本内在质量的度量方法；它能够在多样化的输出任务中为多参考文本 BLEU 加权，对于生成对话回复的任务，该度量方法与人类判断有较高相关性且在 Spearman's rho 和 Kendall's tau 方面优于句子级别和 IBM BLEU。

Jun, 2015

Delta 去噪评分

Delta Denoising Score 是一种针对基于文本的图像编辑的新的评分函数，使用在最小修改输入图像为所需内容的过程中，利用文本生成模型的生成先验，通过 SDS 机制作为图像编辑的损失项，使用 DDS 去识别和去除 SDS 的误差方向，从而在文本的指导下实现图像到图像的翻译和零样本的图像翻译。

Apr, 2023

语言数据集漂移的表征与测量

本文提出三个语言数据漂移维度：词汇、结构和语义漂移，通过词频差异、句法差异和不可被词频捕捉的语义变化等度量，研究发现该方法比以前的方法更能够预测模型准确性，特别是在预测模型在测试集上的表现时。

May, 2023

长文本生成的模型评估

使用潜在空间中的统计工具，比较语言模型生成的文本与真实数据的分布，评估生成文本的高级结构，发现基于 Transformer 的语言模型能够捕捉主题结构，但在维持结构连贯性和建模指代关系方面存在困难。

Oct, 2022

在文本生成模型中联合测量多样性和质量

本文章提出一种同时评估生成文本方法质量和多样性的度量标准，通过逼近学习生成模型和真实数据分布的距离，并介绍了基于 n-gram 和 BERT 特征的度量方法，并且在 Oracle 训练模式下使用相应显式分布之间的距离。最后，使用现有和提出的度量标准对最流行和最新的文本生成模型进行评估，确定提出度量标准的优势。

Apr, 2019

CHAE：使用角色、动作和情感进行精细可控的故事生成

该论文提出了一种用于故事细粒度控制的模型，它允许根据个性化指导生成定制故事，实验证明其具有强大的可控性。

Oct, 2022

DiscoScore：使用 BERT 和上下文连贯性评估文本生成

介绍了一种基于 Centering 理论和 BERT 的参数化的 Discourse 评估度量，DiscoScore，在结构连贯性、事实一致性等方面优于当前流行的评估度量 BARTScore。

Jan, 2022

GREAT Score：使用生成模型对对抗扰动的全局鲁棒性进行评估

本文提出了一个称为 GREAT Score 的新框架，用于利用生成模型对对抗扰动进行全球鲁棒性评估。该方法具有高效性、可扩展性、适用于隐私敏感的黑盒模型等多个优点。

Apr, 2023