在文本生成模型中联合测量多样性和质量

ACLApr, 2019

在文本生成模型中联合测量多样性和质量

Jointly Measuring Diversity and Quality in Text Generation Models

Ehsan Montahaei, Danial Alihosseini, Mahdieh Soleymani Baghshah

TL;DR本文章提出一种同时评估生成文本方法质量和多样性的度量标准，通过逼近学习生成模型和真实数据分布的距离，并介绍了基于 n-gram 和 BERT 特征的度量方法，并且在 Oracle 训练模式下使用相应显式分布之间的距离。最后，使用现有和提出的度量标准对最流行和最新的文本生成模型进行评估，确定提出度量标准的优势。

Abstract

text generation is an important Natural Language Processing task with various applications. Although several metrics have already been introduced to evaluate the →

text generation nlp metrics quality diversity

发现论文，激发创造

文本多样性的标准化测量：工具和分数的比较分析

通过对英文文本的计算性高压缩算法和 $n$-gram 重叠同质性得分的测量，我们发现多种测量指标的组合（如压缩比、长 $n$-gram 的自我重复、Self-BLEU 和 BERTScore）足以报告多样性得分，并可应用于生成模型、调试指导型数据集和人工生产文本的分析。

Mar, 2024

关于文本生成中质量多样性评估与分布拟合目标的关系

本研究旨在通过理论模型探究文本生成模型的多样性质量评估指标能否反映其真实概率分布拟合目标的关系，并证明在特定条件下质量和多样性的线性组合构成了生成分布与真实分布之间的差异度量，同时提出 CR/NRR 作为质量 / 多样性度量对的替代品，因为常用的 BLEU/Self-BLEU 度量对无法匹配任何差异度量。

Jul, 2020

自然语言生成中多样性评估的评估

本文提出了一种通过建立多样性度量指标及其多样性参数之间关系的系统来评估自然语言生成（NLG）系统多样性的方法，并通过对人类和自动度量，解码参数调整等方面的实验展示了这个框架的实用性。

Apr, 2020

针对条件自然语言生成的分布感知度量

本文提出了一个新的方法对多样本设置下条件语言生成模型进行评估，通过对多个生成的结果进行比较，以区分单一描述和多样性质的差异并提出一些结论。

Sep, 2022

BLEURT: 学习文本生成的鲁棒度量

提出了一种基于 BERT 的学习评估指标 BLEURT，可以通过数千个训练实例建模人类判断，并使用数百万个合成实例的新型预训练方案来帮助模型泛化，提供在 WMT Metrics 共享任务和 WebNLG 大赛数据集上的最佳结果。

Apr, 2020

面向自然语言生成的可解释评估度量

本文提出了解释性机器翻译评估指标的关键属性和目标并综述了最近的方法，通过实验发现当前的对抗性 NLP 技术不能自动识别高质量黑盒评估指标的局限性，提出了未来解释性评估指标的发展方向。

Mar, 2022

学习比较，提高开放领域自然语言生成模型的训练和评估

本文提出了一种使用 BERT fine-tuning 的方法来比较生成的自然语言模型，同时还提出了使用技能等级系统来评估模型质量，并将其作为性能指标，在训练过程中进行优化。实验结果表明，该方法与人类偏好的相关性更高，训练成果更优秀，有效性得到了证明。

Feb, 2020

将人类和统计评估统一为一体：自然语言生成

本文提出了一个统一的框架来评估 “人或机器生成” 的句子的错误率，并结合人类和统计学的评估来评估自然语言生成系统的多样性和质量，带来了更准确和全面的结果。

Apr, 2019

关于图像标注中的多样性：如何像人类一样描述

本文提出了一种新的度量图像标题多样性的指标，并使用隐含语义分析进行核函数转换以利用 CIDEr 相似度进行度量，结果发现最近的标题模型在准确度和多样性方面与人类表现仍存在较大差距，并且优化准确度（CIDEr）的模型的多样性很低，同时表明在强化学习的交叉熵损失和 CIDEr 奖励之间进行平衡可以有效地控制生成的标题的多样性和准确性的平衡。

Mar, 2019

自然语言生成系统所使用的评价指标调查

该论文介绍了目前自然语言生成领域的研究现状及其衡量标准的快速发展，说明了早期的启发式量化策略难以满足各种不同类型 NLG 任务的需求，因此需要发展更加准确的自动评估指标，并给出了该领域发展的建议和方向。

Aug, 2020