自然语言生成中多样性评估的评估
本文章提出一种同时评估生成文本方法质量和多样性的度量标准,通过逼近学习生成模型和真实数据分布的距离,并介绍了基于 n-gram 和 BERT 特征的度量方法,并且在 Oracle 训练模式下使用相应显式分布之间的距离。最后,使用现有和提出的度量标准对最流行和最新的文本生成模型进行评估,确定提出度量标准的优势。
Apr, 2019
评估自动生成诗歌的多样性,通过比较自动生成诗歌的结构、词汇、语义和风格等维度的分布与人类诗歌的分布,并考察不同模型类型和微调类型,发现当前的自动生成诗歌系统在多个维度上缺乏多样性,但风格条件和字符级建模明显增加了多样性。这些限制可用于更加多样化的未来诗歌生成模型。
Jun, 2024
通过对英文文本的计算性高压缩算法和 $n$-gram 重叠同质性得分的测量,我们发现多种测量指标的组合(如压缩比、长 $n$-gram 的自我重复、Self-BLEU 和 BERTScore)足以报告多样性得分,并可应用于生成模型、调试指导型数据集和人工生产文本的分析。
Mar, 2024
本文探究了 NLG 评估中常用的自动化评估方法的局限性,并提出了一种系统和数据独立的新型评价方法,包括先进的基于词汇和基于语法的度量。实验证明,这些方法并不能完全反映人的判断,且表现受到数据与系统的影响。但是,自动评估仍可支持系统的开发,发现系统表现不佳的问题。
Jul, 2017
本文提出了一个统一的框架来评估 “人或机器生成” 的句子的错误率,并结合人类和统计学的评估来评估自然语言生成系统的多样性和质量,带来了更准确和全面的结果。
Apr, 2019
我们提出了一种新的多样性评估度量,用于评估每个实例的前 K 个生成问题的多样性,并确保它们与事实相关。同时,我们引入了一个双模型框架,通过两种选择策略将外部自然问题与生成模型相结合,以生成多样化的问题。实验结果表明,我们的方法生成了高度多样化的问题,并改善了问题回答任务的性能。
Sep, 2023
通过将神经网络编码的熵用于比较图像集合之间的多样性,我们提出了一种无需基准知识且易于计算的方法来评估协同创作系统生成的内容的多样性。通过比较两个预训练网络的选择与我们想要评估的多样性概念的关系,我们还讨论了这些度量在交互系统中的概念生成、模型评估以及计算创造力的更广泛应用。
Mar, 2024
该论文介绍了目前自然语言生成领域的研究现状及其衡量标准的快速发展,说明了早期的启发式量化策略难以满足各种不同类型 NLG 任务的需求,因此需要发展更加准确的自动评估指标,并给出了该领域发展的建议和方向。
Aug, 2020
通过研究发现,基于单一标准(如总体质量)的自动评估指标与人工评分不能很好地关联,因此我们提出了 CheckLists 以更好地设计和评估自动评估指标,并通过模板针对特定标准对输出进行干扰,从而暴露指标的局限性,并有利于更好地设计、分析和评估这些指标。
Sep, 2021