重新思考和完善区别度量

ACLFeb, 2022

Rethinking and Refining the Distinct Metric

Siyang Liu, Sahand Sabour, Yinhe Zheng, Pei Ke, Xiaoyan Zhu...

TL;DR通过缩放词汇期望值来计算独特分数，我们提出了一种新的期望调整独特分数方法（EAD），能有效消除原始独特分数中存在的偏差，与人类判断更为相关。

Abstract

Distinct-$n$ score\cite{Li2016} is a widely used automatic metric for evaluating diversity in language generation tasks. However, we observed that the original approach for calculating distinct scores has evident biases that tend to assign higher penalties to longer sequences. We refin

distinct-n score language generation response diversity evaluation bias

发现论文，激发创造

文本多样性的标准化测量：工具和分数的比较分析

通过对英文文本的计算性高压缩算法和 $n$-gram 重叠同质性得分的测量，我们发现多种测量指标的组合（如压缩比、长 $n$-gram 的自我重复、Self-BLEU 和 BERTScore）足以报告多样性得分，并可应用于生成模型、调试指导型数据集和人工生产文本的分析。

Mar, 2024

针对条件自然语言生成的分布感知度量

本文提出了一个新的方法对多样本设置下条件语言生成模型进行评估，通过对多个生成的结果进行比较，以区分单一描述和多样性质的差异并提出一些结论。

Sep, 2022

在文本生成模型中联合测量多样性和质量

本文章提出一种同时评估生成文本方法质量和多样性的度量标准，通过逼近学习生成模型和真实数据分布的距离，并介绍了基于 n-gram 和 BERT 特征的度量方法，并且在 Oracle 训练模式下使用相应显式分布之间的距离。最后，使用现有和提出的度量标准对最流行和最新的文本生成模型进行评估，确定提出度量标准的优势。

Apr, 2019

自然语言生成中多样性评估的评估

本文提出了一种通过建立多样性度量指标及其多样性参数之间关系的系统来评估自然语言生成（NLG）系统多样性的方法，并通过对人类和自动度量，解码参数调整等方面的实验展示了这个框架的实用性。

Apr, 2020

生成模型的基于属性的可解释评估指标

当训练数据集由 1:1 的狗和猫比例组成时，生成模型会更好地符合训练种群分布，而不是由 3:1 的狗和猫比例组成的其他模型。我们提出了一个新的评估协议来衡量生成的图像集与训练集在属性强度分布方面的差异。我们的指标为生成模型的评估奠定了基础。

Oct, 2023

指导调整数据集的多样性测量与子集选择

本研究旨在选择数据子集用于大型语言模型的微调，以更有效地按照指令执行。我们使用决定性点过程来捕捉指令微调数据集的多样性和质量，提出使用以对数行列式距离衡量数据集的多样性。实验证明，在归一化权重梯度空间中所提出的多样性度量与下游指令跟随性能有关，可用于确定数据选择何时最有帮助，并分析数据集的策略。我们在各种指令微调数据集上展示了我们方法的实用性。

Feb, 2024

从模型中心到人本中心：基于语言模型的应用中文本评估的修订距离度量

我们的研究将焦点从以模型为中心的评估方法转变为以人为中心的评估方法，提出了一种名为 “修订距离” 的度量方法，通过计算大型语言模型生成的修订编辑数来评估文本，并在易写作任务和具有挑战性的学术写作任务中提供更准确、详细的反馈，同时在缺乏参考文本的情况下也具有潜力。

Apr, 2024

透明比较多语言自然语言处理数据集中的语言多样性的一种度量

提出了一种评估数据集语言多样性的方法，通过比较语言特征集合的 Jaccard 指数来分析，发现大部分流行的多语种数据集中缺乏多种语言类型，特别是 (poly) synthetic languages。

Mar, 2024

MAD Speech：语音声音多样性的度量

发展了一种声学多样性的轻量级度量标准集，通过专门的嵌入模型和一个聚合函数来衡量声学多样性，在多个真实评估场景中展示了其适用性。

Apr, 2024

超越规模：多样性系数作为数据质量度量展示 LLMs 是在形式多样的数据上预训练的

研究发现使用 Task2Vec diversity coefficient 可以衡量预训练数据集的多样性，该多样性与潜在概念的数量成正比，且可用于构建有用的多样化预训练数据集。

Jun, 2023