通过自然语言指示引导的训练度量 TIGERScore 对广泛的文本生成任务进行解释性和无参考评估,该度量基于经过精心策划的指示调优数据集 MetricInstruct 进行 LLaMA 训练,覆盖 6 个文本生成任务和 23 个文本生成数据集,通过与人类评分的相关性评估和定性评估结果表明,TIGERScore 在这些数据集上能够取得最高的斯皮尔曼相关性,显著优于其他度量标准,并且作为无参考度量标准,其相关性甚至可以超过最佳的基于参考的度量标准,通过这些实验结果,我们相信 TIGERScore 展示了建立通用的可解释性度量标准来评估任何文本生成任务的可能性。
Oct, 2023
本文研究评估文本生成系统的评价指标,提出了基于语义而非形式的指标 MoverScore,并通过多项任务的验证表明采用上下文表示和距离测度相结合的方法可以取得最佳表现,该指标具有较强的泛化能力,并已提供 Web 服务方便使用。
Sep, 2019
本文提出了一种新的评估框架 GPTScore,利用生成预训练模型的崭新能力对生成的文本进行评分,实验结果表明该方法能够高效地实现对文本的定制化、多方面评估,不需要注解样本。
Feb, 2023
本文提出了一种名为 FrugalScore 的方法,用于学习定制的低成本版本的自然语言生成度量标准,其性能与原始的度量标准相当,甚至更好,同时具有更少的参数和更快的运行速度,为有限资源的研究者和从业者提供帮助。
Oct, 2021
BERTScore 是一种针对文本生成的自动评估指标,利用上下文嵌入计算 token 的相似性,能够更好地与人类判断相关,并提供比现有度量更强的模型选择性能。
Apr, 2019
本文提出 RankT5,通过两种基于 T5 的排名模型结构来直接输出每个查询文档对的排名分数,并通过 ' 成对 ' 或' 列表 ' 排列损失进行微调以优化排名表现。实验表明,利用排名损失的所提出的模型可以在不同的公共文本排名数据集上取得实质性的排名表现提高,并且当与分类损失精细调整后,模型在域外数据集上出现更好的零售排名表现。
Oct, 2022
本文章提出一种同时评估生成文本方法质量和多样性的度量标准,通过逼近学习生成模型和真实数据分布的距离,并介绍了基于 n-gram 和 BERT 特征的度量方法,并且在 Oracle 训练模式下使用相应显式分布之间的距离。最后,使用现有和提出的度量标准对最流行和最新的文本生成模型进行评估,确定提出度量标准的优势。
本文研究现有评估指标的局限性,并引入一种新的评估方法,即 Text-to-Video Score (T2VScore),该指标综合考虑了文本 - 视频对齐和视频质量两个关键要素。同时,我们提出了 TVGE 数据集,以评估和促进未来改进文本到视频生成的指标。在 TVGE 数据集上的实验证明了 T2VScore 的优越性,能够提供更好的评估指标。
Jan, 2024
本文提出了一个新的方法对多样本设置下条件语言生成模型进行评估,通过对多个生成的结果进行比较,以区分单一描述和多样性质的差异并提出一些结论。
Sep, 2022
研究发现,基于预测和生成两种模型训练的语音增强模型会对干扰和非干扰性能指标表现出不同的相关性,促使人们寻找更完整、不偏不倚的语音增强性能测量标准。
Jun, 2023