文本生成动作的最佳自动评估指标是什么？

Sep, 2023

文本生成动作的最佳自动评估指标是什么？

What is the Best Automated Metric for Text to Motion Generation?

Jordan Voas, Yili Wang, Qixing Huang, Raymond Mooney

TL;DR人们对从自然语言描述中生成基于骨架的人类动作越来越感兴趣。本文系统地研究了哪些度量标准与人类评价最为相关，并提出了新的度量标准，这些度量标准与人类判断之间的相关性更好。通过对样本水平的人类评价，发现目前用于此任务的度量标准中没有一个与人类判断呈现中度甚至更高的相关性。然而，用于评估模型平均性能的常用度量标准（例如 R-Precision）和较少使用的坐标误差表现出了较强的相关性。此外，与其他替代方法相比，不推荐使用一些最近开发的度量标准，因为它们与人类判断的相关性较低。我们还引入了一种基于多模态 BERT 模型 MoBERT 的新度量标准，该度量标准在样本级别上与人类判断高度相关，并且在模型级别上具有近乎完美的相关性。我们的结果表明，这种新度量标准比当前所有替代方案都有广泛的优势。

Abstract

There is growing interest in generating skeleton-based human motions from natural language descriptions. While most efforts have focused on developing better neural architectures for this task, there has been no significant work on determining the proper →

skeleton-based human motions evaluation metric generative models human judgments mobert

发现论文，激发创造

建立统一的人体动作生成评估框架：指标的比较分析

发展用于人类动作生成的生成式人工智能迅速扩展，需要一个统一的评估框架。本文详细评述了八种用于人类动作生成的评估指标，突出其独特特点和不足之处。我们提出了一种标准化实践，通过一个统一的评估设置来促进一致的模型比较。此外，我们引入了一种新的度量标准，通过分析时间扭曲的多样性来评估时间数据的多样性，从而增强了时间数据的评估能力。我们还使用一个公开可用的数据集对三个生成模型进行了实验分析，提供了在特定案例场景中对每个度量标准的解释。我们的目标是为初学者提供一个清晰、用户友好的评估框架，并附带公开可访问的代码。

May, 2024

自然语言生成中的自动评估的玻璃天花板

本文对比了现有的自动评估指标和人工评估指标，发现自动评估指标与人工评估指标相比非常相似，并提出了未来评估工作的建议。

Aug, 2022

自动机器翻译评估指标的全面评估：是否需要进行交付

该研究对机器翻译中评估标准的可靠性进行了探究，发现使用自动指标作为唯一评判标准可能导致错误决策，需要依赖人工判断作为参考，并发布了收集到的大规模人工翻译质量评价数据集，以供进一步研究。

Jul, 2021

文本到动作检索：走向人体运动数据和自然语言的联合理解

本文探讨如何实现基于文本描述的运动检索任务，利用姿态估计、文本编码和基于分割空时注意力的 Motion Transformer 模型，对大量 3D 骨骼序列进行内容检索，实现了相应的定量度量评估。

May, 2023

基于经验的度量偏好清单：超越相关性分析的自然语言生成评估指标

该研究分析了基于人类评估方面作为上下文或目标来计算 NLG 自动度量的自动度量，并提出了度量偏好清单作为评估自动度量在三个 NLG 任务中的区分能力的框架。研究显示，多方面的人性化度量并不一定比单方面的人性化度量和任务不可知度量更为优越，并且自动度量在一些情况下提供了比人类更好的指导。该框架提供了验证自动度量是否忠实于人类偏好的访问，以及审查 NLG 系统的优势和局限性的能力。

May, 2023

自动度量文本生成偏好评级中的错误校正

本文介绍了一种基于统计模型的文本生成评估方法，利用自动化度量的优点和人工评级的精度，通过最佳组合的方式来改进文本生成评估的准确度，而且只需要使用人工评注的 50% 即可获得与 100% 人工评级相同的评估结果。

Jun, 2023

人工评价与自动评价：相关性设计的重要性

本文讨论了在自然语言生成领域中，自动评估度量和人类评分之间相关性分析的两种方法。我们的实验表明，根据使用系统级或句子级相关性分析，自动评分和人类判断之间的相关性结果是不一致的。

May, 2018

语言生成评估指标的奇异案例：一则警示故事

本文探讨了自然语言处理中，现有的语言生成系统的自动评估指标的局限性，提出了一些应该受到更多关注的失败案例，鼓励研究人员更加谨慎地考虑如何评价自动生成的文本。

Oct, 2020

衡量文本 - 视频模型输出的质量：指标和数据集

我们评估了常用质量度量，比较它们与人工评估在包含 1000 多个生成的 T2V 视频的数据集上的表现。结论是，在评估 T2V 模型输出时，自然性和语义匹配是重要因素，但没有一种单一度量可以捕捉这些微妙之处。

Sep, 2023

MoverScore: 文本生成的上下文嵌入和地球移动距离评估

本文研究评估文本生成系统的评价指标，提出了基于语义而非形式的指标 MoverScore，并通过多项任务的验证表明采用上下文表示和距离测度相结合的方法可以取得最佳表现，该指标具有较强的泛化能力，并已提供 Web 服务方便使用。

Sep, 2019