建立统一的人体动作生成评估框架：指标的比较分析

May, 2024

建立统一的人体动作生成评估框架：指标的比较分析

Establishing a Unified Evaluation Framework for Human Motion Generation: A Comparative Analysis of Metrics

Ali Ismail-Fawaz, Maxime Devanne, Stefano Berretti, Jonathan Weber, Germain Forestier

TL;DR发展用于人类动作生成的生成式人工智能迅速扩展，需要一个统一的评估框架。本文详细评述了八种用于人类动作生成的评估指标，突出其独特特点和不足之处。我们提出了一种标准化实践，通过一个统一的评估设置来促进一致的模型比较。此外，我们引入了一种新的度量标准，通过分析时间扭曲的多样性来评估时间数据的多样性，从而增强了时间数据的评估能力。我们还使用一个公开可用的数据集对三个生成模型进行了实验分析，提供了在特定案例场景中对每个度量标准的解释。我们的目标是为初学者提供一个清晰、用户友好的评估框架，并附带公开可访问的代码。

Abstract

The development of generative artificial intelligence for human motion generation has expanded rapidly, necessitating a unified evaluation framework. This paper presents a detailed review of eight evaluation metrics

generative artificial intelligence evaluation metrics human motion generation unified evaluation setup temporal distortion

发现论文，激发创造

文本生成动作的最佳自动评估指标是什么？

人们对从自然语言描述中生成基于骨架的人类动作越来越感兴趣。本文系统地研究了哪些度量标准与人类评价最为相关，并提出了新的度量标准，这些度量标准与人类判断之间的相关性更好。通过对样本水平的人类评价，发现目前用于此任务的度量标准中没有一个与人类判断呈现中度甚至更高的相关性。然而，用于评估模型平均性能的常用度量标准（例如 R-Precision）和较少使用的坐标误差表现出了较强的相关性。此外，与其他替代方法相比，不推荐使用一些最近开发的度量标准，因为它们与人类判断的相关性较低。我们还引入了一种基于多模态 BERT 模型 MoBERT 的新度量标准，该度量标准在样本级别上与人类判断高度相关，并且在模型级别上具有近乎完美的相关性。我们的结果表明，这种新度量标准比当前所有替代方案都有广泛的优势。

Sep, 2023

人体运动生成调查

人体运动生成是生成自然人体姿势序列的目标，具有广泛的实际应用潜力。本文是人体运动生成领域的首篇综述文献，介绍了人体运动和生成模型的背景，并对三个主流子任务（文本条件、音频条件和场景条件的人体运动生成）的代表方法进行了审查。此外，还概述了常见数据集和评估指标，并讨论了开放问题和潜在的未来研究方向。希望该综述能够为社区提供对这个快速发展领域的全面了解，并激发解决尚未解决的挑战的新思路。

Jul, 2023

多模态多部分人体动作综合的统一框架

通过量化多种身体部位的运动为其各自领域定制的码本，利用预训练模型将多模态信号转换为共享的潜在空间，并通过逐步预测后续令牌形成完整序列来将这些信号转换成离散的运动令牌，最后从令牌序列中重构连续的实际运动。我们的研究方法将多模态动作生成挑战框架定义为令牌预测任务，利用基于控制信号模态的专门码本，具有可扩展性，能够轻松整合新的模态。广泛的实验证明了我们设计的有效性并强调了其广泛应用的潜力。

Nov, 2023

真实工业任务和传统手工艺的动作捕捉基准用于人体运动分析

这篇论文利用惯性运动捕捉技术记录了工业操作者和熟练工匠在实际场景中进行的专业手势，并使用基于运动学描述符的混合随机 - 生物力学方法 Gesture Operational Model 对专家的运动进行建模和数学表示，从而精确生成人体专业姿态，直观描述身体关节如何协作并随时间变化而变化。

Apr, 2023

深度度量学习在人体动作分析中的应用

本文提出了一种基于三元组架构和最大均值差异的新型度量学习目标，以及一种基于关注机制的递归神经网络的新型深度体系结构，以解决传统方法无法捕捉人体运动数据跨动作的语义联系的问题。实验证实，该方法在两组不同数据集上相对于传统人体运动度量学习有效提升。

Jul, 2018

EvalCrafter: 大规模视频生成模型的基准测试和评估

对于图像和语言生成模型的视觉和语言生成模型，我们提出了一种新的框架和流程来彻底评估生成视频的性能，并通过系数对齐目标度量与用户意见，以获得模型的最终排行榜。

Oct, 2023

生成模型增强的人体动作预测

提出了一种基于生成模型的新的 out-of-distribution (OoD) 基准，用于预测人类运动，并且这种方法能够有效地提高模型的鲁棒性和可解释性。

Oct, 2020

面向场景的人体运动合成生成网络

本文提出了一种新框架，将场景和人体运动相互作用考虑在内，使用生成任务将人体运动的分布因子分解，并使用基于 GAN 的学习方法来提高其有效性。文中讨论了两个数据集结果，涵盖了真实和合成环境。

May, 2021

自然语言生成中的自动评估的玻璃天花板

本文对比了现有的自动评估指标和人工评估指标，发现自动评估指标与人工评估指标相比非常相似，并提出了未来评估工作的建议。

Aug, 2022

面向可验证和可重复的文本到图像生成的人类评估

本文旨在提出一种规范化和明确定义的人工评估协议，以促进未来作品中可验证和可重复的人工评估，针对 37 篇最近论文调查显示，许多作品仅依赖自动度量或执行不可靠或不可重复的人工评估，同时，作者还提供了设计可靠和决定性人工评估实验所需的见解，并向社区提供了几个公开的资源以促进快速实现。

Apr, 2023