Apr, 2023

面向可验证和可重复的文本到图像生成的人类评估

TL;DR本文旨在提出一种规范化和明确定义的人工评估协议,以促进未来作品中可验证和可重复的人工评估,针对37篇最近论文调查显示,许多作品仅依赖自动度量或执行不可靠或不可重复的人工评估,同时,作者还提供了设计可靠和决定性人工评估实验所需的见解,并向社区提供了几个公开的资源以促进快速实现。