ACLMar, 2024

在多语言概念上进行文本到图像模型公平评估的翻译错误和挑战

TL;DR基于图像的多语言(T2I)模型能力的基准测试比较生成的图像与期望图像分布的语言特定概念集合,其中一个名为 CoCo-CroLa 的基准测试通过将概念列表翻译成七种语言并比较输出图像群体来评估 T2I 模型的有形名词库存。不幸的是,我们发现该基准测试在西班牙语、日语和中文中包含不同严重程度的翻译错误。我们提供了这些错误的更正,并分析这些错误对 CoCo-CroLa 作为基准测试的实用性和有效性的影响。我们使用相似性评分在文本领域预测了纠正对图像领域基准测试结果的影响,并重新评估了多个基准 T2I 模型的输出,将新翻译的输出与旧翻译的输出进行了比较。我们的发现将为 T2I 多语言度量的未来发展提供分析工具,以进行实际的翻译决策。