Apr, 2024

谁来评估评估?用 T2IScoreScore(TS2)客观评分文本与图像提示一致性指标

TL;DR对文本到图像模型中的提示准确性进行基准测试,比较评估了多种提示信实度度量,发现当前的视觉语言模型基于向量的度量无法在许多困难的 T2I 模型错误情况下显着优于基于特征的度量。介绍了一套语义错误图形,TS2,用于严格判断给定的提示信实度度量指标是否能够正确地对图像进行排序和区分不同的错误节点,以期通过客观的准则更严格地比较和发展更好的 T2I 期望提示信实度度量指标。