Jul, 2023

划分、评估与改进:基于迭代 VQA 反馈的文本到图像对齐的评估和改进

TL;DR通过分解式对齐评估和改进文本到图像的对齐效果,并使用 Decompositional-Alignment-Score 和 VQA 模型来测量不同断言的对齐度。实验结果表明,这种对齐度指标与人类评分高度相关,并且断言级别的对齐度评分可用于逐步提高最终图像输出中不同断言的表达。人类用户研究表明,该方法在整体文本到图像对齐准确性方面超过了之前的最先进方法 8.7%。