通过 WordNet 层次结构评估文本到图像模型的上义词理解
最近的文本到图像合成研究利用语言和视觉结合的基础模型取得了突破。为了确保文本和图像之间的内容对齐,研究人员开发了新的评估指标,通过收集带有复杂注释的数据集来研究视觉 - 语言模型的组合性以及作为内容对齐质量度量的能力。本文全面介绍了现有的文本到图像评估指标,并提出了一种新的对这些指标进行分类的分类方法。我们还回顾了经常使用的文本 - 图像基准数据集,并讨论了优化文本到图像合成模型的技术以提高质量和人类偏好的准则。最后,我们提出了改进文本到图像评估的准则,并讨论了目前的挑战和限制。
Mar, 2024
本文研究使用上位词法处理命名实体,用于预训练和微调多模态模型,结果表明使用上位词法能够显著提高对象的预训练性能,并且在开放词汇检测上具有潜在的发展前景。
Apr, 2023
本文倡导明确模拟视觉 - 语义层次中的偏序结构,介绍一个学习有序表示的通用方法,并展示了如何将其应用于涉及图像和语言的各种任务中,特别是超义预测和图像字幕检索,结果表明得到的表示优于当前方法。
Nov, 2015
本文借鉴视觉传达研究,探究了多模式信息检索的有用语义图像 - 文本关系,在自动收集和扩充数据资源的基础上,采用深度学习系统和三种度量标准(跨模态互信息、语义相关性和图像与文本的状态关系)对八种语义图像 - 文本类别进行了预测,并在一个严格的测试集上展示了该方法的可行性。
Jun, 2019
为了定量衡量 T2I 模型在学习和合成新型视觉概念的能力,该论文提出了一个大规模数据集 ConceptBed 和一个新的评估指标 Concept Confidence Deviation (CCD),作者评估了对象、属性、样式及四种组合性维度,研究发现概念学习和保持组合性之间存在权衡。
Jun, 2023
本文提出了一种基于文本和图像的概率模型,通过端到端特征设计实现自动构建上位词分类法。通过小型本体数据的判别训练,该模型可以从头开始为具有关联图像的未知概念标签构建完整的分类法。在 WordNet 层次结构的评估中,本系统的表现优于以往方法。
Jun, 2016
我们提出了 MERU,这是一种对图像和文本进行对比训练的模型,可以生成超几何表示。与当前的视觉语言模型相比,MERU 可以更好地捕获图像和文本之间的层次结构关系。我们的实验结果表明,MERU 可以同时兼顾分类和检索任务的性能,同时提供高度可解释性的表示空间。
Apr, 2023
本文提出了一种新的 Hierarchical INTerpretable 神经文本分类器 Hint,它可以自动生成按标签关联的话题的模型预测解释,实验结果表明 Hint 方法在文本分类方面不仅与现有的最先进的文本分类器相当,而且生成的解释比其他可解释的神经文本分类器更符合模型预测,并且更易于被人类理解。
Feb, 2022
对于最近的文本到图像模型,我们缺乏对其能力和风险的全面定量理解。为了填补这个空白,我们引入了一个新的基准,即文本到图像模型的整体评估(HEIM)。我们鉴定了 12 个方面,包括文本与图像的对齐、图像质量、美感、原创性、推理能力、知识、偏见、毒性、公平性、鲁棒性、多语性和效率。我们在这个基准上评估了 26 个最先进的文本到图像模型,结果表明没有单一模型在所有方面都表现出色,不同模型展示了不同的优势。我们透明地发布了生成的图像和人工评估结果。
Nov, 2023