文本到图像模型的多语言概念覆盖
基于图像的多语言(T2I)模型能力的基准测试比较生成的图像与期望图像分布的语言特定概念集合,其中一个名为 CoCo-CroLa 的基准测试通过将概念列表翻译成七种语言并比较输出图像群体来评估 T2I 模型的有形名词库存。不幸的是,我们发现该基准测试在西班牙语、日语和中文中包含不同严重程度的翻译错误。我们提供了这些错误的更正,并分析这些错误对 CoCo-CroLa 作为基准测试的实用性和有效性的影响。我们使用相似性评分在文本领域预测了纠正对图像领域基准测试结果的影响,并重新评估了多个基准 T2I 模型的输出,将新翻译的输出与旧翻译的输出进行了比较。我们的发现将为 T2I 多语言度量的未来发展提供分析工具,以进行实际的翻译决策。
Mar, 2024
利用主题驱动的文本到图像扩散模型,用户可以根据少量示例图像来定制模型来处理预训练数据集中不存在的新概念。然而,现有的主题驱动模型主要依赖于单一概念的输入图像,在处理多概念输入图像时面临着目标概念的指定困难。为此,我们引入了一种文本本地化的文本到图像模型(Texual Localization)来处理多概念输入图像。在微调过程中,我们的方法采用了一种新颖的交叉注意力引导方法,分解多个概念,在文本提示中建立目标概念的视觉表示与标识符令牌之间的明确连接。实验结果表明,在多概念输入图像上,我们的方法在图像保真度和图像文本对齐方面优于或相当于基准模型。与自定义扩散方法相比,我们的方法通过硬引导实现了单一概念生成的 CLIP-I 得分相对提高 7.04%,8.13%,多概念生成的 CLIP-T 得分相对提高 2.22%,5.85%。值得注意的是,我们的方法能够生成与生成图像中目标概念一致的交叉注意力映射,这是现有模型所没有的能力。
Feb, 2024
通过引入印尼语、汉语、斯瓦希里语、泰米尔语和土耳其语等语言,构建了一个新的 ImageNet-style 分层协议,从本地化的角度推荐相关概念和图像,建立了一个用于多文化及多语言视觉和语言推理的数据集 MaRVL,并列举出一系列现代模型的基线,发现其跨语言性能显著滞后于英语的监督性能。
Sep, 2021
本文提出一个使用多语言嵌入词汇表达图像语义信息的框架,将图像和文本嵌入到一个唯一的分布向量空间中,从而使得我们可以使用描述图像内容的文本查询来搜索图像,同时也可以使用图像相似性,我们使用实证研究证明了该方法的效率。
Mar, 2019
通过提出概念整理(CoCu)的流程,借助 CLIP 来弥补语义缺失,将视觉和文本语义之间的差距缩小,从而在预训练数据中增加了更多的视觉概念,并在零样本迁移和语义分割等方面取得了卓越的性能。
Sep, 2023
使用 Conceptualizer 方法对 1335 种语言中 83 个概念做出对齐,并且证明具有概念的跨语言稳定性,提出了一种语言之间的概念相似度的方法。
May, 2023
当探索人工通用智能(AGI)的发展时,大型多模态模型(LMMs)在处理多个图像输入的信息时面临两个问题:细粒度感知的缺乏和融合多个图像的倾向。我们首先广泛研究了 LMMs 在处理多个输入图像时感知细粒度视觉细节的能力。研究集中在两个方面:首先,图像与图像匹配(评估 LMMs 是否能够有效推理和配对相关图像),其次,多图像与文本匹配(评估 LMMs 是否能够准确捕捉和总结详细的图像信息)。我们对一系列开源和闭源的大型模型进行评估,包括 GPT-4V,Gemini,OpenFlamingo 和 MMICL。为了增强模型性能,我们还基于多输入多模态模型开发了一种对比的思维链(CoCoT)启发方法。该方法要求 LMMs 比较多个图像输入的相似性和差异性,然后根据确定的相似性和差异性指导模型回答关于多图像输入的详细问题。我们的实验结果展示了 CoCoT 在增强大型多模态模型的多图像理解能力方面的熟练度。
Jan, 2024
本研究提出了一种基于计算话语理论的生成度量,用于评估图像描述生成模型的语义和语用成功,与最近提出的学习指标相比,在人类评分预测方面表现更好。
Sep, 2021
本研究提出了 AM2iCo 用于多语言和跨语言的词汇语义评估,旨在研究最先进的预训练文本表示模型在理解跨语言环境下的词意识别方面的能力,结果显示当前预训练编码器表现与人类性能存在明显差距,尤其体现在低资源语言和与英语不同的语言上。
Apr, 2021
利用聚类方法探索多语言模型中的潜在概念,研究多语言嵌入之间的对齐和重叠程度,通过引入两个度量指标 CA 和 CO 进行定量分析,发现网络的深层对齐性较好,模型的微调增强了潜在空间中的对齐性,任务特定的校准有助于解释模型的零射击能力的出现。
May, 2024