- 通过注意力调节改进文本到图像生成对齐
通过注意力机制的调节,我们提出了一种用于扩散模型的无需训练的逐阶段聚焦机制,旨在解决多实体和属性的文本提示处理中的注意力分布不均问题。我们的实验结果证明,我们的模型在各种情况下都能够以最小的计算成本实现更好的图像与文本的对齐。
- 文本到图像生成中的对象 - 属性绑定:评估与控制
通过提出聚焦交叉注意力(FCA)和句子中的句法约束,本研究解决了当前扩散模型在图像中正确绑定文本提及的属性到正确对象上的困难,并在多个数据集上展示了图像与文本之间的对齐领域的重大改进。
- CARZero:放射学零样本分类的交叉注意力对齐
通过使用预训练模型在大规模图像 - 文本对上,集中于图像 - 文本对齐,推动了医学领域零样本学习的进展。然而,现有方法主要依赖于余弦相似度进行对齐,可能无法完全捕捉医学图像和报告之间复杂的关系。为了填补这一空白,我们引入了一种新的方法,称为 - 通过间隔配对关系建模增强医学视觉语言对比学习
通过关系增强的对比学习框架(RECLF),我们提出了一种可以模拟匹配间关系的医学图像表示学习方法,该方法利用医学图像报告作为弱监督,并通过图像 - 文本对齐实现。我们的结果表明,通过模拟匹配间关系,我们的 RECLF 方法可以学习到具有更好 - 错配探索:图像 - 文本错位的视觉与文本反馈
本文提出了一种方法,利用大型语言模型和视觉定位模型自动构建训练集来提供检测到的文本和图像对之间的详细文本和视觉错位的解释,实验证明在我们的训练集上微调视觉语言模型可以在二元对齐分类和解释生成任务上优于强基线模型。
- InstructBooth: 指令跟随个性化图文生成
使用有限的图像集对文本 - 图像模型进行个性化处理,通过引入 InstructBooth 方法,使用特定对象的少量特定图像来增强图像 - 文本对齐,最终实现了优于基准线的图像 - 文本对齐效果。
- EMNLP图像叙述中的半监督多模态指代消解
研究采用图像和描述性文本的多模态共指消解,在细粒度的图像 - 文本对齐、叙述语言的内在歧义和缺乏大规模标注数据集的条件下,提出了一种数据效率的半监督方法,用于解决多模态背景下的共指消解和叙述依托问题,通过跨模态框架结合有标注和无标注数据的损 - 基于大型语言模型的图像背景和描述生成字幕
本论文提出了一种新方法,使用大型语言模型从文本描述和上下文中生成图像字幕,而无需直接处理图像,经调优后,该方法在 CIDEr 指标上优于目前最先进的图像 - 文本对齐模型,解决了使用深度学习模型进行图像字幕生成时遭遇的一些难题。
- DPOK: 用强化学习对文本到图像扩散模型进行微调
该研究提出了使用在线强化学习对文本到图像模型进行微调的方法,名为 DPOK,该方法将策略优化和 KL 正则化集成在一起,并通过增强学习来更新预训练的文本到图像扩散模型,实验证明该方法在图像文本对齐和图像质量方面优于监督式微调。
- 基于掩码生成模型的文本条件采样框架用于文本生成图像
本文提出了一种学习可采样模型的 Text-Conditioned Token Selection(TCTS)方案,通过文本信息的本地化监督来选择最优选项,这样可以提高生成图像的质量和与给定文本的语义对齐度,并引入一种统一的采样策略 Freq - CVPRERNIE-ViLG 2.0: 使用知识增强的去噪成分混合模型改进文本到图像扩散模型
本文提出了 ERNIE-ViLG 2.0,一种大规模中文文本到图像扩散模型,通过将场景中的关键元素的精细文本和视觉知识纳入模型,并利用不同的去噪专家在不同的去噪阶段,逐步提高生成图像的质量,并在 MS-COCO 上实现了新的最先进的零样本 - ACL可信并非忠实:探究视觉 - 语言预训练中对象幻觉问题
该论文系统研究了视觉语言预训练模型中对象幻觉问题,从近期最先进的 VLP 模型,VLP 中不同类型的图像编码方式,以及 VLP 目标的不同方面入手,提出了一种名为 ObjMLM 的简单而有效的 VLP 损失,能够减少对象幻觉。实验表明,Ob - ECCV新闻故事:用视觉摘要来说明文章
该研究探索了一个新的问题,即学习对不同长度和数量的图像文本具有强鲁棒性的自我监督视觉语言表示法,其介绍了一个包括超过 31M 篇文章,22M 张图片和 1M 个视频的大规模多模态数据集,并表明最先进的图像文本对齐方法不能很好地处理带有多张图 - DualCoOp: 有限标注条件下的快速多标签识别自适应
本论文提出了一种名为 DualCoOp 的统一框架,用于解决多标签识别的低标记问题,通过利用文本和视觉特征之间的强对齐,通过将类别名作为部分的语言输入来编码正负上下文,从而适应具有有限注释和未知类别的多标签识别任务,在标准多标签识别基准测试 - ACL多模态命名实体识别的图像文本对齐
本文提出了一种基于图像与文本对齐的多模态命名实体识别技术,通过将图像特征与文本信息在文本空间中对齐,将两者之间的交互作用结合在一起,以此提高命名实体识别的准确性。
- VT-CLIP: 使用视觉引导文本增强视觉语言模型
提出一种名为 VT-CLIP 的方法来增强 CLIP 模型,它通过可视化引导文本,使文本的特征更适应图片,在多分类任务中表现出很高的效果。
- COSMOS: 自监督学习的趣味信息检测
本篇研究旨在解决社交媒体上未经修饰的图像被嵌入错误语境中以误导群众的问题,通过借助图像与文本之间的信息协同作用,提出了一种利用自学习特性,通过选择性地将照片中的物体与文本描述对齐以实现快速准确判断图像和文本的整体匹配度来检测文本和图像配对情