图像描述生成的宏观控制
本文介绍了一种新的图像字幕生成框架,该框架包括具有预测文本块和约束条件的递归架构,这些约束条件是通过控制信号(图像区域的序列或集合)确定的,并通过允许地面化和可控性来产生多样化的描述。实验表明,该方法在可控的图像字幕生成方面取得了最先进的性能。
Nov, 2018
本文提出了一种统一模型,能够在不同领域间自由切换并实现生成所需风格的图像描述,这种可控能力通过在图像描述的框架中嵌入提示学习来实现,具体采用一组提示用于微调预训练的图像描述器,而这些提示则在连续的词嵌入空间中通过可学习向量进行优化,从而避免启发式提示工程,并展现出卓越的性能。
Dec, 2022
通过修改跨注意力矩阵,在保持图像质量的同时改进控制能力,本研究以 ControlNet 为例,研究了几种现有的跨注意力控制方法的局限性,并提出了一种新的跨注意力操纵方法,通过定位描述来实现对生成图像的精细控制。
Feb, 2024
通过探索不同的混合策略,我们发现合成字幕能够增加网络爬取数据点的效用,并且在 38 个任务中,对于 ImageNet 表现比 DataComp 基准提高 2%, 平均值提高 4%。此外,我们发现使用合成字幕进行多模态训练时,标准图像字幕基准的性能并不可靠,还对 1.28B 图像 - 文本对的大规模分析提供了对合成文本的局限性和随着训练数据数量增加图像筛选的重要性的见解。
Jul, 2023
本文提出了一种基于长度级别嵌入的、具备控制图像描述语言能力的、非自回归图像描述模型,实验证明该模型在 MS COCO 数据集上不仅实现了 SOTA 水平,还能够生成长度可控、多样化的图像描述。
Jul, 2020
通过重新标注语料库并以此为基础训练文本到图像模型,可以显著提高模型的图像质量和语义对齐,并减少训练与推理之间的差异,增加样例效率,使模型更好地理解标题和图像之间的关系。
Oct, 2023
提出了一种名为 MuCoCO 的算法,通过将编码过程转化为优化问题,并通过拉格朗日乘数法和梯度下降技术生成期望的文本,从而实现对预训练模型生成文本属性的控制。在可控机器翻译和风格转移方面的实验表明,该方法显著优于基准模型。
Aug, 2021
本文提出了一个简单的模型,可以根据给定的图片生成相关的句子,它主要侧重于句子的语法,并基于先前训练的卷积神经网络对图像进行编码。该模型使用纯双线性模型训练一个度量来衡量图像表示和用于描述图像的短语之间的关系,并能够基于推断的短语产生给定测试图像的相关描述。这一方法在 Flickr30k 和 Microsoft COCO 等数据集中实现了可比较的结果,同时相对于最先进的模型而言,该方法更加简单。
Feb, 2015
本文介绍了一种新的简单而实用的任务设置:局部控制,它通过用户定义的图像条件在特定的局部区域进行控制,其余区域仅通过原始文本提示进行调节。我们提出了一种无需训练的方法,利用去噪过程中噪声潜变量和参数的更新,在交互注意力图中促进非控制区域的概念生成。此外,我们使用特征屏蔽约束解决局部控制区域内外信息差异导致的合成图像质量下降问题。广泛的实验表明,我们的方法可以在局部控制条件下合成出高质量的图像。
Dec, 2023
本研究提出了一种新的受控图像文本生成任务 Qc-TextCap,并通过设计问题控制模型(GQAM)达到比现有模型更好的文本生成性能和问题答案能力,同时构建了两个数据集(ControlTextCaps 和 ControlVizWiz),提高了多样化和信息性。
Aug, 2021