零样本文本到图像生成
使用文本生成图像的方法已显著提高了生成图像建模的状态,通过结合自然语言界面和空间控制,在本文中,我们考虑了与图像画布上特定位置对象相关的文本生成图像的问题,并提出了 ZestGuide,这是一种零 - shot 分割指导方法,可插入预先训练的文本到图像扩散模型中,我们的实验结果表明,在精准对齐所需的输入分割的情况下,与使用相应分割进行训练的组件相比,提高了图像质量,而在 COCO 数据集上,我们的结果比 Paint with Words 更好。
Jun, 2023
本文介绍了一种将视觉语义模型和大型语言模型相结合的技术,实现了对图像生成描述性文本的能力,且可用于图像算术和视觉类比等高级视觉能力的应用。
Nov, 2021
本文提出了一种在仅有图像数据集的情况下预训练文本到图像生成模型的新方法,通过检索和优化过程综合生成伪文本特征,可以灵活应用于各种情境和模型,并在实验中表现出显著的效果,GAN 模型在完全监督的情况下得到了 6.78 的 FID,是 GAN 最新的 SoTA 结果。
Oct, 2022
本文探讨了使用基于 transformer 的 Sentence-Bert 模型进行无监督文本匹配的效率,结果表明该模型对于金融领域内外的文本均有很好的鲁棒性。
Oct, 2022
通过使用扩散模型的去噪能力作为代理,将零样本分类器应用于 Imagen,探究其知识方面并与 CLIP 进行比较,结果显示 Imagen 与 CLIP 在零样本图像分类方面表现相当,同时在形状 / 纹理偏差测试方面取得了最先进的结果,能够成功地执行属性绑定,而 CLIP 则不能。因此,我们认为应该探索将生成预训练作为一种有吸引力的视觉和视觉语言问题的替代方法。
Mar, 2023
利用生成对抗网络 (GANs) 想象从文本描述中无法见到的类别,生成目标类别的视觉特征,附加伪数据,使得零样本学习自然地转换为传统的分类问题,并提出视觉中心正则化以保持生成特征的跨类别区分能力。实验表明,该方法在基于文本的零样本学习的最大可用基准测试中始终优于现有技术水平。
Dec, 2017
本文提出了一种基于大规模文本到图像扩散模型的零样本开放词库分割方法,通过考虑采样的图像的背景来更好地定位对象并直接分割背景,并证明该方法可以在多个基准测试中表现出色,在 Pascal VOC 基准测试上领先了超过 10%。
Jun, 2023
本文研究了使用自然语言实现零样本模型对新任务的自适应性,通过社交评论平台的文本和元数据作为简单的预训练任务,并提供分类任务的自然语言描述作为输入训练语言模型,以生成正确答案的方式进行自然语言的模型推广,克服了多任务分类的缺点,在六个基准文本分类数据集上训练出具有零样本性能的生成性语言模型,结果显示语言可以作为任务自适应的简单而强大的描述符,这为文本问题的新元学习策略指明了方向。
Dec, 2019
本文提出了一个零射击的管道,该管道可以通过捕捉用户的身份以令人愉悦的方式进行头像生成,具有个性化的图像生成特征,此外,作者使用大规模图像数据集学习人类 3D 姿态参数,克服了动作捕捉数据集的局限性。
Apr, 2023