通过数据修剪的两种方法改进图像字幕生成,一种假设应该避免一些样本,另一种假设通过替换图像,使用最先进的 Stable Diffusion 模型,这些方法在 BLIP 模型上 MS COCO 和 Flickr30 k 中进行了评估。我们的方法一直优于基准,说明可以通过修剪现有资源来训练更好的图像字幕模型。最后,我们进行了人类研究,以了解稳定扩散模型的错误并突出未来的文本到图像之旅。
May, 2023
通过探索不同的混合策略,我们发现合成字幕能够增加网络爬取数据点的效用,并且在 38 个任务中,对于 ImageNet 表现比 DataComp 基准提高 2%, 平均值提高 4%。此外,我们发现使用合成字幕进行多模态训练时,标准图像字幕基准的性能并不可靠,还对 1.28B 图像 - 文本对的大规模分析提供了对合成文本的局限性和随着训练数据数量增加图像筛选的重要性的见解。
Jul, 2023
通过利用生成的图像来增强现有数据集的技术,该论文探讨了各种有效的数据增强策略,以提高深度学习模型的跨域泛化能力。
Apr, 2024
通过使用图像转图像的方法、以及预训练的文本到图像扩散模型将其参数化,解决了数据扩增过程中具有高级语义标注的动物种类等属性缺乏多样性的问题,并在少样本情境和杂草识别任务中得到实际应用。
Feb, 2023
本文提出了一个通用的多模态模型融合框架,以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合,以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。
Oct, 2020
通过生成式视觉 - 语言模型来增强艺术品数据集,以应对文化遗产领域中有限的注释数据和领域偏移,提高模型对艺术特征的理解和生成恰当术语的能力。
Aug, 2023
该论文研究了一个生成文本 - 图像对以提高细粒度图像 - 文本跨模态检索任务训练的开放性研究问题,并提出了一种新的框架用于成对数据增强,以揭示 StyleGAN2 模型的隐藏语义信息。
Jul, 2022
为了提供更高质量和更可扩展的多模态预训练数据,我们提出了 CapsFusion,一种先进的框架,利用大型语言模型从基于网络的图像文本对和合成字幕中巩固和完善信息。大量实验证明,CapsFusion 字幕在模型性能(例如,COCO 和 NoCaps 上的 CIDEr 分数提高了 18.8%和 18.3%)、样本效率(比基准计算需求少 11-16 倍)、世界知识深度和可扩展性方面展示出卓越的全面优势。这种有效性、效率和可扩展性优势使 CapsFusion 成为未来大规模多模态模型训练的有希望的候选者。
Oct, 2023
该研究提出一种基于跨模态相似性的难度度量方法,用于图像字幕生成模型的训练,并在 COCO 和 Flickr30k 数据集上验证了其有效性,证明其在难样本和未见数据上表现出较高的泛化能力。
Dec, 2022
本文提出了一种新的图像字幕架构,通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成,实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验,证明该框架在多种评估指标下取得了业内最优表现。
Jun, 2020