压缩与对齐:用人类知识筛选图像文本数据
通过数据修剪的两种方法改进图像字幕生成,一种假设应该避免一些样本,另一种假设通过替换图像,使用最先进的 Stable Diffusion 模型,这些方法在 BLIP 模型上 MS COCO 和 Flickr30 k 中进行了评估。我们的方法一直优于基准,说明可以通过修剪现有资源来训练更好的图像字幕模型。最后,我们进行了人类研究,以了解稳定扩散模型的错误并突出未来的文本到图像之旅。
May, 2023
本研究关注于通过改善数据质量和数据多样性,特别强调了视觉概念与标题的整合,提出了一种用于 web 爬取数据集训练的新方法 VeCLIP,通过综合评估数据效率和模型性能,证明了 VeCLIP 在改善图片 - 文本对齐和整体模型性能方面的显著优势。
Oct, 2023
近期在文本引导的图像压缩方面的研究取得了巨大潜力,能够增强重构图像的感知质量,但这些方法往往在像素级保真度方面明显降低,限制了它们的实用性。为了填补这一空白,我们开发了一种新的文本引导图像压缩算法,实现了高感知和像素级保真度,该压缩框架主要通过文本自适应编码和联合图像 - 文本损失的训练来利用文本信息。通过这样做,我们避免了基于文本引导生成模型的解码,这种模型以高度生成多样性著称,并有效地利用了文本的语义信息。各种数据集上的实验结果表明,我们的方法在像素级和感知质量方面均可达到较高水平,无论是人类生成的标题还是机器生成的标题。特别地,在与其他基准方法相比的 LPIPS 方面,我们的方法表现出色,并且在使用更加精心生成的标题时,仍有进一步提高的空间。
Mar, 2024
通过探索不同的混合策略,我们发现合成字幕能够增加网络爬取数据点的效用,并且在 38 个任务中,对于 ImageNet 表现比 DataComp 基准提高 2%, 平均值提高 4%。此外,我们发现使用合成字幕进行多模态训练时,标准图像字幕基准的性能并不可靠,还对 1.28B 图像 - 文本对的大规模分析提供了对合成文本的局限性和随着训练数据数量增加图像筛选的重要性的见解。
Jul, 2023
本文提出了一种方法,利用大型语言模型和视觉定位模型自动构建训练集来提供检测到的文本和图像对之间的详细文本和视觉错位的解释,实验证明在我们的训练集上微调视觉语言模型可以在二元对齐分类和解释生成任务上优于强基线模型。
Dec, 2023
通过分解式对齐评估和改进文本到图像的对齐效果,并使用 Decompositional-Alignment-Score 和 VQA 模型来测量不同断言的对齐度。实验结果表明,这种对齐度指标与人类评分高度相关,并且断言级别的对齐度评分可用于逐步提高最终图像输出中不同断言的表达。人类用户研究表明,该方法在整体文本到图像对齐准确性方面超过了之前的最先进方法 8.7%。
Jul, 2023
本文介绍了一种 Fine-Tuning 方法,使用人类反馈对齐文本到图像的 Deep generative model,通过分析设计选择平衡对齐 - 准确性的权衡,最终通过奖励加权似然优化,使得生成的对象更准确地反映了指定颜色、数量和背景等特征。结果表明,利用人类反馈可以显著改善文本到图像的 Deep generative model 的性能。
Feb, 2023
该研究创建了一个新的数据集 TextCaps,涉及 28k 张图片和 145k 个标题,用于挑战计算机视觉模型识别图像中的文本,与视觉环境进行关联,并决定要复制或释义文本的哪个部分。研究表明,这个新的数据集提供了许多前所未有的技术挑战。
Mar, 2020
在这项工作中,我们在独立嵌入框架之上提出了一个图像 - 文本对齐模块 SelfAlign,通过自监督对比学习在概念级和语境级强制进行图像 - 文本对齐,提高了检索准确性同时保持了检索效率。
Aug, 2023
该论文提出了一种新的学习人际互动的方法,利用单张静态图片中的自由文本,实现对人际互动在各种情况和关系中的建模。作者使用了基于大型语言模型生成的合成标题数据的知识蒸馏方法,成功训练出一种 “理解” 图像中人际互动的字幕模型,达到了精确、语义匹配、事实准确的预测模型。该方法在人际互动理解这一任务上,比目前最先进的图像字幕生成和情境识别模型表现更优。
Apr, 2023