面向边缘设备的高效图像字幕生成
通过引入一个新的特征融合模块,本研究提出了一种解决使用轻量级网络的语言引导范式的方法,该模块能够在嵌入空间中促进视觉和文本特征的接近和对齐,并展示出优于之前的最佳方法的性能。
Oct, 2023
本文提出了一种用于创建图像标题的方法,通过采用额外的视觉信息,包括对象检测器、识别器等来丰富标题,经大型语言模型融合,生成全面的图像描述。实验证明,该方法有效,所提供的数据集显着提高了图像 - 文本检索。
May, 2023
在这项研究中,我们引入了 MobileCLIP 这个新的高效图像 - 文本模型系列,通过一种名为多模态增强训练的新颖且高效的训练方法,利用图像字幕模型和一组强大的 CLIP 编码器中的知识转移,将额外的知识存储在增强数据集中而避免了训练时计算开销,从而实现了零样本分类和检索任务的新的最佳延迟 - 准确性权衡。
Nov, 2023
SmallCap 是一个轻量且快速的图像字幕生成模型,它通过用与目标图像相关的字幕在数据存储中进行训练,而无需对模型进行额外的微调以实现跨域迁移学习,同时避免了扩大模型规模的开销。
Sep, 2022
本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式,包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明,该方法在多个下游任务中实现了更高的性能。
Dec, 2023
本文使用 CLIP 编码作为前缀,利用简单的映射网络,然后微调语言模型以生成图像标题,无需额外的注释或预训练,有效地为大规模和多样化的数据集生成有意义的标题。同时,我们证明了我们的模型在有挑战性的概念标题和 nocaps 数据集上取得了可比较的结果,同时更简单、更快、更轻。
Nov, 2021
本文提出了一种利用 CLIP 模型进行半监督图像标注的方法,包括图像编码器、映射网络和语言模型,通过对比生成的标题和实际标题,并使用未标记的图像进行二次训练,得到了与完整数据集训练的业界最先进模型相比可比的性能,且标题更加独特、信息量更大,并且符合人类的偏好。
Jun, 2023
该论文提出了一种名为 DeCap 的简单框架来解决零 - shot 图片描述问题,通过引入轻量级的视觉感知语言解码器来满足对数据和计算效率的要求,并提出了一个训练 - free 机制来减少模态间差异。实验证明,DeCap 在典型的图像说明基准测试中表现优异。
Mar, 2023
本文提出了一种通过添加辅助输入以表示缺失信息(例如物体关系)来改进视觉描述模型的方法,并使用来自 Visual Genome 数据集的属性和关系对该模型进行调整。在图像标题生成实验中,该方法取得了良好的表现。
May, 2022