ZeroCap:面向视觉语义算术的零样本图像到文本生成
我们提出了一种简单而易于解释的推理模型,用于生成全局场景的主要对象和语义概念的可视化表示,该模型使用图卷积网络进行关联和推理,再使用门和记忆机制进行全局语义推理,选取判别信息并逐渐生成整个场景的表示;实验证明我们的方法在MS-COCO和Flickr30K数据集上取得了相对于最佳方法分别为6.8%和4.8%的图像检索和字幕检索的新的最佳效果,Flickr30K数据集上分别提高了12.6%和5.8%的图像检索和字幕检索。
Sep, 2019
本文综合研究图像描述中的视觉编码、文本生成、训练策略、数据集和评估指标等方面,量化比较多个相关的最前沿方法,以识别体系结构和训练策略中最具影响力的技术创新并探讨问题的许多变体和开放挑战,旨在为理解现有文献和强调计算机视觉和自然语言处理领域的未来方向提供工具。
Jul, 2021
通过利用两种互补的“想象力”(检索已有图像和通过文本到图像生成合成不存在的图像),我们开发了一种新颖的方法Z-LaVI,为语言模型赋予了视觉想象能力,从而解决了大规模预训练语言模型的报告偏差问题,提高了跨多个语言任务的零-shot性能。
Oct, 2022
本文探讨了如何从文本数据中学习计算机视觉领域所需的高层次技能,并将其转移到视觉任务中,同时提出探究对比模型嵌入空间中不同模态的系统差异,进一步理解和缓解这种关注的策略。实践证明,我们使用仅文本训练数据在图像标注、视觉蕴含、视觉问题回答和视觉新闻等四个代表性任务上建立的模型,性能表现接近仅使用图像训练数据建立的模型,尤其是针对图像标注和视觉蕴含任务的文本训练数据,有望超过9个百分点的提升。同时,我们还展示了多种样式的图像标注模型,这些模型使用的不是图像数据和人工策划的语言数据,而是来自于图书、网络或语言模型可用的文本数据。
Nov, 2022
本研究提出了一种基于Flamingo模型的Retrieval-augmented Visual Language Model(Re-ViLM), 支持检索外部数据库的相关知识,减少模型参数数量,适应新数据评估。研究表明,Re-ViLM显著提高了图像到文本生成任务的性能,在没有领域内数据和少量领域内数据的情况下,参数数量是基线方法的四倍。
Feb, 2023
本文提出了一个统一的框架,以利用精细的信息实现零样本视觉语言学习,涵盖了多个任务,如视觉问题回答,SNLI-VE和VCR,并证实了该方法的有效性和泛化性。
Jul, 2023
通过减少视觉和文本之间的模态差异,我们提出了一种零摄影机图片字幕框架,通过仅使用文本进行训练和引入局部图像区域特征聚合、噪声注入和CLIP排序策略来提高字幕性能,并证明其在MSCOCO、Flickr30k和VQAV2等数据集上具有显著的性能提升。
Jan, 2024
提出了一种新颖的记忆增强型零样本图像字幕生成框架(MeaCap),通过装备文本记忆并引入检索-过滤模块,使用基于记忆的视觉相关融合评分及关键词-句子语言模型,生成与图像高度一致、拥有更少幻觉和更多世界知识的以概念为中心的字幕;该框架在一系列零样本图像字幕设置中取得了最先进的性能。
Mar, 2024