本文通过仔细匹配训练数据、计算和模型容量,公平地比较了对比预训练和图像字幕等两种预训练策略,并发现仅采用图像字幕训练也很有效,既可以产生与对比预训练编码器竞争的视觉编码器,也可以在视觉和语言任务上超越它们。
Jun, 2023
通过减少视觉和文本之间的模态差异,我们提出了一种零摄影机图片字幕框架,通过仅使用文本进行训练和引入局部图像区域特征聚合、噪声注入和 CLIP 排序策略来提高字幕性能,并证明其在 MSCOCO、Flickr30k 和 VQAV2 等数据集上具有显著的性能提升。
Jan, 2024
该论文提出了一种利用现有的大规模视觉和语言模型进行测试时间适应性直接生成字幕的方法,通过使用多个关键模型来桥接视频和文本,并使用可学习的令牌来传递信息。在实验中,该方法在多个数据集上取得了与现有最先进方法相比的 4%至 20%的 CIDEr 主要评价指标的改进。
May, 2024
本研究通过双向字幕法对放射学报告进行预训练,与对比性训练方法相比,表明字幕法预训练不仅可以产生具有竞争力的视觉编码器,还可以生成具有临床相关性的报告和针对性的交互性输出。
Oct, 2023
本文提出了一种新的视觉 - 语言预训练模型 ——ImageBERT,用于图像 - 文本联合嵌入,该模型基于 Transformer,可以将不同的模态作为输入,并建模它们之间的关系。通过多阶段的预训练策略,可以提高预训练质量,最终在图像检索和文本检索任务上获得了新的最先进结果。
Jan, 2020
本研究提出了一种简单的方法来进一步提高零 - shot 分类准确性,即利用精心策划的微调数据集描述任务的标签,进而在多个文本域中获得强大的预测模型。
May, 2023
大规模对比视觉 - 语言预训练模型提供了零样本模型,其可在一系列图像分类任务中取得竞争性的表现,而无需在下游数据上进行训练。最近的研究表明,对零样本模型的额外微调可以提高下游的性能,但会削弱模型对分布变化的鲁棒性。本文通过研究基于特征失真理论和联合能量模型的鲁棒微调条件,并提出一种新的鲁棒微调算法 Lipsum-FT,该算法有效地利用视觉 - 语言预训练模型中的语言建模特性。在 DomainNet 和 ImageNet 的分布变化场景上进行的大量实验实证了我们提出的 Lipsum-FT 方法优于现有的鲁棒微调方法。
Apr, 2024
使用大规模非监督单模型预训练可以提高图像 - 文本匹配的零样本性能和模型理解图像和文本关系的能力
通过在大规模语言模型中生成详细描述的长标题,我们提出了一种动态采样子标题的方法,以在对比学习框架中构建多个正向对并使用分组损失进行自监督训练,实验证明该方法在多种下游任务上具有明显优势。
Mar, 2024
本研究提出了一种端到端可训练的深度双向 LSTM 模型,用于图像字幕生成,增加了数据增强技术,并在三个基准数据集上进行了评估,证明其性能竞争力强。
Apr, 2016