BriefGPT.xyz
Ask
alpha
关键词
zero-shot captioning
搜索结果 - 3
AAAI
通过仅文本训练挖掘细粒度的图像 - 文本对齐用于零样本字幕生成
通过减少视觉和文本之间的模态差异,我们提出了一种零摄影机图片字幕框架,通过仅使用文本进行训练和引入局部图像区域特征聚合、噪声注入和 CLIP 排序策略来提高字幕性能,并证明其在 MSCOCO、Flickr30k 和 VQAV2 等数据集上具
→
PDF
6 months ago
ICLR
DeCap:通过纯文本训练对 CLIP 潜变量进行解码,实现零样本描述
该论文提出了一种名为 DeCap 的简单框架来解决零 - shot 图片描述问题,通过引入轻量级的视觉感知语言解码器来满足对数据和计算效率的要求,并提出了一个训练 - free 机制来减少模态间差异。实验证明,DeCap 在典型的图像说明基
→
PDF
a year ago
大规模双向训练的零样本图像描述
本文介绍了一种名为 BITTERS 的零 - shot 图像描述框架及数据集评估方法,通过双向图像文本训练以及精细调整提高图像描述精度。
PDF
2 years ago
Prev
Next