BriefGPT.xyz
Ask
alpha
关键词
image-captioning
搜索结果 - 2
不要断章取义:统一的视觉语言预训练为上下文辅助的图像字幕生成
本文提出了一个基于 context-aware image captioning 的 unified Vision-Language (VL) model,并利用 pretraining 技术解决了 context-independent
→
PDF
a year ago
EMNLP
使用注入噪声的 CLIP 进行图像字幕的文本训练
本文提出一种使用 CLIP 模型和文本数据进行图像字幕生成的方法,只需学习如何将文本嵌入转化为文本,故只需学习一个将固定的嵌入解码的解码器,通过噪声注入进行训练,实现了 SOTA 零样本图像字幕生成。
PDF
2 years ago
Prev
Next