BriefGPT.xyz
Ask
alpha
关键词
transferable captioning
搜索结果 - 1
ICCV
视觉实体的可迁移解码用于零样本图像字幕生成
我们提出了 ViECap,一种可转移的解码模型,利用实体感知解码生成见过和没见过的场景中的描述。ViECap 通过实体感知的硬提示将 LLMs 的注意力引导到图像中存在的视觉实体,实现了跨多样场景的连贯字幕生成。在通过实体感知的硬提示的情况
→
PDF
a year ago
Prev
Next