BriefGPT.xyz
Ask
alpha
关键词
bounding box coordinates
搜索结果 - 1
LocCa:具有位置感知字幕的视觉预训练
在本文中,我们提出了一种简单的可感知位置的图像预训练方法(LocCa),它使用一个简单的图像标题生成任务接口,在图像像素输入的条件下教导模型以读取丰富的信息,如边界框坐标和标题。通过编码器 - 解码器体系结构的多任务能力,我们展示了图像标题
→
PDF
3 months ago
Prev
Next