BriefGPT.xyz
Ask
alpha
关键词
multimodal image annotations
搜索结果 - 1
ECCV
连接视觉和语言的局部叙述
我们提出了一种新的多模态图像标注方法,称为定位叙述,将视觉和语言进行连接。通过请求标注者在将鼠标指针悬停在要描述的区域的同时用语音来描述图像,我们实现了对每个单词进行定位。该方法经过全面的分析和外部数据验证,具有高度准确性和生产效率,并且在
→
PDF
5 years ago
Prev
Next