BriefGPT.xyz
Ask
alpha
关键词
large-scale cross-modal information retrieval
搜索结果 - 1
MM
使用 Transformer 编码器进行跨模态检索的细粒度视觉文本对齐
通过词区匹配实现图像 - 句子匹配,本文提出了一种名为 TERAN 的新方法,在图像和句子的不同组件之间执行精细匹配,从而实现了跨模式检索,并在 MS-COCO 和 Flickr30k 数据集上获得了最先进的结果。
PDF
4 years ago
Prev
Next