BriefGPT.xyz
Ask
alpha
关键词
text-image matching
搜索结果 - 3
VQA 模型中的注意力模式零 - shot 翻译为自然语言
ZS-A2T 是一个零射击框架,将给定模型的转换器注意力转换为自然语言而无需任何训练,以可理解形式提供关于该模型的见解。它在视觉问答(VQA)的上下文中构建在预训练的大型语言模型上,并通过利用 VQA 模型的文本 - 图像匹配能力来确定其相
→
PDF
8 months ago
AAAI
HAL: 通过缓解视觉语义中心改进文本图像匹配
本文针对视觉与语义嵌入中的 hub 问题,探讨了两种优化目标以及提出的 hubness-aware loss function 的优点,并在模型架构和数据集方面进行了实验,结果表明该方法在 text-image matching 任务中具有
→
PDF
5 years ago
ACL
文本 - 图像匹配的强大且稳健的基准线
本文提出在文本图像匹配中使用新的训练和推导技术,首先通过实验证明了 sum loss 和 max-margin loss 存在的限制,提出了一种新的 kNN-margin loss。其次,在推导时提出一种 Inverted Softmax
→
PDF
5 years ago
Prev
Next