BriefGPT.xyz
Ask
alpha
关键词
transformer-based image encoder
搜索结果 - 2
场景图 ViT:端到端开放词汇视觉关系检测
通过引入无解码器架构和注意力机制,我们提出了一种简单高效的基于 Transformer 的图像编码器模型,用于开放词汇视觉关系检测,并在 Visual Genome 和大词汇 GQA 基准测试上实现了最好的关系检测性能。
PDF
4 months ago
ICLR
基于自然语言的语义分割
LSeg 是一种用于语言驱动语义图像分割的新模型,使用文本编码器计算输入标签的嵌入,和基于 transformer 的图像编码器计算输入图像的嵌入,实现像 “草” 或 “建筑” 这样描述性的输入标签的密集像素嵌入,该模型利用语义类相应的文本
→
PDF
2 years ago
Prev
Next