BriefGPT.xyz
大模型
Ask
alpha
关键词
vision-text transformers
搜索结果 - 2
Surgical-VQA: 使用 Transformer 解决手术场景中的视觉问答问题
我们设计了一个基于医学图像的手术问答系统,使用视觉和文本转换模型,并通过两个 Surgical-VQA 数据集验证了所提出的方法,结合分类和基于句子的答案以回答关于手术程序的问卷调查。
PDF
2 years ago
CVPR
快与慢的思考:利用 Transformer 进行高效的文本 - 图像检索
本研究通过将视觉和文本独立地映射到联合嵌入空间中的双编码器方法和使用跨注意力的视觉文本变压器方法来进行大规模图像和视频数据集的基于语言的搜索,并将两种方法相结合,提高了检索准确性并确保了可扩展性,同时还引入了新的细粒度跨注意力架构,并通过蒸
→
PDF
3 years ago
Prev
Next