BriefGPT.xyz
Ask
alpha
关键词
pretrained vision-language model
搜索结果 - 2
预训练视觉语言模型用于纵向胸部 X 射线的差异视觉问题回答
PLURAL 模型是一种针对差异化视觉问答任务的预训练视觉 - 语言模型,经过实验证明在研究中能够提高模型的性能。
PDF
5 months ago
仅借助交互标签和语言 / 视觉 - 语言先验信息的弱监督人体 - 物体 - 交互检测
本文介绍了一种使用图像级别交互标签和预训练的视觉语言模型和大型语言模型在文献中最弱的监督设置下来处理 HOI 检测的方法,该方法包括修剪非交互式人和物体建议来提高袋内正例对的质量、查询特定人类和对象类别之间可能的交互以强制模型不要强调不太可
→
PDF
a year ago
Prev
Next