BriefGPT.xyz
大模型
Ask
alpha
关键词
localizing
搜索结果 - 4
朝着利用大型语言模型进行开放式视觉识别
本文介绍了 OmniScient 模型(OSM)作为解决物体本地化和识别的挑战的一种新颖的基于大型语言模型(LLM)的掩模分类器,通过以生成方式预测类标签,并在没有人为干预的情况下实现跨数据集训练,并展示了其在处理新概念中的有效性。
PDF
8 months ago
CoDA: 协作式创新箱发现与开放式词汇 3D 物体检测的交叉模态对齐
通过统一的框架,在有限的基础类别的条件下,本论文旨在同时解决定位和分类新颖目标的两个问题,提出了一种有效的 3D 新目标发现策略以及基于发现的新目标的跨模态对齐模块,通过迭代增强的对齐来统一实现了开放词汇 3D 目标检测的既定框架。
PDF
9 months ago
VQA 疗法:通过视觉参考答案探索答案差异
视觉问答是一项关于预测图像问题答案的任务,本文引入了第一个数据集 VQAAnswerTherapy,每个视觉问题中的唯一答案都有对应的视觉依据,我们提出了两个新问题,即预测视觉问题是否有唯一答案依据以及定位所有答案依据。通过对现代算法进行基
→
PDF
10 months ago
通过联合区域定位和修复来防御对抗性图像贴片
利用本文提出的 “定位和修复” 机制来处理图像输入,通过协同训练 “定位” 和 “修复” 模块,实现对各种对抗性贴片攻击的防御。
PDF
a year ago
Prev
Next