localizing | BriefGPT - AI 论文速递

关键词localizing

搜索结果 - 4

朝着利用大型语言模型进行开放式视觉识别
本文介绍了 OmniScient 模型（OSM）作为解决物体本地化和识别的挑战的一种新颖的基于大型语言模型（LLM）的掩模分类器，通过以生成方式预测类标签，并在没有人为干预的情况下实现跨数据集训练，并展示了其在处理新概念中的有效性。
PDF8 months ago
CoDA: 协作式创新箱发现与开放式词汇 3D 物体检测的交叉模态对齐
通过统一的框架，在有限的基础类别的条件下，本论文旨在同时解决定位和分类新颖目标的两个问题，提出了一种有效的 3D 新目标发现策略以及基于发现的新目标的跨模态对齐模块，通过迭代增强的对齐来统一实现了开放词汇 3D 目标检测的既定框架。
PDF9 months ago
VQA 疗法：通过视觉参考答案探索答案差异
视觉问答是一项关于预测图像问题答案的任务，本文引入了第一个数据集 VQAAnswerTherapy，每个视觉问题中的唯一答案都有对应的视觉依据，我们提出了两个新问题，即预测视觉问题是否有唯一答案依据以及定位所有答案依据。通过对现代算法进行基
PDF10 months ago
通过联合区域定位和修复来防御对抗性图像贴片
利用本文提出的 “定位和修复” 机制来处理图像输入，通过协同训练 “定位” 和 “修复” 模块，实现对各种对抗性贴片攻击的防御。
PDFa year ago