BriefGPT.xyz
大模型
Ask
alpha
关键词
multi-modal queries
搜索结果 - 3
AAAI
利用大型语言模型的生成式多模态知识检索
我们提出了一种创新的端到端生成框架,用于多模态知识检索,通过利用大型语言模型 (LLMs) 作为虚拟知识库,使用对象感知的前缀调优技术来指导多粒度视觉学习,将多粒度视觉特征对齐到 LLM 的文本特征空间中,通过统一格式的指令数据构建模型训练
→
PDF
6 months ago
ACL
多模态查询的端到端知识检索
本文介绍了一个新的数据集 ReMuQ,针对跨媒体检索的任务,提出了一个直接处理文本和图像输入的 Retriever 模型 `ReViz`,并引入了一个新的预训练任务,实现了对多模态查询的知识检索,并在两个数据集上取得了优秀的检索效果。
PDF
a year ago
野外多模态查询对象检测
MQ-Det 是一种多模态查询目标检测方法,结合了文本和图像作为类别查询,该方法通过在现有的只有文本的检测器中插入可扩展的感知模块,将类别文本与类别视觉信息相结合,并提出了一种视觉条件掩码语言预测策略,可以显著提高开放式检测的性能。
PDF
a year ago
Prev
Next