visual contents | BriefGPT - AI 论文速递

关键词visual contents

搜索结果 - 4

MindGPT：使用非侵入性脑记录解读所见
通过 fMRI 信号解释感知到的视觉刺激为自然语言的一种非侵入性神经解码器 MindGPT，该模型建立在具有交叉注意机制的视觉引导神经编码器上，并通过大型语言模型 GPT 的协同使用来将潜在的神经表示引导到期望的语义方向，从而使 MindG
PDF9 months ago
MPMQA：产品手册上的多模态问答
通过构建大规模的带有人工注释的 PM209 数据集，本研究提出了一个多模态产品手册问答（MPMQA）任务，其要求模型处理多模态内容并提供多模态答案，并进一步提出了一种统一模型，可以同时执行这两个子任务，并实现与多个任务特定模型相当的性能。
PDFa year ago
CVPR堆叠式混合注意力和群组协作学习用于无偏场景图生成
本文提出了一种基于 Scene Graph Generation 的方法，使用 Stacked Hybrid-Attention network 作为编码器，Group Collaborative Learning 作为解码器优化策略，实现
PDF2 years ago
AAAIFew-Shot 识别的属性引导与纯视觉注意力对齐
本文提出了一种利用人工注释属性的属性引导注意力模块 (AGAM)，以实现更具有区分性的特征学习，从而改善仅使用视觉信息的查询集的特征选择，达到了不同数据集和设置下的最先进性能。
PDF4 years ago