BriefGPT.xyz
大模型
Ask
alpha
关键词
visual contents
搜索结果 - 4
MindGPT:使用非侵入性脑记录解读所见
通过 fMRI 信号解释感知到的视觉刺激为自然语言的一种非侵入性神经解码器 MindGPT,该模型建立在具有交叉注意机制的视觉引导神经编码器上,并通过大型语言模型 GPT 的协同使用来将潜在的神经表示引导到期望的语义方向,从而使 MindG
→
PDF
9 months ago
MPMQA:产品手册上的多模态问答
通过构建大规模的带有人工注释的 PM209 数据集,本研究提出了一个多模态产品手册问答(MPMQA)任务,其要求模型处理多模态内容并提供多模态答案,并进一步提出了一种统一模型,可以同时执行这两个子任务,并实现与多个任务特定模型相当的性能。
PDF
a year ago
CVPR
堆叠式混合注意力和群组协作学习用于无偏场景图生成
本文提出了一种基于 Scene Graph Generation 的方法,使用 Stacked Hybrid-Attention network 作为编码器,Group Collaborative Learning 作为解码器优化策略,实现
→
PDF
2 years ago
AAAI
Few-Shot 识别的属性引导与纯视觉注意力对齐
本文提出了一种利用人工注释属性的属性引导注意力模块 (AGAM),以实现更具有区分性的特征学习,从而改善仅使用视觉信息的查询集的特征选择,达到了不同数据集和设置下的最先进性能。
PDF
4 years ago
Prev
Next