BriefGPT.xyz
Ask
alpha
关键词
multimodal scenarios
搜索结果 - 3
SpikeCLIP:对比性语言 - 图像预训练脉冲神经网络
通过双步骤配准预训练与双损失微调,该研究介绍了一种名为 SpikeCLIP 的新框架,用于解决基于脉冲计算的两种模态之间的差异,结果表明 SNN 在多模态模型评估中显著减少能耗,并且在包含未在特定类别中预定义的类标签的图像分类任务中保持稳健
→
PDF
9 months ago
基于结构导向的多模态预训练变压器用于知识图谱推理
我们提出了图结构引导的多模态预训练变换器(SGMPT)用于知识图谱推理,它采用图结构编码器来进行结构特征编码,并采用加权求和和对齐约束两种不同策略的结构引导融合模块,将结构信息注入文本和视觉特征,实验证明了 SGMPT 在多模态 KGR 方
→
PDF
a year ago
基于双分支网络的情感反应强度估计
本文提出了一种解决第五届野外情感行为分析(ABAW)中 Emotional Reaction Intensity(ERI)挑战的双分支基于多输出回归模型,利用空间关注更好地提取视觉特征,利用 Mel-Frequency Cepstral C
→
PDF
a year ago
Prev
Next