BriefGPT.xyz
大模型
Ask
alpha
关键词
cross-modal semantics
搜索结果 - 4
EMNLP
通过预测结构化概念提升图像字幕生成
本文介绍了一个基于结构化概念预测器的图像描述生成方法,通过构建带有权重的图卷积网络,可以有效地捕捉概念间关系,并区分性地学习各个概念,从而更好地结合图像和文本信息生成描述。经过广泛实验验证了该方法及其各个模块的有效性。
PDF
8 months ago
通过挖掘跨模态语义实现目标分割
利用跨模态语义指导多模态特征的融合和解码,提出了一种新的方法以控制相对熵,具有共享和特定的表示法以及跨层自我监督,并基于质量适应模态贡献的 all-round attentive fusion 和 course-to-fine decode
→
PDF
a year ago
EMNLP
从文本角度探究跨模态语义对齐能力
本文提出了一种基于图像字幕生成的新型探测方法,用于研究视觉语言预训练模型中跨模态语义对齐的内部机制,发现 VLP 模型对齐的主要是对象和视觉词,忽略了全局语义,还存在固定的句子模式,无视语法和流畅性等问题。
PDF
2 years ago
ICCV
联合 Wasserstein 自编码器用于多模态嵌入的对齐
通过对多个视觉与文本模态的联合嵌入进行高斯规范化,本文应用 Wasserstein 自编码器对图像和文本的潜在表示进行编码,以确保生成的语义表示具有良好的连续性,从而实现语义对齐和跨数据集的表现。在交叉检索和短语定位上,我们展示了该方法的优
→
PDF
5 years ago
Prev
Next