cross-modal semantics | BriefGPT

关键词cross-modal semantics

搜索结果 - 4

EMNLP通过预测结构化概念提升图像字幕生成
本文介绍了一个基于结构化概念预测器的图像描述生成方法，通过构建带有权重的图卷积网络，可以有效地捕捉概念间关系，并区分性地学习各个概念，从而更好地结合图像和文本信息生成描述。经过广泛实验验证了该方法及其各个模块的有效性。
PDF8 months ago
通过挖掘跨模态语义实现目标分割
利用跨模态语义指导多模态特征的融合和解码，提出了一种新的方法以控制相对熵，具有共享和特定的表示法以及跨层自我监督，并基于质量适应模态贡献的 all-round attentive fusion 和 course-to-fine decode
PDFa year ago
EMNLP从文本角度探究跨模态语义对齐能力
本文提出了一种基于图像字幕生成的新型探测方法，用于研究视觉语言预训练模型中跨模态语义对齐的内部机制，发现 VLP 模型对齐的主要是对象和视觉词，忽略了全局语义，还存在固定的句子模式，无视语法和流畅性等问题。
PDF2 years ago
ICCV联合 Wasserstein 自编码器用于多模态嵌入的对齐
通过对多个视觉与文本模态的联合嵌入进行高斯规范化，本文应用 Wasserstein 自编码器对图像和文本的潜在表示进行编码，以确保生成的语义表示具有良好的连续性，从而实现语义对齐和跨数据集的表现。在交叉检索和短语定位上，我们展示了该方法的优
PDF5 years ago