cross-modal similarity | BriefGPT

关键词cross-modal similarity

搜索结果 - 5

ICCV视频文本检索的统一粗细对齐
通过联合考虑不同粒度的跨模态相似性，我们提出了一种统一的多粒度对齐模型 UCoFiA，显著优于以前的基于 CLIP 方法，在多个视频 - 文本检索基准上表现出了 2.4％，1.4％和 1.3％的文本到视频检索 R@1 改进。
PDF10 months ago
EMNLP基于跨模态相似性的课程学习在图像描述中的应用
该研究提出一种基于跨模态相似性的难度度量方法，用于图像字幕生成模型的训练，并在 COCO 和 Flickr30k 数据集上验证了其有效性，证明其在难样本和未见数据上表现出较高的泛化能力。
PDF2 years ago
CVPRT2VLAD：文本 - 视频检索的全局 - 局部序列对齐
本文主要设计了一种高效的全局 - 局部对齐方法，在共享的语义中心集合中，自适应地汇聚多模式视频序列和文本特征，并计算相同中心内的视频特征与文本特征之间的局部交叉模态相似性，从而实现了细致的局部比较，同时降低了交互成本。此外，还提出了一种全局
PDF3 years ago
CVPR通过联合文本检测和相似性学习实现场景文本检索
本篇论文提出了一种新的场景文本检索方法，使用交叉模态相似性学习直接匹配查询文本和自然图像中每个文本实例之间的相似性，并通过建立端到端可训练的网络来实现场景文本检测和交叉模态相似性学习的联合优化，在三个基准数据集上的实验表明该方法优于现有的场
PDF3 years ago
跨模态相似性学习：一种低秩双线性表达
本研究提出一种基于交叉模态相似性学习算法的跨媒体特征匹配方法，通过双线性约束和核范数惩罚实现低秩表示，并应用加速迭代最小化算法实现快速收敛。实验结果表明，在三个知名的图像 - 文本跨媒体检索数据库中，本方法较之现有算法具有更佳性能。
PDF10 years ago