cross-modal alignment | BriefGPT

关键词cross-modal alignment

搜索结果 - 52

对广告图像与文本进行对齐以实现准确的跨模态赞助搜索
提出了一种简单的对齐网络，通过在广告中映射图像的细粒度视觉部分到相应的文本，实现了跨模态赞助搜索的跨模态对齐和查询 - 广告匹配，在大商业数据集上，该模型性能优于现有的模型 2.57％。
PDF9 months ago
基于提示的上下文和领域感知预训练：视觉与语言导航
提出了一种基于提示的上下文和领域感知的预训练框架（PANDA），用于解决预训练视觉语言模型在视觉和语言导航任务中的领域差异和交叉模态对齐的问题，并通过对比学习进一步优化预训练模型。实验结果表明，PANDA 在 R2R 和 REVERIE 任
PDF10 months ago
ICCV高保真文本引导的 3D 人脸生成与操作仅通过图像
通过引入文本条件，该论文提出了一种名为 TG-3DFace 的文本引导的 3D 人脸生成方法，利用全局对比学习和细粒度对齐模块两种跨模态对齐技术，实现了更逼真和语义一致的纹理生成。
PDF10 months ago
多模态大语言模型的位置增强视觉指令调整
通过引入区域级别的视觉编码器，本文提出了一种增强图像教学调整功能的多模态大型语言模型（MLLMs），以实现更细粒度的模态交叉对齐，并设计了多种数据生成策略构建了图像 - 区域 - 语言指令数据集，实验结果表明该模型的卓越性能。
PDF10 months ago
ICCV基于地点实体的自适应预训练技术用于视觉与语言导航
我们提出了一种新颖的基于实体 - 地标适应的预训练模型 (GELA)，用于实现细粒度的视听导航中不同模态信号的对齐。采用三个适应性预训练目标：实体短语预测，地标边界框预测和实体 - 地标语义一致性，该模型在两个任务中实现了最先进的结果，证明
PDF10 months ago
语言引导扩散模型用于视觉定位
通过去噪扩散建模的语言引导扩散框架（LG-DVG）提出了一种逐步推理的视觉定位方法，可持续改进查询 - 区域匹配，在跨模态对齐任务中以生成方式解决视觉定位，并在多个数据集上验证其超凡性能。
PDFa year ago
释放文本的想象力：通过探索文字的力量实现文本到图像的人员检索的新框架
提出了一种用于文本到图像人物检索的新框架，旨在充分发掘句子中的词语力量。通过使用预训练的全 CLIP 模型作为图像和文本的双编码器，以及引入文本引导的图像恢复辅助任务和针对难样本的交叉模态三元组损失，该方法在三个流行的基准数据集上取得了最先
PDFa year ago
视觉语言预训练的全局和局部语义补全学习
本文提出了一种 GLSCL 任务，旨在促进全局 - 局部对齐和局部 - 局部对齐，该任务包括 MGSC 和 MLTC，可通过跨模式交互补充掩码数据的缺失语义并恢复全局和局部特征，实验结果显示，该方法在多种视觉语言基准测试中获得了最先进的性能
PDFa year ago
ACLManagerTower：聚合单模态专家的洞见，用于视觉语言表示学习
介绍 ManagerTower—— 一种有效利用预训练的 uni-modal 专家在不同层次上聚合语义信息来提升跨模态交互的视觉语言模型，在多项 VL 任务中取得了优秀表现。
PDFa year ago
IJCAI利用解耦概念化和集合对齐进行文本 - 视频检索
本研究提出了一种名为 Disentangled Conceptualization and Set-to-set Alignment (DiCoSA) 的跨模态任务解决方法，可以将视觉实体与自然语言描述对齐，采用多个与语义概念相关的潜在因素
PDFa year ago
医学视觉语言预训练中的多任务配对掩蔽与对齐建模
该研究提出了一种新的医学图像分析解决方案：基于多任务配对掩模对齐（MPMA）的统一 Med-VLP 框架，其中设计了全局和局部对齐（GLA）模块和记忆增强型跨模态融合（MA-CMF）模块，以实现更全面的跨模态交互，并在全部下游任务中优于以前
PDFa year ago
SoftCLIP: 更柔和的跨模态对齐增强了 CLIP
本篇论文提出了一种新的方法 SoftCLIP，它通过引入软化的目标来实现交叉模态对齐，并利用模内的自相似性指导实现许多对许多的关系，从而解决了高质量图像 - 文本配对数据的获取问题，成果表现良好。
PDFa year ago
CVPR对比学习中的多模态表示再探讨：从块和标记嵌入到有限离散标记
本文提出了一种基于 Finite Discrete Tokens (FDT) 的多模态表示方法，通过引入 FDT tokens 来代替原有的视觉片段和语言词，减小了不同语义级别和粒度间的差异，实现了更好的跨模态对齐和性能表现。
PDFa year ago
CVPR文本到图像的跨模态隐含关系推理和对齐的人物检索
研究了跨模态对齐的图像检索问题，提出了一种 IRRA 框架，并在三个公共数据集上获得了优于现有方法的最新成果。
PDFa year ago
CVPRCVT-SLR: 对比视觉 - 文本变换及变分对齐应用于手语识别
本文提出了一种新的对比视觉 - 文本转换（CVT-SLR）的方案，以充分探索视觉和语言模态的预训练知识，改进手语识别（SLR）的效果，实验结果表明其优于现有的单模态方法甚至优于 SOTA 多模态方法。
PDFa year ago
TOT: 多模式仇恨检测的拓扑感知最优输运
本论文提出了一种 topology-aware optimal transport (TOT) 框架，它利用最优传输计划的解决方案来解决跨模态对齐问题，从而揭示了恶意互联网违规内容的隐含危害。TOT 在两个公开数据集上取得了最新的最优性能，
PDFa year ago
CVPRMM-Diffusion：学习多模态扩散模型用于联合音频和视频生成
本文介绍了一种基于 Multi-Modal Diffusion 模型，利用两个耦合的自编码器进行序列多模态非线性去噪，提出了一种随机平移注意力块用于跨模态对齐，以实现音视频帧的生成并提高音视频质量
PDF2 years ago
CVPR利用语义完形学习进行视觉语言预训练的漏洞填补
本文提出新的语义完成学习任务，以便于视觉语言预训练（VLP）模型学习多模态数据的全局语义特征，从而实现全局到局部的对其，同时采用一种灵活的视觉编码器使得该模型可以同时执行图像 - 文本与视频 - 文本的多模态任务，实验结果证明该方法在各种视
PDF2 years ago
EMNLP面向弱监督时空语言联系的细粒度语义对齐网络
本篇论文提出了一种新的候选不受限制的方法 ——Fine-grained Semantic Alignment Network（FSAN），用于弱监督的 Temporal Language Grounding 任务，在两个广泛使用的基准测试中
PDF2 years ago
基于 CLIP 的细粒度文本图像人员再识别
提出了一种基于 CLIP 驱动的细粒度信息挖掘框架 (CFine)，旨在为 TIReID 提供强大的多模态知识，通过细粒度信息挖掘，建立跨模态对齐，并在多个基准测试上显示了其优越的性能。
PDF2 years ago