cross-modal alignment | BriefGPT

关键词cross-modal alignment

搜索结果 - 52

ECCV以精细化理解带来更丰富的视野：基于隐含模态对文本人物检索的对齐
本研究提出了一种隐式视觉 - 文本框架，通过多级和双向遮罩建模方法实现跨模态匹配，提高了人物的文本检索效果。
PDF2 years ago
ICLR多模态表示学习的遮蔽视觉和语言建模
本文研究如何使用掩码信号建模来实现视觉和语言（V + L）表示学习，提出了联合掩码视觉和语言建模的方法，通过不同的模态互相重构，隐式地学习语言标记和图像补丁的交叉模态对齐，并在各种 V + L 任务中实现了最先进的性能。
PDF2 years ago
通过跨模态跳跃连接实现有效和高效的视觉 - 语言学习的 mPLUG
mPLUG 是一个新的视觉语言基础模型，通过新颖的跨模态 skip-connections 有效缓解了现有预训练模型由于跨模态对齐中长的视觉序列带来的信息不对称和低计算效率等问题，通过对大规模图像 - 文本对的端到端预训练，具有良好的视觉和
PDF2 years ago
LayoutLMv3: 统一文本和图片遮盖的文档 AI 预训练
本文提出的 LayoutLMv3 是一种用于文档人工智能的多模态 Transformer 的预训练方法，用于统一文本和图像遮蔽，并通过预测文本单词的对应图像块是否被遮蔽的方式进行跨模态对齐。实验结果表明，LayoutLMv3 不仅在文本中心
PDF2 years ago
MM基于常识的快速视频时间对齐细节文本对齐学习
本文提出一种基于常识感知的跨模态对齐框架，通过从语料库中提取结构化语义信息，设计跨模态交互模块获得桥接式视觉和文本特征，并将其整合到共同的空间中进行快速视频时间定位。在两个具有挑战性的数据集上，证明该方法能够以高速运行，且表现优于现有的方法
PDF2 years ago
ECCV视觉语言预训练的单流多级对齐
利用对比损失进行的自监督视觉 - 语言预训练虽然有效，但由于双流体系结构仅在全局层面上对齐图像和文本表示法，因此忽略了细粒度对齐。本文提出了一种单通道体系结构，使用两个新任务在多个层次（即全局、细粒度图块 - 令牌和概念 / 语义层次）上对
PDF2 years ago
CVPR三重对比学习视觉语言预训练
本研究提出了一种名为 TCL 的视觉 - 语言预训练三重对比学习框架，通过交叉模式对齐和内部模态自我监督来提高学习的代表性，并通过最大化图像 / 文本局部区域与全局摘要之间的平均互信息，取得了在图像 - 文本检索和视觉问答等任务中的优异表现
PDF2 years ago
使用实体提示进行语言及视频预训练
本文提出了一种高效且有效的视频和语言预训练框架 ——Align and Prompt，通过提出视频 - 文本对比（VTC）损失和提示实体建模（PEM）任务来更好地跨模态对齐，从而学习精细的区域 - 实体对齐，与以前的方法相比取得了显着性能提
PDF3 years ago
KD-VLP: 用目标知识蒸馏改善端到端的视觉与语言预训练
本文提出了一种基于图片格特征和语言信息的端到端多模式表示学习框架，其中使用自监督的对象知识蒸馏以提高跨模态对齐的准确性和效率，并在广泛的视觉和语言任务上取得了竞争性的表现。
PDF3 years ago
MM结构化的多模态特征嵌入和对齐 —— 面向图像 - 句子检索
本文提出了一种新的结构化多模式特征嵌入与对齐模型（SMFEA）来增强图像 - 句子检索，通过构建视觉和文本片段之间的内在结构和外在交叉模态结构和语义对应关系，使用共享的上下文感知式引用树的新型多模式结构模块联合并显性地学习视觉 - 文本嵌入
PDF3 years ago
EMNLP通过人类凝视引导的序列跨模态对齐生成图像描述
本文通过计算机模拟探索图像描述生成时的跨模态对齐过程，结合人类凝视模式记录的信息进行多种模型方案的开发并分析，提出在视觉处理中逐序建模的图像描述生成方法，研究发现使凝视数据逐序处理可以得到更好的描述，探讨了人类认知过程的不同对齐方式并取得了
PDF4 years ago
ECCV基于属性的人物搜索的共生对抗学习
为了解决缺少查询图像的情况下基于属性的人员搜索任务的挑战，本文提出了一种 SAL 的符号对抗学习框架，其中交互的两个生成敌对网络相互受益，从而在两个具有挑战性的人行数据集上超越了九种最新方法。
PDF4 years ago