- 缓解差距:研究提升 CLIP 中跨模态对齐的方法
通过设计 AlignCLIP,本文回答了共享多模态编码器参数空间是否减少模态间隙以及通过内部模态分离是否可以缓解间隙的两个主要问题,并通过大量实验证明了 AlignCLIP 在嵌入的跨模态对齐上取得了显著的改进,从而减少了模态间隙,并在零样 - 视觉对齐中的图像识别:优先考虑视觉相似性
通过对比图像输入,对每个文本标记的预测值差异提供了强大的视觉关联指导,我们提出了对每个文本标记赋予不同贡献的方法,名为 Contrastive ALignment (CAL)。我们的实验证明,CAL 方法在各种基准数据集上始终改善了不同类型 - 胸部 X 光报告生成的结构实体提取与患者指征融入
我们介绍了一种新方法,用于胸部 X 射线报告生成,并通过实验证明其在自然语言生成和临床效果评估方面优于现有方法。
- AlignGPT: 具有自适应对齐能力的多模态大型语言模型
利用新的多模态大型语言模型 AlignGPT,通过在预训练阶段为不同的图像 - 文本对分配不同级别的对齐能力,并在指导微调阶段自适应地组合这些不同级别的对齐能力,以满足不同指令的动态对齐需求,取得了 12 个基准测试的竞争性性能。
- 事实序列化增强:胸部 X 射线报告生成的关键创新
该论文介绍了一种名为 Factual Serialization Enhancement (FSE) 的新型方法,通过结构实体方法来消除报告中的演示风格词汇,实现胸部 X 光报告生成,并通过交叉模态对齐学习单模态特征以及从训练集中检索类似历 - 听力先行:具有讲话者关注的视频对齐
利用跨模态对齐和表示融合方法,在 Social IQ 2.0 数据集上取得了 82.06%的准确率,增强了视频模态的利用能力,并通过降低语言过拟合和当前技术所遇到的视频模态绕过等问题,提高了性能。
- HiVG: 视觉引导的分层多模态细粒度调控
通过多模态预训练的方法,我们提出了一个简洁高效的分层多模态细粒度调制框架 HiVG,用于解决通过自然语言对视觉区域进行视觉定位的任务,并且在五个数据集上的实验证明了该方法的有效性和显著的视觉定位能力及能源效率优势。
- CVPR联合对齐和回归的孪生学习用于弱监督视频段落定位
视频段落定位是视频语言理解中的新兴任务,其旨在从未修剪的视频中定位具有语义关系和时间顺序的多个句子。本研究提出并探索了弱监督视频段落定位,消除了对耗时且繁重的时间标签的需求。通过引入新颖的暹罗学习框架,我们联合学习跨模态特征对齐和无需时间戳 - SeCG:基于跨模态图注意力的语义增强的 3D 视觉定位
3D 视觉定位是指在给定相应的文本描述时,自动定位指定对象的 3D 区域。现有的研究在识别相似对象时存在困难,特别是当描述中涉及多个相关对象时。本文提出了一种基于图网络和设计的记忆图注意力层的语义增强关系学习模型 SeCG,以加强不同模态之 - 基于跨模态方法的无声语音的 LLM 增强识别
通过引入交叉模态对齐和监督时序对比的新型损失函数,我们提出了 Multimodal Orofacial Neural Audio (MONA) 系统,该系统为无声语音交流提供了一种非侵入性替代脑机接口。此工作代表了首次实现在开放词汇量下低于 - COLING语义增强的跨模态遮蔽图像建模及视觉 - 语言预训练
我们提出了一个语义增强的视觉 - 语言预训练模型,通过引入局部语义增强方法和文字引导的遮蔽策略,实现了跨模态语义对齐,在多个下游视觉 - 语言任务中取得了最先进或有竞争力的性能。
- 注意模态差异:通过交叉模态对齐实现遥感视觉语言模型
通过鲁棒的微调与跨模态对齐,本研究提出了一种方法,旨在将 RS(Remote Sensing)图像模态与 CLIP 的视觉和文本模态对齐,从而在 RS 图像分类和跨模态检索任务中获得显著的性能提升。
- AAAI基于条件变分自动编码器的手语翻译与跨模态对齐
为了解决手语翻译中视觉和文本之间的跨模态对齐问题,本研究提出了一种基于条件变分自编码器的新型框架(CV-SLT),通过引入两个 KL 散度来促进手语视频和口语文本之间的直接且充分的跨模态对齐。实验证明,该框架在公共数据集上取得了新的最先进结 - M2ConceptBase: 一个细粒度的对齐多模态概念知识库
通过建立一个多模态概念知识库、提供细粒度对齐以增强图像与概念之间的交互能力,该论文在进行模态间对齐时有效地改善了多模态模型的概念理解和交叉模态对齐能力。
- AAAI通过合成对的方法改善文本式图像描述的跨模态对齐
本研究提出了一种新方法,通过结合合成的图像文本对来解决图像标注中存在的跨模态对齐问题。通过使用预训练的文本到图像模型生成图像,并优化合成图像在 CLIP 嵌入空间中的伪特征以接近真实图像特征,同时利用图像中的显著对象来增强模态对齐的学习。实 - VLAP: 通过帧提示和蒸馏实现高效视频 - 语言对齐用于视频问答
我们提出了一种高效的视频 - 语言对齐方法(VLAP),通过帧提示和蒸馏来实现。我们的 VLAP 模型以统一的方式解决了有效的帧采样和有效的跨模态对齐问题。与之前的工作相比,我们的 VLAP 模型在选择具有关键内容的关键帧的能力方面表现出色 - PMMTalk:基于互补伪多模特征的语音驱动 3D 面部动画
PMMTalk 是一种使用伪多模态特征的新框架,通过跨模态对齐模块和 PMMTalk 解码器提高面部动画的准确性,同时引入面部混合形状系数,从而产生更准确的结果。
- VGSG: 基于视觉引导的文本人物检索的语义组网络
通过提出一种视觉引导的语义组网络 (VGSG),本文针对基于文本的人物搜索 (TBPS) 问题,在引导的视觉线索下提取了对齐良好的细粒度视觉和文本特征,并设计了一种关系性知识传递方法来适应地传播信息从而在无需外部工具和复杂配对交互的情况下将 - 跨模态突出片段增强对齐网络:图像 - 文本检索
通过降低非重要图片和文本片段的参与度,提高对重要片段的对齐相似性,本文介绍了一种新的跨模态突出片段增强对齐网络 (CPFEAN),该网络通过减少在对齐过程中无关区域的参与度并相对提高对齐的突出词,从而实现改进的检索准确性。与最先进的方法相比 - MM视频参照表达理解中的基于内容条件查询的 Transformer
使用动态查询和跨模态对齐,基于 Transformer 方法的 ConFormer 模型在视频参考表达理解中表现出色,实现了对目标对象的定位。