- 通过无需训练的码书优化和分层对齐发掘多模态统一离散表示的潜能
最近的表征学习进展展示了多模态对齐的重要性。我们提出了一种无需重新训练的代码本优化方法(TOC)来提高模型性能,并引入了分层双交叉模态信息分解(H-DCID)方法来扩展信息分离和对齐到两个级别,进一步增强准确的多模态学习。
- CVPRMADTP:多模态对齐引导的动态标记修剪加速视觉 - 语言转换器
提出一种名为 MADTP 的新框架,通过多模态对齐和动态令牌修剪来加速各种视觉语言变换 (VLTs) 模型,显著减少计算复杂度同时保持竞争性能。
- SyCoCa: 对称化的关注屏蔽对齐的对比式字幕生成器
当前视觉语言模型研究的基础主题是语言和视觉之间的多模态对齐。对比式字幕生成器 (CoCa) 是一种代表性方法,它将对比语言 - 图像预训练 (CLIP) 和图像字幕 (IC) 集成到统一框架中,取得了令人印象深刻的结果。本文提出了一种称为对 - 参数高效调节与通用视觉语言模型的结合
通过参数高效调优,利用指令调整和多模态对齐的方法,本研究提出了一种新的通用视觉 - 语言模型训练方法 PETAL,其通过独特的模式近似技术,显著减少了训练成本和对重计算资源的依赖,并在语义深度方面进行了改进。实验证明,PETAL 在多个方面 - 在单个 GPU 上的数据有效多模态融合
FuseMix 是一种多模态增强方案,在任意预训练的单模态编码器的潜空间上操作,通过使用 FuseMix 进行多模态对齐,我们以远低于 CLIP 的计算和数据成本,在图像 - 文本和音频 - 文本检索任务中实现具有竞争力的性能。
- OneLLM:一种将所有模态与语言对齐的框架
通过统一的多模态编码器和渐进式多模态对齐管道,OneLLM 将八种模态与语言对齐,以充分发挥其在指令跟随中的潜力;在全面的多模态指令数据集上进行评估,并在多模态字幕生成、问答和推理等任务中展现出优异性能。
- 大型 AI 模型赋能的多模态语义通信
利用大型人工智能模型构建的大规模多模态语义通信(LAM-MSC)框架,通过多模态对齐、个性化语言模型和信道状态估计相结合来解决多模态语义通信中的数据异构性、语义歧义和信号衰落等挑战,并通过模拟实验验证了该框架的卓越性能。
- 语言知识能够改善视觉 - 语言预训练中的多模态对齐吗?
研究探讨了多模态预训练神经网络模型在视觉语言相关方面的影响,设计并发布了 SNARE 多模态对齐基准,分析了五种先进的视觉语言模型的综合性能。
- ICCVMEGA: 电影视频分割的多模态对齐、聚合与蒸馏
本研究介绍了一种用于电影长视频分割的多模态对齐聚合与提取的方法(MEGA),该方法通过利用多个媒体模态来粗略对齐不同长度和不同模态的输入,并采用增强的瓶颈融合层和对比损失来保持时间同步并实现跨模态的标签转移与段落划分。实验结果表明,MEGA - 用于视觉 - 语言表示学习的人工脉冲分层网络
我们提出了一种高效的计算框架,通过引入视觉语义模块进一步改善视觉语言任务性能,该框架利用了自监督学习和多模态对齐的优势,并结合了人工神经网络和脉冲神经网络以丰富视觉语义表示。
- ICPC:基于对照学习的实例条件提示的语义分割
通过改进提示设计和损失函数,我们提出了一种实例条件提示与对比学习(ICPC)框架,改善了视觉和文本嵌入对准的质量,并在三个大规模数据集上展示出改进的性能。
- Paxion: 在视频 - 语言基础模型中修补动作知识
该研究提出了一种新型框架 Paxion,通过 Knowledge Patcher 和 Knowledge Fuser 模块来填补视频语言模型在动作知识理解方面存在的短板。研究使用 DVDM 目标训练 Knowledge Patcher,以提 - 用于高效视频文本检索的掩码对比预训练
本文提出了一种简单而有效的视频 - 语言预训练框架,用于视频 - 文本检索任务,并采用掩蔽对比视频 - 语言预训练进行了优化,以提高预训练效率和性能,并实现了与图像 - 文本检索任务的竞争结果。
- 音乐对比语音学习
本研究旨在探讨通过自然语言与音频之间的跨模态学习实现音乐语义理解任务的方法,提出了一种名为 MusCALL 的框架,采用双重编码器架构进行跨模态学习,实现音频和描述语句的对齐,生成用于文本到音频和音频到文本检索的多模式嵌入,实验表明我们的方 - MMDSSL:基于深度学习的文本人物检索中的深层环境与人物分离学习
提出了一种 Deep Surroundings-person Separation Learning (DSSL) 模型,其中采用了环境与人员信息的分离和融合机制以实现准确和有效的环境 - 人员分离,在多模式及多粒度信息上采用了五种不同的对