- SimTxtSeg:基于简单文本线索的弱监督医学图像分割
本研究提出了一种利用简单文本提示生成高质量伪标签、并研究训练分割模型中的跨模态融合的新框架 SimTxtSeg,其中包括两个关键组件:从医学图像的文本提示中产生视觉提示的有效的文本 - 视觉提示转换器,以及融合文本和图像特征的文本引导分割模 - 通过情感跨模态融合和类间对比学习提升对话中的情感识别
基于向量连接的跨模态融合情感预测网络,包括多模态特征融合阶段和基于融合特征的情感分类阶段,同时设计了基于情感标签的监督式跨类对比学习模块,实验证实了该方法的有效性,并在 IEMOCAP 和 MELD 数据集上展现出优异的性能。
- 跨模态适配器:用于视觉语言模型的参数高效迁移学习方法
XMAdapter 是一种跨模态参数高效的适配器方法,通过建立文本和图像的缓存模型,并利用视觉 - 语言双模态信息进行检索以获得推理线索。通过动态调整关联比例实现跨模态融合,解耦不同模态相似性以评估其各自的贡献,并通过适应性调整样本学习强度 - CVPRSnAG: 视频定位的可扩展和准确性
在本文中,我们研究了跨模态融合对视频定位模型可扩展性的影响,通过分析发现,针对长视频和大量文本查询的情况,后期融合是一种更具成本效益的融合方案,并提出了一种基于视频的采样方案以实现高效训练。基于这些发现,我们提出了 SnAG,作为可扩展且准 - AAAI频谱对多模态表示和融合更为有效:一种多模态频谱谣言检测器
挑战:社交媒体中混合文本与图像的多模态内容对辟谣具有重大挑战。 方法:使用频率域进行多模态辟谣检测,通过频谱表示和融合提取具有辨别力的特征。结果:频率域表示和融合的模型在多模态辟谣检测中取得了令人满意的性能。
- 利用多模态球面图像进行单帧语义分割
本研究提出了一种基于 Transformer 的跨模态融合架构,用于弥合多模态融合与全景场景感知之间的差距,并使用失真感知模块来处理极端对象变形和全景失真,通过跨模态交互实现特征矫正和信息交换,最终将特征合并以传达双模态和三模态特征流的长程 - 通过唇语子词相关性进行视觉预训练和交叉模态融合编码的提高音频视觉语音识别
本文提出了两种新技术来改善音视频语音识别,通过利用口型和音节级次字单元之间的相关性来建立良好的帧级音节边界并实现准确定位,以及利用音频引导的跨模态融合编码器神经网络来充分利用模态互补性。实验结果表明,使用相对较少的训练数据,该系统比复杂的前 - EgoVLPv2: 骨干网络中融合的自我中心视频语言预训练
本文介绍第二代自我中心视频 - 语言预训练 (EgoVLPv2),通过将跨模态融合直接纳入视频和语言主干网络,学习强大的视频文本表示,并在下游任务中灵活有效地支持不同的任务,并且我们提出的主干融合策略比堆叠额外的融合特定层更轻量化和计算效率 - 多模态谣言检测的知识增强层次信息相关学习
本文提出了一种基于知识增强的分层信息相关学习方法(KhiCL),通过同时建模基本语义相关性和高阶知识增强实体相关性来进行多模态谣言检测。
- ViLaS: 将视觉和语言集成到自动语音识别中
提出一种多模态自动语音识别模型(ViLaS),能够同时或分别集成视觉和语言线索来帮助识别输入语音,提出一种训练策略,从而提高在模态不完整的测试场景中的性能,并创建一个包含视觉和语言线索的多模态 ASR 数据集(VSDial),探索融合视觉和 - 多模态假新闻检测的跨模态对比学习
提出了一种基于跨模态对比学习的 COOLANT 框架,旨在提高多模态假新闻检测的准确性,该框架结合了跨模态融合模块、注意力机制和注意力引导模块,实现了有效而可解释的多模态特征聚合,实验结果表明该方法比现有方法在 Twitter 和 Weib - ACL多模态事件转换器用于图像引导的故事结尾生成
提出了一种基于多模态事件转换器的图像引导故事结尾生成方法,该方法利用事件图、跨模态融合和事件推理等技术从故事情节和结尾图像中推导隐含信息,并在解码器中适应性地注入必要信息,实验证明其在故事结尾生成方面性能优于现有方法。
- 语言理解通用多模态表示
本文提出了一种新方法来将视觉信息作为协助信号用于 NLP 任务,使用 Transformer 编码器和卷积神经网络来对文本和图像进行编码,通过注意力层将两种模态的表征进行融合,实验结果表明,该方法在不同的任务和语言中都具有很好的效果。
- MACSA: 一个多模态的方面 - 类别情感分析数据集,包含多模态细粒度对齐注释
本研究提出了 Multimodal Aspect-Category Sentiment Analysis (MACSA) 数据集,其中包含了超过 21K 个文本 - 图像对,提供了针对文本和视觉内容的细粒度注释,并首次使用 aspect c - SIGIR混合模态查询下的图像检索渐进式学习
本论文介绍一种将语音和图像相结合进行图像检索的复杂检索方法,从而需要语义空间学习和跨模态融合,同时提出了自我监督适应权重策略以更好地检索,通过广泛的实验,表明该方法在 Fashion-IQ 和 Shoes 基准数据集上的召回率均比现有方法提 - 一种简单且高效的端到端图像描述方法
通过联接预训练的视觉编码器和语言解码器,提出了一种自组装的交叉模式融合机制,建立了一种朴素但高效的端到端形象字幕框架,名为 VC-GPT,不需要额外的物体探测器,非常好地解决了现有方法中可能存在的问题,验证结果显示 VC-GPT 完全超越了 - CVPRLAVT:用于参照图像分割的语言感知视觉 Transformer
本研究提出一种新的方法,在视觉 Transformer 编码器网络的中间层通过对语言和视觉特征进行交叉融合,实现更好的交叉模态对齐,进而通过轻量级的掩模预测器得到准确的分割结果,该方法在 RefCOCO、RefCOCO + 和 G-Ref - MM基于深度品质启发的特征操作,用于高效的 RGB-D 显著性对象检测
本文提出了一种基于深度图像质量的特征处理方法(DQFM)和一种高效的轻量级模型(DFM-Net),用于 RGB-D 显着目标检测,通过跨模态融合来增强深度质量,并在非常高效的情况下实现了最先进的精度和性能。
- ACLVLM: 任务无关的视频语言模型预训练,用于视频理解
提供了一种简化、任务无关的多模态预训练方法,可以接受视频或文本输入,或两者皆可用于各种端任务。实验结果表明,在多种任务中表现出比以前的方法更强的性能,通常优于任务特定的预训练。