- 基于局部到全局的跨模态注意力融合方法用于 HSI-X 语义分割
本研究提出了一种用于高光谱图像和 X 模态图像分类的 Local-to-Global Cross-modal Attention-aware Fusion (LoGoCAF) 框架,通过像素级的两分支语义分割架构从两种模态中学习信息并进行特 - COLINGDELAN: 视觉与语言导航的双层对齐:跨模态对比学习
通过交叉模态对比学习,我们提出了一个名为 Dual-levEL AligNment (DELAN) 的框架,用于在融合之前对齐各种与导航相关的模态,从而增强交叉模态交互和决策制定。我们的方法与现有模型无缝集成,显著提高了各种 Vision- - 情感维度识别中的递归跨模态注意力的多模态融合
通过跨模态注意力和时间卷积网络,提出了一种用于多模态情感识别的模型,能够有效地捕捉不同模态之间的互补关系,并在赛事中实现显著改进。
- ICLR论多模态推理中神经网络的泛化能力
评估了多模态泛化的综合性能,发现多层注意力和跨模态注意力是整合多模态输入所需的关键架构特征,但对于有限类型的多模态泛化存在基本限制,强调了现代神经模型在多模态推理方面的优势和局限性。
- 利用文本条件特征对齐进行音频增强的文本到视频检索
通过引入 TEFAL 方法,利用跨模态注意力机制实现了文本查询条件下的音频和视频表示,从而提高了文本到视频检索任务的性能。
- 自动驾驶预训练视觉问答模型的性能分析
这篇简短研究在回答与驾驶场景相关的问题的背景下,对 ViLBERT、ViLT 和 LXMERT 这三种流行的视觉问答(VQA)模型进行初步分析。通过比较计算机视觉专家提供的参考答案与模型输出答案的相似性来评估这些模型的性能。分析了多模态架构 - 从二维集合中引导的文本生成三维人体
该研究提出了一种基于文本描述的三维人体生成方法,采用跨模态注意力将构成人体渲染与提取的时尚语义融合,以控制服装的形状、面料和颜色,实现对三维人体的高效控制和生成。
- CVPRDaGAN++:用于生成逼真视频的深度感知生成对抗网络
本研究提出了一种自监督学习的方法来学习面部视频的稠密三维几何结构,用于进一步引导面部特征点估计和生成高度逼真的聊天头像视频。
- MA-ViT:面部防欺诈的模态不敏感视觉变换器
本文提出了一种名为 Modality-Agnostic Vision Transformer (MA-ViT) 的单分支变压器框架和一个名为 Modality-Agnostic Transformer Block (MATB) 的模型,用于 - 跨模态注意力一致性正则化用于视觉语言关系对齐
通过跨模态注意力实现多模态视觉语言模型中的关系级对齐,进而改进现有最优方法并克服了标准测评指标中的组合泛化困境。
- 使用音频指导的预训练语言模型解释歌曲歌词
本文提出了 BART-fusion 模型,用于从音乐音频和歌词中生成歌词解释,该模型结合了一个大规模预训练语言模型和一个音频编码器。实验结果显示,该模型能够更好地理解歌词和音乐,生成精确流畅的解释,并且可以帮助人们更准确地检索音乐。
- MM音视频显著性预测的双域对抗学习
本文研究了使用双领域对抗学习算法来解决音频视觉显著性预测中源域数据分布不一致与目标域数据性能降解问题,其方法包括建立与对齐声学特征分布、跨模态自注意力模块融合声学特征至视觉特征、降低视觉特征及融合后的音视频相关性中的领域差异等。实验结果说明 - 利用对话历史的语言和韵律语境进行端到端共情对话语音合成的声学建模
提出了一种综合考虑语言和韵律话语历史的共情式对话语音合成模型,通过预训练的自监督学习模型、引入韵律特征模型等手段,实现对话语境的适当预测,取得了优秀的语音合成效果。
- CVPR语言桥接的时空交互用于参考视频对象分割
本文提出了一种利用语言作为中介桥梁的 LBDT 模块来实现更早的显式和自适应的空间 - 时间交互的方法,同时在解码阶段使用 BCA 模块进一步去噪并强调空间 - 时间一致特征,通过该方法在四个受欢迎的基准测试中取得了 6.8%和 6.9%的 - CVPR跨媒体语言 - 视频注意力 X-Pool 在文本 - 视频检索中的应用
提出了一种名为 X-Pool 的跨模态注意力模型,用于在文本和视频之间进行推理,从而提取重要的视觉线索。通过使用一个标度点乘的注意力机制,允许文本关注其最语义相似的帧,并生成基于文本的帧的注意力权重的聚合视频表示。在 MSR-VTT、MSV - CVPR跨模态关注和语言的视听通用零样本学习
该论文提出了基于视频和音频数据的零样本学习方法,通过跨模态注意力学习多模态表示,并利用文本标签嵌入将知识从已见类别转移到未见类别,并在三个不同规模和难度的音视频数据集上进行了基准测试,结果表明,所提出的 AVCA 模型在所有三个数据集上均取 - 注意力视觉关键词检测
本研究提出 Transpotter 模型,使用全面的跨模态注意力机制在视觉和语音流之间进行交互,成功实现静默视频序列中的语音关键词检测,并且在多项测试中,优于当前视觉关键词检测和唇语识别模型,并具备较强的嘴型单词分离的能力。
- MM-ViT:用于压缩视频动作识别的多模态视频 Transformer
该论文提出了一种基于多模态视频变换器 (MM-ViT) 的纯 Transformer 方法,其能够从压缩视频领域的多个可用模态中获取信息并实现动作识别,采用多个可扩展模型变量来处理来自多个模态的大量空间和时间令牌,进一步探索其丰富的模态间互 - AAAI正则化注意力网络在视觉问答异常检测中的应用
本研究评估了最新的 VQA 模型对五种不同异常情况的稳健性,并通过注意力机制的最大熵正则化方法提出了一个模型无关的跨模态技术来提高对各种异常情况的检测能力。
- 自监督超声到 MRI 胎儿脑部图像合成
本文提出了一种基于超声图像合成类似磁共振图像的方法,该方法自监督、端到端可训练,并利用交叉模式关注和对抗性学习等技术,成功生成了逼真的胎儿 MRI 图像。