- MIND:从大型视觉 - 语言模型中蒸馏多模态购物意图以实现电子商务购买理解
利用 MIND 多模态框架,从多模态产品元数据中推断购买意向,优化用户体验和提供个性化搜索结果,进而提高大型语言模型的意向理解任务效果。
- GrootVL:在状态空间模型中,树拓扑是唯一所需
借助于动态生成的树形拓扑结构和特征传播,GrootVL 网络可超越传统状态空间模型在建模长距离依赖关系上的局限,具备强大的表示能力;此外,通过引入线性复杂度的动态规划算法,还能在不增加计算成本的情况下增强长距离交互,并在图像分类、目标检测、 - ACL基于理性推理的多模态迷因问答
通过引入 MemeMQA 和 ARSENAL,本研究分析了表情包在多模态沟通中的解释和理解,并展示了 MemeMQA 在回答准确性和文本生成等方面的优越性。
- 多模态神经退行性疾病分类的 ChatGPT 解释
阿尔茨海默病(AD)是最常见的神经退行性疾病,但目前的可用治疗方法仅限于停止疾病进展。此外,由于该疾病的异质性,这些治疗方法的有效性并不保证。因此,能够在早期阶段确定疾病亚型至关重要。我们提出了一个多模态框架,使用早期指标如图像、遗传学和临 - 引导 OTS-Funcimg 预训练模型(Botfip)—— 一个综合的符号回归框架
在科学计算领域中,很多问题解决方法都注重过程和最终结果,即使在科学领域的人工智能中,也缺乏深入的多模态信息挖掘,缺少与图像文本领域类似的多模态框架。本文以符号回归(SR)为重点,从图像文本领域的 BLIP 模型得到启发,提出了一种基于函数图 - 多模态情感分析:感知情绪 vs 引发情绪
在这项研究中,我们提出了一个多模态框架,整合了视觉和文字特征来预测 GIF 表情的情感,并结合面部情绪检测和 OCR 生成的字幕来捕捉 GIF 的语义方面。通过在 Twitter GIF 上进行实验,我们的分类器达到了 82.7% 的准确率 - 统一视觉 GPT:通过通用多模态框架简化面向视觉的人工智能
UnifiedVisionGPT 是一个新框架,通过整合 SOTA 视觉模型来加速计算机视觉领域的发展,提供多功能的多模态平台,自动化模型选择,并通过提高效率、通用性、综合能力和性能来改变计算机视觉领域。
- 语言引导的视觉问答:使用知识丰富的提示提升多模态语言模型
对于图像中的问题,通过使用语言指导(LG)如解释、图像标题、场景图等方面的共识知识、世界知识和理解创意和概念来回答问题更准确;提出了一种多模态框架,使用 CLIP 和 BLIP 模型通过 A-OKVQA、Science-QA、VSR 和 I - ZRIGF: 零资源图像引导对话生成的创新多模态框架
ZRIGF 是一种创新的多模态框架,用于零资源情境下基于图像的对话生成,包括对抗性预训练和生成性预训练两个阶段,通过映射和融合图像和文本,生成上下文相关和有信息量的回应。
- 通过多媒体基础实现非顺序图脚本归纳
该论文提出了一种新的具有挑战性的任务,即非顺序图脚本推理,旨在捕捉程序规划中的可选步骤和可互换步骤,通过多模态框架将视频转换成观察到的步骤路径,以训练生成明确图脚本和预测未来步骤的模型。该模型优于纯文本 / 视觉基线,人类评估显示超过 Wi - 多模态对比学习中的表示链接
该研究开发了一个名为 CLIPPINGS 的多模态框架,它利用端到端训练,对称视觉和语言双编码器,并通过对比语言 - 图像预训练来将它们对齐,以学习一个度量空间,在这个空间中,给定实例的汇总图像 - 文本表示对于同一类别的表示非常接近,对于 - 基于 Transformer 的多模态信息融合用于面部表情分析
本研究介绍了一种基于多模态特征和 Transformer 的统一框架,用于情感行为分析和表情识别任务,同时运用数据平衡和增强方法进一步提高模型性能。实验证明,该方法在 ABAW3 竞赛中在 EXPR 和 AU 方面排名第一。
- 基于多模态自监督学习的渐进式视频摘要技术
本文介绍了一种基于深度神经网络的视频摘要方法,该方法使用了多模态自监督学习框架,该框架可以在不需要大规模标注数据的情况下,通过视频与文本之间的语义一致性来获取视频的语义表示,并提出了一种渐进式摘要方法。实验表明,该方法的排名相关系数和 F - 多模态自监督学习通用音频表示
通过使用多模态框架,在训练音频表征时利用视频信息和加入混合样本的数据增强,本研究的对比学习框架成功地实现了在非语义音频任务上的领先水平。
- MM基于融合音乐和电皮肤活动信号的高效多模态大规模情感识别框架
本研究采用凸优化的 EDA 方法将情绪识别中所需的动态和稳态特征分离,提出了一种融合了个体 EDA 特征和外部音乐特征的一维残余时间和通道注意力网络的多模态框架,证明其比现有模型更有效。
- 针对不同步视听事件的弱监督表征学习
本文提出了一种基于多模态学习的新型框架,可以从非同步的音频和视觉事件中学习,用于事件分类和定位。使用该方法可以取得弱标签音频事件视频大规模数据集的最先进结果。