- 多模态大语言模型自然形成类人对象概念表示
通过分析行为和神经成像数据,本研究揭示了大型语言模型(LLMs)中的对象概念表示与人类的相关性,证明了 LLMs 和多模式 LLMs 已经发展出类似于人类的概念性对象表示,该研究推动了对机器智能的理解并为开发更类似人类的人工认知系统提供了参 - CHASE: 一个基于因果异构图的多模态微服务系统根本原因分析框架
该论文提出了基于因果异构图的微服务系统的根本原因分析框架 CHASE,通过编码相关信息和建模多模态调用图来实现对微服务系统中的异常检测和根本原因定位,实验结果表明该框架在两个公开数据集上取得了平均性能提升 36.2%(A@1) 和 29.4 - 多模态基于世界模型的通用型智能体
通过引入多模态基础世界模型,GenRL 代理学习框架能够将基础视觉语言模型的表示与生成式世界模型的潜在空间连接和对齐,从而克服了现有基础视觉语言模型在不同领域上的问题,并在多个运动和操作领域展现了强大的多任务泛化性能。此外,通过引入无数据强 - WeatherQA: 多模态语言模型能否推理严重天气?
多模态数据集 WeatherQA 是用于预测复杂的恶劣天气事件的第一个数据集,使用视觉语言模型评估模型在多选问题和危险密度分类任务上表现较人类推理薄弱,需要更好的训练和数据整合来弥合差距。
- MM多模态数据分布的弱监督异常检测
基于弱监督的变分混合模型的异常检测器(WVAD)在多模态数据集上表现出卓越性能。通过捕捉不同聚类中数据的各种特征,并通过异常得分评估器对这些特征进行评估,WVAD 能够识别异常水平。在三个真实世界数据集上的实验结果证明了 WVAD 的优越性 - 基于多模态深度学习的自然语言处理模型优化研究
通过引入多个模式层到属性模型中,整合了图像内容的语义和隐藏层。利用 Word2Vec 方法量化词向量并通过词嵌入卷积神经网络进行评估,实验结果显示该方法可以将离散特征转化为连续特征,从而降低特征预处理的复杂性,并通过卷积神经网络的优秀特征分 - 只需缩放和平移
通过特征对齐的方法,在联合特征空间中通过模态之间的特征迁移和特征扩展实现了多模态信息的完全整合,从而可靠地捕获来自不同模态的特征之间的高级相互作用,并在多模态学习性能上取得了显著的提升。对包含时间序列、图像和文本的多模态数据集进行了广泛的实 - 基于嵌入式多模式学习的全面鳞癌的生存结果改善
用于患者生存预测的基于多模态数据的图神经网络框架 PARADIGM 优于其他模型,通过整合多种数据视角,提供全面的疾病认知。
- 通过门控交叉注意机制实现多模态稳定融合的股票走势预测
通过提出一种名为 MSGCA 的新型架构,能够处理股票预测中的多模态数据,实现多模态融合和稳定性,取得了相对于其他模型的各个方面的优势。
- ICML多模态数据集精炼的低秩相似性挖掘
提出了一种用于多模态数据集精简的低秩相似度挖掘(LoRS)方法,通过同时挖掘图像 - 文本对中的准确相似度矩阵,并利用低秩因式分解实现高效和可伸缩性,在现有算法上取得了显著的改进,对于视觉语言数据集精简领域做出了重要贡献。
- 基于注意力机制的多模态数据顺序推荐系统
提出了一种基于多模态数据的关注机制的序列推荐方法,该方法利用图像、文字和类别等多模态数据,利用 attention 操作和多任务学习损失,提高了推荐系统的性能。
- 多星时序图像中人工林识别数据集
通过多模态数据和数据增强方法,利用卫星遥感技术实现全球范围内的森林监测,以保护和恢复森林生态系统,对生物多样性保护和碳封存至关重要。
- 朝向精准医疗:时序和图像数据的稳健融合
利用多模态数据,特别是医学实验的图像和时间序列数据,提出一种新的方法来改进临床应用中的多模态深度学习,在预测死亡率和表型分型等重要领域中取得了有效的结果,同时克服了噪声和不平衡数据集的挑战,并采用不确定性模型和注意力机制,提高了模型的性能和 - MM从 CNN 到 Transformers 的多模态人体动作识别:一项调查
多模态人体动作识别的综述研究,重点关注多模态数据融合设计方面的经典和新兴技术,分析了卷积神经网络和 Transformer 建模方法在该问题上的流行趋势和更高效的模型设计选择,并讨论了实践模型训练中的有前景的架构和融合设计选择,以及多模态数 - AAAITinyM$^2$Net-V3: 面向可持续边缘部署的内存感知压缩多模态深度神经网络
由于人工智能算法的普及和应用,能源使用和二氧化碳排放显著增加,加剧了对气候变化的担忧。为了解决这一问题,我们需要开发可持续的人工智能解决方案,特别是能耗低、适用于环境资源有限的嵌入式系统。本文介绍了 TinyM^2Net-V3,它是一个处理 - SMP 挑战:社交媒体预测挑战的概述与分析
社交媒体人气预测 (SMPP) 是一个关键任务,涉及利用社交媒体平台上的大量多模态数据自动预测在线帖子的未来人气值。本研究总结了具有挑战性的任务、数据和研究进展,提供了整体分析和最新信息。
- 如何通过对齐优化多模态数据
研究多模态数据,重要的因素是了解各个模态之间的关系和相互作用,通过对齐各个模态数据可以提高预测质量、跨模态查询以及解决模型解释性问题。通过分析德国议员如何对待极右派 AfD 成员的演讲,以及在 2020 年美国总统竞选中预测视频广告的气氛, - FORESEE: 癌症生存鲁棒预测的多模态和多视图表示学习
一个新的端到端框架 FORESEE,通过挖掘多模态信息来稳健地预测患者生存情况,同时利用细胞水平、组织水平和肿瘤异质性水平的丰富语义特征,解决了多模态数据的缺失问题,并通过交叉尺度特征融合方法,提高了病理图像特征表征能力。
- 越南多模态方面类别情感分析的新基准数据集和细粒度跨模态融合框架
借助细粒度多模态信息改进维族多模态情感分析的研究工作中,我们提出了新的维语多模态数据集 ViMACSA 和一个 Fine-Grained Cross-Modal Fusion Framework (FCMF) 框架,通过学习内部和跨模态交互 - Gemini 模型在医学领域的能力
Gemini 模型在医学应用领域的卓越表现面临着挑战,要求先进的推理能力、获取最新的医学知识和理解复杂的多模态数据。该研究引入了 Med-Gemini,一类在医学领域具有高度实用性的多模态模型,能够无缝地使用网络搜索,并可以通过定制编码器高