- Gemini 模型在医学领域的能力
Gemini 模型在医学应用领域的卓越表现面临着挑战,要求先进的推理能力、获取最新的医学知识和理解复杂的多模态数据。该研究引入了 Med-Gemini,一类在医学领域具有高度实用性的多模态模型,能够无缝地使用网络搜索,并可以通过定制编码器高 - 多模态掩蔽自编码器用于动态情绪识别
本文提出了一种名为多模态蒙特卡洛自动编码器(MultiMAE-DER)的处理多模态数据用于动态情感识别的新方法。MultiMAE-DER 利用视觉和音频模态之间的时空序列中紧密相关的表示信息。通过利用预训练的蒙特卡洛自动编码器模型,通过简单 - 医疗图像分割的多模态信息交互
通过引入创新的多模态信息交叉变换器(MicFormer),本研究在多模态图像任务中成功整合不同模态之间的相关信息,显著提高了分割性能,表明 MicFormer 在多模态图像任务中具有广泛的应用潜力。
- 文本信息如何影响多模态上下文学习的检索?
通过使用多模态数据,我们的研究深入评估了文本信息对无监督选择多模态上下文示例的影响,揭示了检索器性能对所使用模态的显著敏感性,我们还介绍了一种新颖的有监督多模态大语言模型检索器(MSIER),通过使用神经网络选择样例以提高多模态上下文学习效 - iRAG:一种用于视频的增量检索增强生成系统
通过增量流程的方式,iRAG 提供对大规模、真实世界的多模态数据的高效交互式查询,比传统的 RAG 系统更快地将视频转换为文本,并确保与传统 RAG 相比,响应交互用户查询的质量相当。
- ACLEIVEN:多模态 LLM 实现高效的隐式属性值提取
在电子商务中,准确从多模态数据中提取产品属性值对于提高用户体验和零售商的运营效率至关重要。为了解决这些问题,我们引入了 EIVEN,一个数据和参数高效的生成框架,首次使用多模态 LLM 来进行隐含属性值提取,并通过对比学习技术降低模型混淆, - 多模态癌症生存分析中的群体个体协作学习
我们提出了一种合作学习框架,通过知识分解和队列引导方法协同推进癌症生存分析,以提高多模态数据的融合、鉴别和泛化能力。通过四个不同组成部分:冗余性、协同性、独特性和队列引导建模,我们的模型在融合多模态数据进行生存分析时展现出了卓越的效果。
- 推进疼痛识别中的多模态数据融合:利用统计相关性和以人为中心的观点的策略
通过结合统计相关性和以人为中心的方法,本研究解决了融合异构数据进行特定行为识别在疼痛识别领域的挑战,利用多样化的深度学习架构突出了方法的适应性和有效性,在各种复杂环境中提高模型性能。通过战略性的加入统计相关性权重和以人为中心的多模态数据分割 - 一种自适应多模态融合的进化网络架构搜索框架用于手势识别
我们提出了一个具有自适应多模态融合的进化网络架构搜索框架(AMF-ENAS),通过自动解码,能够自动构建具有不同架构的多模态网络,该算法在多模态手势识别(MHGR)方面取得了最先进的性能。
- CVPRSDSTrack: 自蒸馏对称适配器学习用于多模态视觉目标跟踪
我们提出了一种新的对称多模态跟踪框架 SDSTrack,通过轻量级适应和补充掩膜路径蒸馏策略,提高了跟踪器在复杂环境中的鲁棒性,并在各种多模态跟踪场景中表现出优异结果。
- CSDNet: 通过轻量级交叉浅层和深度感知网络检测深度热点
通过轻量级的 CSDNet 网络,实现了对多模态数据的优化处理与集成,以提高机器感知能力,并在深度 - 热力学(D-T)模态中超过了采用 RGB-T 或 RGB-D 模态的其它方法,与 RGB-D-T 三模态方法相比在运行时间上快 5.97 - 多模式变分自编码器中共享和私有潜在因素的解耦
用于多模态数据的生成模型可用于识别与观察数据异质性重要决定因素相关的潜在因素。然而,存在一些变量是特定于单个模态的私有变量,而共享变量对解释多模态数据的变异性很重要。本研究探讨了多模态变分自编码器在可靠地实现这种解缠的能力方面,针对一种挑战 - 多模态 VAEs 中的统一多样性:改进的表示学习
用于多模态数据的变分自编码器在数据分析中具有许多任务的潜力,如表示学习、条件生成和插补。我们通过用软约束替换这些硬约束,提出了一种新的专家混合先验方法,软指导每个模态的潜编码向共享的聚合后验靠近,从而得到一个更好的潜编码表示,并提高了对缺失 - MedFLIP:医学视觉与语言自监督快速预训练之基于掩码自编码器的方法
介绍了一种名为 MedFLIP 的快速语言 - 图像预训练方法,利用 Masked Autoencoders (MAEs) 和多模态数据进行了零样本学习,提高了医学诊断中从有限数据中学习的能力,通过实验证实了使用语言将提高医学图像分析的零样 - FinAgent:金融交易的多模态基础代理:工具增强,多样化,与综合性
金融交易是市场的关键组成部分,涵盖了新闻、价格和 K 线图等多模态信息,应用于定量交易和高频交易等不同任务。本论文介绍了 FinAgent,一个多模态的金融交易代理,利用深度学习和强化学习等先进 AI 技术处理复杂数据,并在多个数据集上取得 - 基于多组学数据的个体逆因果治疗建议的机器学习框架:走向面向 AI 的精准肿瘤学
AI 驱动的精准肿瘤治疗具有转变癌症治疗的潜力,通过利用 AI 模型分析复杂患者特征与相应治疗结果的相互作用,以及新技术平台提供的多模态肿瘤生物学数据,开展数据驱动的临床决策改进研究。该研究提出了一个模块化机器学习框架,旨在通过一组训练于多 - 基于神经渲染的自动驾驶城市场景重建
利用多模态数据结合深度学习模型进行密集三维重建,从而提高自动驾驶中的标注验证、数据扩充、缺失 LiDAR 系统的地面真值注释以及自动标记准确性的应用效果。
- 基于大型语言模型的多模态临床试验结果预测
临床试验结果预测的多模态融合专家模型(LIFTED)通过将各种方式的数据转化为自然语言描述,再利用统一的噪声抵抗编码器提取信息,进一步利用稀疏的专家模型优化表示,通过动态集成不同方式的表示进行预测,有效提升临床试验结果预测性能。
- 多模态图学习:一项调查
多模态图学习的比较分析,阐明不同图类型的多模态学习方式,探索主要学习技术的特点,以及多模态图学习的重要应用和未来方向。
- 离散状态空间上的生成流:实现多模态流与蛋白质协同设计应用
通过离散流模型(DFMs)实现了流模型在多模态连续与离散数据问题上的应用,利用连续时间马尔可夫链实现了离散空间流匹配,进一步改进了基于扩散的方法,成功构建了多模态流建模框架,并应用于蛋白质共设计任务,取得了最先进的共设计性能,同时能灵活生成