- 情绪在在线健康社区信息支持问答对中的作用:一种多模态深度学习方法
该研究探讨了在线健康社区中信息支持寻求问题、回答和有益评级之间的关系。我们创建了一个标记的问题 - 回答数据集,并开发了可靠地预测信息支持问题和回答的多模式机器学习和深度学习模型。我们采用可解释的人工智能揭示了信息支持交流中蕴含的情感,并展 - 通过特征空间增强和迭代学习实现长尾图像生成
基于稀疏嵌入和 K-NN 方法,我们提出了一种基于预训练的稳定扩散模型的图像增强方法,以解决图像生成中的数据不平衡问题。
- 多模态可佩戴传感器人体动作识别调查
结合增加的预期寿命和下降的出生率导致人口老龄化问题,可穿戴传感器技术的人体活动识别成为一种有着巨大潜力的辅助技术来支持老年人的日常生活,近期的研究聚焦于深度学习方法或单一传感器模态,为了给机器带来类似的智能,多模态机器学习成为研究者们热衷的 - 多模态范式的归因规范化
通过提出新的正则化项,促进多模态模型在决策过程中有效利用所有模态的信息,以缓解单模态主导性问题并提高多模态机器学习系统的性能。
- 关于多模态与单模态机器学习之间更强的计算分离
多模式机器学习与单模式学习的理论模型、计算分离以及平均情况的计算分离是本篇论文的主要研究内容。
- 借宝于邻:针对多模态学习的上下文学习在缺失模态和数据稀缺情况下的应用
通过使用检索增强上下文学习来解决多模态机器学习中缺失模态和样本有限的问题,提高分类模型性能和样本效率。
- MM多模态机器学习结合面部图像和临床文本,提供罕见遗传疾病的诊断
使用多模态机器学习方法,结合罕见遗传病的面部特征和人工智能算法,可以缩小罕见疾病的基因诊断范围并帮助基因组 / 外显子测序数据重解释。
- 文本图像生成模型中(非)预期记忆的理解
多模态机器学习中的文本到图像模型,如 Stable Diffusion 和 DALL-E 3,以将文本转化为详细图像而变得重要。本文介绍了一种专门针对文本到图像模型的记忆定义,并根据用户期望将其分为三种不同类型。我们对意图记忆和非意图记忆之 - 多模态交互专家混合
多模态机器学习在理解图像和描述性文本之间的关系方面取得了重要进展,但这仅仅是潜在多模态交互的一部分,在预测讽刺等新交互中未包括新的冲突话语和手势之间的交互。本文通过一种称为 MMOE 的新方法解决了这个问题,该方法通过每种具体交互类型使用专 - 模块化混合注意力网络用于视频问答
多模态机器学习中的网络结构复杂,通过连接可重用且可组合的神经单元,可以以更直观的方式完成多模态机器学习任务的网络构建,同时通过参数共享大大减少了空间复杂度。
- 医疗中的多模态联邦学习:一项综述
多模态机器学习和联邦学习在医疗领域具有重要意义,并提出了多模态联邦学习在医疗领域的最新方法。此外,研究还揭示了领域中现有挑战的局限性,并提出了未来发展的方向,以满足医疗应用中尖端人工智能技术和患者数据隐私的迫切需求。
- MuSe-GNN:从多模态生物图数据中学习统一的基因表示
在这项研究中,我们通过引入一种名为多模态相似性学习图神经网络的新型模型,结合多模态机器学习和深度图神经网络,从单细胞测序和空间转录组学数据中学习基因表示,以解决在不同生物医学环境中发现具有类似功能的基因的挑战。我们的模型通过为模型训练和基因 - 材料科学的多模态机器学习:从实验测定的属性到成分 - 结构双模态学习
该研究介绍了一种基于组成 - 结构双模态学习的多模态机器学习方法,用于提高实验测得的材料性质的学习和预测,同时通过数据增强技术,显著减小了材料性质的预测误差。
- ECCVSwitch-BERT: 通过切换注意力和输入来学习建模多模态交互
本文提出了一种名为 Switch-BERT 的多模态机器学习模型,它通过引入可学习的分层和交叉层交互来优化注意力集合,从而解决了多样输入模态和固定结构下的模态不匹配问题,实现了良好的视觉问答、图像文本检索和指代表达理解等任务的性能。
- 多模态机器学习中的模态影响
本研究旨在探讨每种模态对 Multimodal Machine Learning 模型的影响,并针对不同分类任务的数据集和模型,提出了一种确定每种模态对 Multimodal Machine Learning 模型的影响的方法。研究结果对于 - 多模态学习的校准
该文介绍了多模态机器学习在可靠性方面的问题,通过对当前分类方法进行实证研究发现算法的可靠预测能力存在问题,因此提出了一个新的正则化技术:Calibrating Multimodal Learning 来解决问题并提高性能.
- AAAI极端学习图像多模态深度网络压缩
本文提出了一种文字引导图像压缩的多模态机器学习方法,通过使用文本的语义信息来引导图像压缩,以实现更好的压缩性能,包括采用图像 - 文本注意力模块和改进的多模态语义一致性损失函数。实验证明,该方法能够在极低比特率下获得较好的视觉效果,并且即使 - IJCAI身体感知视觉语言规划中的核心挑战
该文章综述了多模态机器学习和人工智能的最新进展,提出了 “实体视觉语言规划(EVLP)” 这一重要领域并进行了分类和算法分析,并探讨了现实世界中模型的概括性和部署的核心挑战。
- AAAIAutoFraudNet:一种多模式网络用于检测汽车保险行业中的欺诈
本研究提出了一种多模态推理框架 AutoFraudNet 用于检测保险欺诈,在现实数据集上进行广泛的实验,证明了 AutoFraudNet 在整合各种数据形式以提高性能方面的有效性。
- 多模态机器学习的基础和趋势:原理、挑战和开放性问题
本文旨在探讨多模态机器学习的计算与理论基础,定义了三个关键原则和六个核心技术挑战,并提出多个未来研究的开放性问题。