- FuseMoE: 灵活模态融合的专家混合变压器
通过混合专家框架和创新的门控函数,本研究介绍了 FuseMoE 模型,该模型可以有效地处理多模态数据、缺失模态以及时间上的不规则和稀疏采样数据,从而改善模型预测性能。通过临床风险预测任务的验证,证实了 FuseMoE 在实际应用中的实用性。
- 医疗保健中多模态机器学习方法综述
综述了在医疗保健领域中的多模态机器学习方法,包括使用各种数据模态进行临床诊断、融合技术、多模态数据集和训练策略的评估。
- DoubleMLDeep: 多模态数据的因果效应估计
本文探讨了在因果推断和治疗效果估计中使用非结构化多模态数据(即文本和图像)的方法。我们提出了一种适应双机器学习(DML)框架,特别是部分线性模型的神经网络架构。我们还提出了一种新方法来生成半合成数据集,以评估在存在文本和图像混淆因素的情况下 - 大规模生成式人工智能文本在体育和音乐领域的应用
利用生成式 AI 模型,我们解决了大规模体育和音乐活动媒体内容(如评论和个性化新闻报道)的生产问题,并成功应用于 2023 年美网、温网和大师赛的自动化解说系统以及 ESPN Fantasy Football 和格莱美奖音乐艺术家故事的个性 - 神经网络各层输入图像特征的模仿学习
通过在每个神经网络层中输入具有相对较低相关性的数据来增强其对输出的影响,本文提出了一种应对多模态数据挑战的有效方法,成功地将多样的数据源融入到学习过程中,通过使用原始图像和关节信息作为输入的简单拾放操作实验,即使处理来自短采样时期的数据也展 - MMToM-QA: 多模态心智理论问答
为了发展具有人类级社交智能的机器,我们引入了一种多模式心智问答(MMToM-QA)基准,它综合评估机器的心智理解能力,并基于多模式数据和关于家庭环境中人物活动的不同类别的单模式数据。为了实现多模式心智能力,提出了一种新方法 BIP-ALM( - 基于 Pix2Pix GAN 的多模态人群计数
本文提出使用生成对抗网络(GANs)从彩色(RGB)图像自动生成热红外(TIR)图像,并同时使用两者训练人群计数模型以提高精确度。在多个人群计数模型和基准人群数据集上进行的实验证明了显著的精确度提升。
- CANAMRF: 一种基于注意力机制的多模态抑郁检测模型
我们提出了一种适应性多模态循环融合的跨模态注意力网络(CANAMRF),通过实验验证了其在多模态抑郁检测领域的卓越性能。
- 多模态数据和资源高效的设备导向语音检测与大型基础模型
通过消除触发短语的需要,本研究探索了使用流式音频录制的设备麦克风记录的信号来确定用户是否在与虚拟助手进行交流,通过将语音识别系统的最佳假设和解码器信号与音频编码器的声学表示结合为大型语言模型的输入特征来实现这一目标。使用低秩适应和前缀调整的 - TTMFN: 基于双流变压器的多模态融合网络用于生存预测
我们提出了一种名为 Two-stream Transformer-based Multimodal Fusion Network for survival prediction (TTMFN) 的新型框架,综合了病理图像和基因表达数据,通过 - 如何弥合模态之间的差距:对多模态大语言模型的全面调查
本综述论文探讨了多模态大型语言模型(MLLMs),该模型整合了类似于 GPT-4 的大型语言模型(LLMs),用于处理文本和视觉等多模态数据。MLLMs 展示了生成图像叙述和回答基于图像的问题等能力,缩小了人与计算机之间的差距,并暗示了通向 - EMNLP基于关系时间图神经网络和辅助跨模态交互的对话理解
通过模态特异性的方式,CORECT 有效地捕捉了会话级的跨模态交互和话语级的时间依赖性,以提高情感识别的效果。
- 动态多模态信息瓶颈的多模态分类
利用多模态数据,在医学诊断和预测任务中有效利用各种图像、实验室测试和临床信息的人工智能技术正在发展。本研究通过研究现有方法对数据冗余和噪声的鲁棒性,提出了一种广义的动态多模态信息瓶颈框架,用于获得稳健的融合特征表示。通过大量实验证明,我们的 - CROMA:基于对比雷达光学遮蔽自编码器的遥感表征
CROMA 是一个结合对比学习和重构自监督目标的框架,用于学习丰富的单模态和多模态表示;该方法通过分别编码遮蔽的多光谱光学和合成孔径雷达样本,并进行跨模态对比学习,然后将这些传感器融合到一起,生成用于预测遮蔽补丁的联合多模态编码,从而提高了 - 神经形态学:用于脑数据的多模态和多任务生成预训练
神经形态学数据的生成预训练变换器模型 Neuroformer 能分析神经数据集及其出现的属性,并推动与大脑相关的模型和假设的发展。
- 基于血液检测、半结构化和非结构化患者记录的多模式机器学习提高炎症性关节炎的早期检测和转诊
通过融合和集成学习的方法,利用多模态数据来支持从普通科转诊中早期检测关节炎,是我们所知的第一次尝试。
- 多模态数据的因果分解
利用多模态数据和物理约束来发现具有因果关系的重要特征的因果表示学习算法(causalPIMA)。通过可微分参数化和单个可追踪证据下限损失函数,在完全无监督的设置中学习变分自动编码器的有向无环图(DAG)的潜在空间,同时学习一种高斯混合先验和 - 基于 Transformer 的多模态变化检测与多任务一致性约束
基于跨维度输入的一种有效的基于 Transformer 的网络用于改变检测,通过交叉关注学习了跨维度输入之间的共享表示,采用一致性约束建立了多模态关系,并通过高度改变阈值和最小化语义与伪改变之间的不同来解决语义和高度改变检测任务之间的多任务 - 对话式健康代理:一种个性化的 LLM 驱动代理框架
我们正在开发一个框架,通过赋予对话健康代理(CHAs)关键思维、知识获取和问题解决能力,以增强个人医疗保健服务,并展示其在处理复杂医疗任务中的熟练性和操作能力。
- RegBN: 对多模态数据进行批量归一化的正则化方法
该论文介绍了一种名为 RegBN 的新型多模态数据归一化方法,使用 Frobenius 正则化参数来解决异质多模态数据的一些副作用和依赖关系问题。RegBN 在多个研究领域的八个数据库中得到验证,支持各种模态的多模态神经网络的有效归一化。