- 一个多阶段自适应特征融合神经网络用于多模态步态识别
通过多阶段特征融合策略(MSFFS),自适应特征融合模块(AFFM)和多尺度时空特征提取器(MSSTFE)提出了一种多阶段自适应特征融合(MSAFF)神经网络,结合了多种模态的优势,在多个数据集上展现出最先进的性能。
- 通过双提示学习实现高效多模态语义分割
通过采用冻结预训练的 RGB 模型,并结合双提示学习模块(多模态提示生成器和多模态特征适配器),DPLNet 在多模态语义分割任务中达到了新的最佳性能,同时保持了参数的高效利用。
- 多模态融合的条件提示调节
利用一种多模态融合方法,通过一个模态的表示来引导另一个模态的参数高效提示,从而将预训练知识有效转移至多模态任务中。
- ACL自我互信息:通过自监督多任务学习和辅助互信息最大化实现高效多模式融合
通过自监督学习的方式,利用对比预测编码作为辅助技术最大化单模输入对和多模态融合结果之间的互信息,通过最大化互信息,促进多模态融合与单模态之间更好的对齐,从而提高多模态融合的性能。
- ViCLEVR:一种用于越南视觉问答的视觉推理数据集和混合多模态融合模型
通过引入具有开拓性质的 ViCLEVR 数据集,该研究对当代视觉推理系统进行了全面分析,提出了一种综合的多模态融合模型 PhoVIT,并在四个评估指标上取得了最先进的性能,进一步促进了针对低资源语言的多模态融合算法的发展。
- 视频情绪识别综述
本文选择 2015 年至 2023 年间发表的论文,系统总结了关于视频情感识别的现有研究趋势,讨论了典型情感模型、常用数据库以及现代单模态和多模态视频情感识别方法的结构和性能,并比较了它们的优缺点。此外,总结了目前视频情感识别项目所面临的主 - FedMFS:选择性模态通信的联邦多模融合学习
本文提出了一种新的多模态融合联邦学习方法 (FedMFS),通过利用 Shapley 值来量化每个模态的贡献和模态模型的大小来衡量通信开销,从而实现在性能与通信成本之间的灵活平衡,该方法在现实多模态数据集上的实验证明了其有效性,相比基线方法 - 基于交换的多模态融合和转换器
本研究探讨多模态融合的问题,提出一种基于 Transformer 的新型文本 - 图像融合模型 MuSE,并通过 CrossTransformer 在多模态之间交换知识。在 Multimodal Named Entity Recogniti - 利用 ATSFace 数据进行多模态欺骗检测的 LoRA 样式校准
通过注意力感知神经网络和多模态融合策略,我们提出的方法在视频数据中准确地检测和阐明欺骗行为, 进一步使用低秩适应方法进行个体欺骗检测准确率的提高。
- 多模态舞蹈即兴认知的组件注意力网络
该研究探讨了多模式融合方法在舞蹈即兴创作中的动作识别应用和性能,并证明了该模型的潜力优于其他基准方法。
- 人机协作中的安全多模态通信
本文提出了一个多通道通信框架,通过结合音频和手势命令的多模态融合,实现了人与机器人之间的自然高效沟通,并且始终遵守安全规定。通过比较实验验证了该框架的有效性,证明了多模态沟通使得机器人能够提取有价值的信息并且通过安全层适应速度以确保操作人员 - 全向音视频信号的感知质量评估
本研究首次建立了一个大规模的音视频品质评估数据集,用于评估全向视频的音视频质量。通过多模态融合策略,设计了三种基准方法来评估全向音视频的品质,并验证了融合方法在全向体验评估中的有效性。
- 一种新颖的跨站点多模态深度学习模型,用于识别社交媒体上的促进进食障碍内容
本文旨在创建一个多模式深度学习模型,通过视觉和文本数据的结合来决定给定社交媒体帖子是否推广进食障碍,并进行时间序列分析以探讨进食障碍的社交媒体存在。多模式 RoBERTa 和 MaxViT 融合模型的准确度和 F1 分数分别达到 95.9% - 跨模态注意力适配器:一种对使用多模态脑 MR 图像的 SAM 进行胶质瘤分割微调的方法
本文提出了一种基于跨模态融合的注意力适配器细调基础模型来完成多模态 MRI 脑图像下胶质瘤分割任务的方法,该方法优于现有技术方法,具有 88.38%的 Dice 系数和 10.64 的 Hausdorff 距离,从而在分割胶质瘤区域方面呈现 - 深度均衡多模态融合
本文提出了一种通过寻求动态多模式融合过程的固定点并以适应性和递归的方式建模特征相关性的新型深度平衡(DEQ)方法,从低级到高级彻底编码了跨模态信息,取得了多个多模态基准的最先进性能。
- IJCAITACOformer: 多模态情感识别的标记通道复合交叉注意力
本研究提出一种综合的多模态融合方法,结合了基于渠道和记号的跨模态相互作用,同时使用两个变压器编码器来捕捉融合的长期时序依赖,从而在情感数据集 DEAP 和 Dreamer 上取得了最先进的性能。
- 多模态机器学习在压力检测中的应用
该研究提出了一种基于多模态人工智能的框架,以监测一个人的工作行为和压力水平,并发现导致精神紧张和疲劳的个性化独特行为模式,从而检测和分类压力,准确率为 96.09%,可以帮助社区大众,特别是在 COVID-19 当前时间工作久坐人群监测和识 - 探索应用于紧急呼叫中心语料库的多模态情感识别的注意力机制
本文探讨了基于 CEMO 数据集的语音和文本预训练模型在情感识别上的融合策略,研究表明基于多模态融合的交叉关注机制实现了更好的表现。同时,实验也表明在 CEMO 上,音频编码包含的情感信息比文本更为丰富。
- 多模态融合交互:人工智能量化的研究
研究了如何通过人工注释对多模态交互进行分类,提出了信息分解方法,比较了部分标签和反事实标签的机会和限制,并提出了一种自动转换方法以量化多模态数据集中的交互
- ICML可证明的低质量多模态数据动态融合
本研究提供了一种新的质量感知多模态融合方法,旨在从概率推理的角度解决跨模态相关性和交互性的挑战,并在多个基准测试中验证了其分类准确性和模型鲁棒性的提升。