文化遗产艺术品的多模式元数据分配
本研究基于文本和图像模态探讨了一种基于多模态晚期融合的方法,以对 Rakuten 上的电子商务产品进行分类,并证明了该方法相比于单模态和其他多模态方法的有效性和优越性。该研究团队在 SIGIR 2020 电子商务研讨会数据挑战赛的多模态产品分类任务中以 0.9144 的 macro-F1 得分荣获第一名。
Aug, 2020
本研究提出了一种多模态模型,通过使用多个神经网络模型从文本(CamemBERT 和 FlauBERT)和视觉数据(SE-ResNeXt-50)提取的特征,并采用简单的融合技术,显著提高了单一模态模型的性能和类似模型性能,我们实验了多种融合技术,并发现将单一模态网络的个体嵌入组合为特征向量的拼接和平均值结合的性能最好,每种模态互补了其他模态的缺点,证明增加模态数量可以是改善多标签和多模态分类问题性能的有效方法。
Jul, 2022
该论文采用决策级融合方法将文本和图像输入用于产品分类预测,通过训练深度神经网络和学习网络来选择输入类型,并成功地提高了大规模产品分类数据集上的准确性。
Nov, 2016
本文提出了一个通用的多模态模型融合框架,以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合,以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。
Oct, 2020
本文介绍了一种多模态神经网络,结合了 OCR 提取的文本和图像信息,来对文献图像进行分类。该方法在 Tobacco3482 和 RVL-CDIP 数据集上的准确率提高了 3%。
Jul, 2019
多模医学成像在临床诊断和研究中起着关键作用,深度学习多模态融合技术在提高医学图像分类方面显示出强大的工具。本综述对基于深度学习的医学分类任务中的多模态融合的发展进行了彻底分析,包括不同融合方案和网络架构的性能评估,讨论了相关挑战和未来研究方向。
Apr, 2024
本文介绍了以文本和图像为输入的多模态意识形态预测任务,提出了使用针对模型组成部分的预训练目标的效果,建立五个包含政治内容的大型数据集,并通过实验和分析实现了在文本分析中更好的性能。
Nov, 2022