本论文使用多模态深度学习技术,提出了一种分析社交媒体数据中文字和图像模态的联合表征,并在真实的灾难数据集上进行了广泛的实验,证明了该多模式架构比单模型(例如,仅使用文本或图像)的模型表现更好。
Apr, 2020
本文通过概率分布编码器(PDE)将所有模态的表示作为概率分布映射,对不确定性建模,提出了基于概率分布的预训练任务并在视觉和语言联合任务上实现了最先进的结果。
Oct, 2022
提出多模态机器学习框架,并将预灾图像、气象数据和飓风轨迹相结合,以有效评估灾害的严重程度,从而避免决策延迟。
Jun, 2022
该研究提出了一种名为动态课程学习(DCL)的统一框架,可在线自适应地调整采样策略和损失学习,从而提高计算机视觉中人类属性分析任务的表现,实验结果显示 DCL 在面部属性数据集 CelebA 和行人属性数据集 RAP 上得到了新的最优性能。
Jan, 2019
本综述论文全面介绍了深度学习多模态体系结构的演变和增强,以应对文本、视觉和音频特征的多样化跨模态和现代多模态任务:包括最新的任务特定的深度学习方法,多模态预训练目标,以及从最先进的预训练多模态方法到统一体系结构。本文结合具体数据集和案例分析展示多模态学习的挑战、间隔和潜在研究主题。
Feb, 2023
我们利用多模态预训练中的视觉问题回答(VQA)指导框架,聚焦目标病理特征,通过医学报告中的描述设计了关联不同疾病的多粒度问题 - 答案对,并提出了一种基于准文本特征变换的新型预训练框架,将视觉特征转化为接近文本领域的准文本空间,缩小了视觉 - 语言差距,实现了模态对齐。在四个下游任务(报告生成、分类、分割和检测)的五个数据集上,广泛的实验证明了我们的框架相比其他最先进的方法的优越性。我们的代码将在接受后发布。
Mar, 2024
使用创新的课程学习范式,从空间、时间和分位数角度分别针对性地处理三种形式的课程学习,并结合堆叠融合模块,提高了复杂时空问题的性能和学习效率。通过广泛的实证评估,展示了该框架的有效性,并通过详尽的剖析研究探讨了课程学习对提高时空数据学习效率的贡献。
Jun, 2024
介绍了一种新颖的方法,在视觉属性分类框架中结合多任务和课程学习的优点,在各个任务之间迁移知识来提高学习速度,该方法在公开数据集上取得了最新的表现。
Aug, 2017
本研究提出一种动态课程学习方法,通过衡量模型的收益和能力来调整训练样本的顺序,从而使训练低资源神经机器翻译模型更加高效。在 Transformer-based 系统上的实验结果表明,该方法优于几个强基线,并适用于不同大小的 low-resource 机器翻译基准。
Nov, 2020
该论文提出了一种基于课程学习的弱监督学习方法,通过对大规模网络图像数据进行无人工标注的深度神经网络训练,实现对大量噪声数据和数据分布不均等问题的有效处理和噪声标签的负面影响的显著降低,构建一种新的课程学习架构,使得使用高噪声标签的图像作为一种正则化策略可以惊人地提高模型的泛化能力,在 WebVision、ImageNet、Clothing-1M 和 Food-101 等四个基准测试中取得了最先进的性能,多模型集成的结果在 1000 种类别分类中取得了 5.2% 的 top-5 错误率,相对误差率超过 50%。
Aug, 2018