多模态图像的动态任务和权重优先课程学习

Oct, 2023

多模态图像的动态任务和权重优先课程学习

Dynamic Task and Weight Prioritization Curriculum Learning for Multimodal Imagery

Huseyin Fuat Alsan, Taner Arsan

TL;DR探索使用多模式深度学习模型与课程学习方法进行灾后分析，提出一种新颖的课程学习方法（DATWEP）自动决定任务难度，通过 DATWEP 的整合，加强了视觉问答（VQA）性能。

Abstract

This paper explores post-disaster analytics using multimodal deep learning models trained with curriculum learning method. Studying post-d

post-disaster analytics multimodal deep learning curriculum learning visual question answering (vqa)semantic segmentation

发现论文，激发创造

利用多模态深度学习分析社交媒体数据，以用于灾害响应

本论文使用多模态深度学习技术，提出了一种分析社交媒体数据中文字和图像模态的联合表征，并在真实的灾难数据集上进行了广泛的实验，证明了该多模式架构比单模型（例如，仅使用文本或图像）的模型表现更好。

Apr, 2020

多模态不确定性感知视觉 - 语言预训练模型

本文通过概率分布编码器（PDE）将所有模态的表示作为概率分布映射，对不确定性建模，提出了基于概率分布的预训练任务并在视觉和语言联合任务上实现了最先进的结果。

Oct, 2022

GaLeNet: 灾害预测、管理和救援的多模态学习

提出多模态机器学习框架，并将预灾图像、气象数据和飓风轨迹相结合，以有效评估灾害的严重程度，从而避免决策延迟。

Jun, 2022

不平衡数据分类的动态课程学习

该研究提出了一种名为动态课程学习（DCL）的统一框架，可在线自适应地调整采样策略和损失学习，从而提高计算机视觉中人类属性分析任务的表现，实验结果显示 DCL 在面部属性数据集 CelebA 和行人属性数据集 RAP 上得到了新的最优性能。

Jan, 2019

多模态表示学习：演进、预训练及其应用的综述

本综述论文全面介绍了深度学习多模态体系结构的演变和增强，以应对文本、视觉和音频特征的多样化跨模态和现代多模态任务：包括最新的任务特定的深度学习方法，多模态预训练目标，以及从最先进的预训练多模态方法到统一体系结构。本文结合具体数据集和案例分析展示多模态学习的挑战、间隔和潜在研究主题。

Feb, 2023

根据要求进行设计：利用视觉问答进行多模态预训练

我们利用多模态预训练中的视觉问题回答（VQA）指导框架，聚焦目标病理特征，通过医学报告中的描述设计了关联不同疾病的多粒度问题 - 答案对，并提出了一种基于准文本特征变换的新型预训练框架，将视觉特征转化为接近文本领域的准文本空间，缩小了视觉 - 语言差距，实现了模态对齐。在四个下游任务（报告生成、分类、分割和检测）的五个数据集上，广泛的实验证明了我们的框架相比其他最先进的方法的优越性。我们的代码将在接受后发布。

Mar, 2024

利用课程学习增强时空分位数预测：经验教训

使用创新的课程学习范式，从空间、时间和分位数角度分别针对性地处理三种形式的课程学习，并结合堆叠融合模块，提高了复杂时空问题的性能和学习效率。通过广泛的实证评估，展示了该框架的有效性，并通过详尽的剖析研究探讨了课程学习对提高时空数据学习效率的贡献。

Jun, 2024

视觉属性多任务分类的课程学习

介绍了一种新颖的方法，在视觉属性分类框架中结合多任务和课程学习的优点，在各个任务之间迁移知识来提高学习速度，该方法在公开数据集上取得了最新的表现。

Aug, 2017

低资源神经机器翻译的动态课程学习

本研究提出一种动态课程学习方法，通过衡量模型的收益和能力来调整训练样本的顺序，从而使训练低资源神经机器翻译模型更加高效。在 Transformer-based 系统上的实验结果表明，该方法优于几个强基线，并适用于不同大小的 low-resource 机器翻译基准。

Nov, 2020

CurriculumNet: 大规模网络图像弱监督学习

该论文提出了一种基于课程学习的弱监督学习方法，通过对大规模网络图像数据进行无人工标注的深度神经网络训练，实现对大量噪声数据和数据分布不均等问题的有效处理和噪声标签的负面影响的显著降低，构建一种新的课程学习架构，使得使用高噪声标签的图像作为一种正则化策略可以惊人地提高模型的泛化能力，在 WebVision、ImageNet、Clothing-1M 和 Food-101 等四个基准测试中取得了最先进的性能，多模型集成的结果在 1000 种类别分类中取得了 5.2% 的 top-5 错误率，相对误差率超过 50%。

Aug, 2018