密集多任务学习以重新配置连环漫画
本文综述了当前深度学习在计算机视觉中的多任务学习领域的最新研究进展,主要关注密集预测任务,从网络架构和优化方法两个角度进行了阐述和总结,旨在探讨多任务共享表示学习的优势和局限性。
Apr, 2020
这项研究通过引入一种新颖的多模态大型语言模型(Multimodal-LLM)架构,特别设计用于文字片断选择的闭合任务(Text-cloze),并通过使用 SimCLR 以自监督的方式将 comics 领域进行了特定调整,以达到比现有最先进模型在易和难两种变种中提高了 10% 的效果。
Mar, 2024
本文提出了一种基于特征对比一致性的多任务对比正则化方法,以解决多任务密集预测的跨任务交互建模问题,并在两个数据集上进行了大量实验,展示了该方法在密集预测方面的优越表现,创立了新的最先进性能。
Jul, 2023
挑战现有多任务学习 (MTL) 框架,提出新方法通过分布匹配实现任务间的知识交流,证明少量注释或非重叠注释情况下的 MTL 仍能成功,且在各个领域的案例研究中均带来了较大的性能提升。
Jan, 2024
漫画处理中的角色识别和对话者预测是至关重要的,本研究提出了一种零样本方法,利用未注释的漫画图像单独识别角色和预测说话者名称,并通过一个迭代的多模态框架进行实验验证。
Apr, 2024
本文提出了一种新的多尺度深层模型来提取富有判别性的特征,能够表示从物体、场景到抽象概念的各种视觉概念,并引入标签数量预测辅助任务来明确估计给定图像的最优标签数量。在两个大规模图像注释基准数据集上进行了广泛的实验,结果表明我们的方法明显优于现有技术水平。
Sep, 2017
本文探讨了序列到序列模型下的多任务学习问题,主要包括共享编码器和解码器的三种设置,结果表明使用少量的解析和图像标题数据训练模型可以有效地提高翻译质量并在一些测试中实现新的最优结果,并揭示了自编码器和跳越思考等两种无监督学习目标在多任务学习上的有趣属性。
Nov, 2015
通过引入视觉和文本特征,多模态漫画分析提高了人们对漫画的理解度。然而,手绘漫画的问题导致了缺失的文本内容,严重影响了人类的理解。为了解决这个问题,本研究提出了多模态漫画补充任务,并设计了一种基于大规模语言模型的方法 MCoT 来挖掘漫画中的事件知识,进一步建立了一个包含两种语言的 M2C 基准数据集。同时,我们还提出了一种有效的基线方法 FVP-M^2,通过细粒度的视觉提示来支持漫画补充任务。大量实验结果表明了 FVP-M^2 方法在多模态漫画补充任务中的有效性。
Oct, 2023
通过利用多任务学习来改进 LinkedIn 核心内容推荐模型的语义理解能力,本研究提出了一种方法。我们使用来自不同语义标注任务的数据,通过多任务对比学习,对预训练的基于 Transformer 的 LLM 进行微调。我们观察到正向转移,相比于独立训练每个任务,在所有任务上都表现出更好的性能。我们的模型在零 - shot 学习上优于基准并提供了改进的多语言支持,突显了其广泛应用的潜力。我们模型产生的专门内容嵌入优于 OpenAI 在 Linkedin 数据集和任务上提供的通用嵌入。该工作为 LinkedIn 的垂直团队提供了一个健壮的基础,可以根据他们的特定应用定制和微调 LLM。我们的工作为该领域提供了见解和最佳实践。
May, 2024