密集多任务学习以重新配置连环漫画

CVPRJul, 2023

密集多任务学习以重新配置连环漫画

Dense Multitask Learning to Reconfigure Comics

Deblina Bhattacharjee, Sabine Süsstrunk, Mathieu Salzmann

TL;DR本文提出了一种 MTL 模型，以实现对漫画画板的密集预测，从而帮助作者重新组织他们的叙述，并探讨了与现有方法整合的可行性。

Abstract

In this paper, we develop a multitask learning (MTL) model to achieve dense predictions for comics panels to, in turn, facilitate the transfer of comics from one publication channel to another by assisting author

multitask learning dense predictions comics panels semantic units 3d notion

发现论文，激发创造

密集预测任务的多任务学习：综述

本文综述了当前深度学习在计算机视觉中的多任务学习领域的最新研究进展，主要关注密集预测任务，从网络架构和优化方法两个角度进行了阐述和总结，旨在探讨多任务共享表示学习的优势和局限性。

Apr, 2020

漫画文本补全的多模态 Transformer

这项研究通过引入一种新颖的多模态大型语言模型（Multimodal-LLM）架构，特别设计用于文字片断选择的闭合任务（Text-cloze），并通过使用 SimCLR 以自监督的方式将 comics 领域进行了特定调整，以达到比现有最先进模型在易和难两种变种中提高了 10% 的效果。

Mar, 2024

视觉场景理解的多任务学习

研究多任务学习在计算机视觉中的应用，通过综述现有方法，提出几种方法处理多任务学习中的重要问题，并在各种基准测试中进行评估，进一步提升了多任务学习的状态。

Mar, 2022

对比多任务密集预测

本文提出了一种基于特征对比一致性的多任务对比正则化方法，以解决多任务密集预测的跨任务交互建模问题，并在两个数据集上进行了大量实验，展示了该方法在密集预测方面的优越表现，创立了新的最先进性能。

Jul, 2023

多任务学习中的分布匹配：在人脸及其他任务上的大规模研究

挑战现有多任务学习 (MTL) 框架，提出新方法通过分布匹配实现任务间的知识交流，证明少量注释或非重叠注释情况下的 MTL 仍能成功，且在各个领域的案例研究中均带来了较大的性能提升。

Jan, 2024

通过迭代多模态融合实现漫画中的零样本角色识别和说话人预测

漫画处理中的角色识别和对话者预测是至关重要的，本研究提出了一种零样本方法，利用未注释的漫画图像单独识别角色和预测说话者名称，并通过一个迭代的多模态框架进行实验验证。

Apr, 2024

大规模图像标注的多模态多尺度深度学习

本文提出了一种新的多尺度深层模型来提取富有判别性的特征，能够表示从物体、场景到抽象概念的各种视觉概念，并引入标签数量预测辅助任务来明确估计给定图像的最优标签数量。在两个大规模图像注释基准数据集上进行了广泛的实验，结果表明我们的方法明显优于现有技术水平。

Sep, 2017

多任务序列到序列学习

本文探讨了序列到序列模型下的多任务学习问题，主要包括共享编码器和解码器的三种设置，结果表明使用少量的解析和图像标题数据训练模型可以有效地提高翻译质量并在一些测试中实现新的最优结果，并揭示了自编码器和跳越思考等两种无监督学习目标在多任务学习上的有趣属性。

Nov, 2015

M2C：自动多模态漫画补全

通过引入视觉和文本特征，多模态漫画分析提高了人们对漫画的理解度。然而，手绘漫画的问题导致了缺失的文本内容，严重影响了人类的理解。为了解决这个问题，本研究提出了多模态漫画补充任务，并设计了一种基于大规模语言模型的方法 MCoT 来挖掘漫画中的事件知识，进一步建立了一个包含两种语言的 M2C 基准数据集。同时，我们还提出了一种有效的基线方法 FVP-M^2，通过细粒度的视觉提示来支持漫画补充任务。大量实验结果表明了 FVP-M^2 方法在多模态漫画补充任务中的有效性。

Oct, 2023

通过多任务对比学习的有效应用提高内容理解能力

通过利用多任务学习来改进 LinkedIn 核心内容推荐模型的语义理解能力，本研究提出了一种方法。我们使用来自不同语义标注任务的数据，通过多任务对比学习，对预训练的基于 Transformer 的 LLM 进行微调。我们观察到正向转移，相比于独立训练每个任务，在所有任务上都表现出更好的性能。我们的模型在零 - shot 学习上优于基准并提供了改进的多语言支持，突显了其广泛应用的潜力。我们模型产生的专门内容嵌入优于 OpenAI 在 Linkedin 数据集和任务上提供的通用嵌入。该工作为 LinkedIn 的垂直团队提供了一个健壮的基础，可以根据他们的特定应用定制和微调 LLM。我们的工作为该领域提供了见解和最佳实践。

May, 2024