通过迭代多模态融合实现漫画中的零样本角色识别和说话人预测

Apr, 2024

通过迭代多模态融合实现漫画中的零样本角色识别和说话人预测

Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion

Yingxuan Li, Ryota Hinami, Kiyoharu Aizawa, Yusuke Matsui

TL;DR漫画处理中的角色识别和对话者预测是至关重要的，本研究提出了一种零样本方法，利用未注释的漫画图像单独识别角色和预测说话者名称，并通过一个迭代的多模态框架进行实验验证。

Abstract

Recognizing characters and predicting speakers of dialogue are critical for comic processing tasks, such as voice generation or translation. However, because characters vary by comic title, supervised learning approaches like training character classifiers which require specific annota

comic processing zero-shot approach multimodal integration large language models iterative multimodal framework

发现论文，激发创造

视觉增强零样本图像分类的多模态大语言模型

使用多模态大语言模型 (Multimodal LLMs) 的简单且有效方法实现了零样本图像分类，通过生成全面的文本表示从而在交叉模态嵌入空间中生成固定维度特征，在线性分类器上融合这些特征以进行分类，取得了令人瞩目的效果。

May, 2024

深度多模态说话人命名

本文提出了一种基于卷积神经网络的学习框架，通过融合面部和音频线索，实现了自动说话人命名，并证明了该系统在不需要面部跟踪、面部标记定位或字幕 / 转录的情况下，可以在两个不同的电视剧中实现最先进的说话人命名性能。

Jul, 2015

Manga109Dialog：一个用于漫画角色语音检测的大规模对话数据集

该论文介绍了一种基于深度学习的模型，用于漫画中的人物对话者检测，其中使用 Mange109Dialog 数据集来提高检测准确率。

Jun, 2023

面向漫画角色再识别的身份感知半监督学习

通过将度量学习与对比学习相结合的方法，我们引入了一个强大的半监督框架，用于识别漫画中的角色并保持其一致性，该框架通过对角色的面部和身体特征进行对比学习，提取了刻画个体身份的角色嵌入，从而改善了角色重新识别的效果，并为其他相关任务提供了基础，丰富了对漫画的理解。

Aug, 2023

跨模态传递的零样本学习

该研究提出了一种模型，即使没有针对该对象的训练数据，也能在图像中识别对象，并从无监督的大型文本语料库中获取对未知类别的必要知识，在语言中的分布式信息可以被视为理解物体外观的语义基础。

Jan, 2013

基于预训练大型语言模型的多模态推荐零样本

利用生成型 AI 领域的最新进展，我们提出了一种用于零样本推荐多模态非稳态内容的方法。我们将不同类型的输入呈现为文本描述，并利用预训练的 LLMs 通过计算语义嵌入来获取它们的数值表示。一旦获得了所有内容项的统一表示，可以通过计算它们之间的适当相似性度量进行推荐而无需额外的学习。我们在合成的多模态推动环境中展示了我们的方法，其中输入包括表格、文本和视觉数据。

Sep, 2023

密集多任务学习以重新配置连环漫画

本文提出了一种 MTL 模型，以实现对漫画画板的密集预测，从而帮助作者重新组织他们的叙述，并探讨了与现有方法整合的可行性。

Jul, 2023

Apollo：多模式无需标注的零 - shot 推理与多专家

我们提出了一个模块化框架，利用不同模态和领域中不同基础模型的专业知识，以执行一个单一、复杂的多模态任务，无需依赖提示工程或量身定制的多模态训练。我们的方法实现了分散的命令执行，使每个模型能够同时贡献和受益于其他模型的专业知识。我们的方法可以扩展到各种基础模型（包括音频和视觉），不仅限于语言模型，因为它不依赖于提示。我们在两个任务上演示了我们的方法。在众所周知的样式化图像字幕任务中，我们的实验表明我们的方法优于半监督最先进模型，同时具备零 - shot 能力，避免了昂贵的训练、数据收集和提示工程。我们进一步在一个新颖的任务上演示了这个方法，即音频感知图像字幕，在这个任务中，给定图像和音频，任务是在提供的音频语境中生成描述图像的文本。我们的代码可在 GitHub 上找到。

Oct, 2023

低资源多语言和零样本多说者 TTS

在这项工作中，我们将零样本语音克隆和多语言低资源语音合成的任务结合在一起。通过使用语言不可知的元学习（LAML）程序和对 TTS 编码器的修改，我们证明了一个系统可以学习在只有 5 分钟的训练数据下说一个新语言，同时保留了推断新学习语言中甚至看不到的说话者声音的能力，并提供了开源的代码和训练模型。

Oct, 2022

零样本跨语言图像检索与标记

本论文探讨采用跨语言预训练的零样本方法来学习多模态表示，提出建立跨语言图像检索模型的简单实用方法，并引入了一种新的目标函数来测试多语言 MSCOCO2014 字幕测试数据集（XTD10）的零样本模型性能，证明跨语言模型可用于零样本的下游任务，如多语言图像标记。

Sep, 2021