使用预训练单模型进行 SIMMC 2.0 的多模态交互

AAAIDec, 2021

使用预训练单模型进行 SIMMC 2.0 的多模态交互

Multimodal Interactions Using Pretrained Unimodal Models for SIMMC 2.0

Joosung Lee, Kijong Han

TL;DR本文介绍了我们在 Dialog State Tracking Challenge 10 上进行的 Situated Interactive MultiModal Conversations 2.0 挑战中的工作和方法，提出了一种结合图像和文本的多模态模型，并对 SIMMC 2.0 数据集进行了挑战。通过预先训练模型，我们在 subtask＃1，＃2 中取得了第三佳表现，并在生成 subtask＃4 中获得亚军。

Abstract

This paper presents our work on the Situated Interactive MultiModal Conversations 2.0 challenge held at dialog state tracking Challenge 10. SIMMC 2.0 includes 4 subtasks, and we introduce our multimodal approaches for the subtask \#1, \#2 and the generation of subtask \#4.

situated interactive multimodal conversations dialog state tracking multimodal model image and text simmc 2.0 dataset

发现论文，激发创造

SIMMC 2.0：面向任务的沉浸式多模态对话数据集

本研究提出了一个基于真实情境的多模交互对话数据集 SIMMC 2.0，收集了 11,000 个在购物领域的用户 <-> 助手任务对话。数据集通过模拟器和手工语句改写收集，可用于对话系统的基准测试和自然语言处理研究。

Apr, 2021

多模态交互对话

本研究介绍了一种新的指向培训具有多模态输入上下文的代理，以及执行与其相关的多模态操作的模型 SIMMC，提供了两个 SIMMC 数据集，以及多个评估协议。

Jun, 2020

坐标对话中的多模态物体识别

通过探索三种方法并在 SIMMC 2.1 数据集上进行评估，我们提出了一种最有效的方法 —— 场景对话对齐，相较于 SIMMC 2.1 基准提升了约 20% 的 F1 分数。我们还分析和讨论了该方法的局限性以及未来研究的潜在方向。

Feb, 2023

IMAD: 图像增强的多模态对话

该研究提出了一种基于多模态视角的对话系统，并通过构建 IMAD 数据集和进行基线模型训练，证明了其在图像解释、数据集建设和模型表现方面具有潜在优势。

May, 2023

文本和图像预训练在多模态算法推理中的整合

我们提出了一个基于多模态算法推理的神经网络解决方案，用于解决专为 6-8 岁儿童设计的视觉语言难题，我们的模型基于两个预训练模型，分别从文本和图像中提取特征，并通过融合层和注意机制进行特征整合。实验结果表明，在智能挑战数据集的拼图分割样式下，我们提出的综合分类器具有卓越的性能，验证了多模态预训练表示的有效性。

Jun, 2024

DialogCC：大规模多模态对话数据集

本文介绍了一种基于 CLIP 相似度的多模态对话数据集创建管道，使用这个管道，我们提出了一个大规模的多模态对话数据集 DialogCC，并且通过广泛的实验结果表明，使用我们的数据集训练多模态对话模型可以改善泛化性能，与此同时，使用我们的数据集训练的现有模型在图像和文本检索任务上取得了最先进的表现。

Dec, 2022

多模态生成预训练

本文介绍了 Emu—— 一种基于 Transformer 的多模态基础模型，它可以在多模态语境中无缝生成图像和文本。该模型可通过单一模型进行全自回归训练，将任何单模态或多模态数据输入混合 (例如，交错的图像、文本和视频)，并表现得十分出色。

Jul, 2023

多模态半监督学习文本识别

该文章提出了一种半监督的多模态文本识别方法（SemiMTR），通过使用自监督学习和监督学习相结合的单一阶段，将现有的多模态场景文本识别方法拓展到了未标注数据的应用。该算法利用对视觉模型的预训练和语言模型的微调，同时在每个模态单独地应用连续性正则化方法进行训练，取得了在多个场景文本识别基准测试上的最新成果。

May, 2022

为预训练语言模型整合非语言线索而文本化多模态信息

本文研究了如何将非语言性特征（例如视觉和听觉）转化为对应的文本描述，并将其与口头文本结合，从而将多模态信息整合到基于文本的预训练大语言模型中。我们称此方法为 TextMI，并在情感、幽默和讽刺检测等多个下游任务中进行了 fine-tune，取得了令人满意的性能，因此提出将 TextMI 作为低资源环境下多模态行为分析任务的通用、有竞争力的基准。

Mar, 2023

S3：一种简单而强大的样本有效的多模态对话系统

我们提出了一个在多模态对话任务中具有潜在简单但强大效果的基线系统 S3 模型，在 MMMU 和 AI Journey Contest 2023 两个激动人心的榜单上取得了接近最先进的成果。该系统基于一个预训练的大型语言模型，图像和音频的预训练模态编码器以及一个可训练的模态投影器。所提出的用于训练这种架构的有效数据混合表明，基于强大的语言模型并在少量多模态数据上训练的多模态模型可以高效地执行多模态对话任务。

Jun, 2024