社交媒体上的多模式聊天数据集
本文介绍了 MMDialog 数据集、提出并规范了两个基于检索和生成场景的反应生成任务,还构建了两个基线,并提出了一种新的评估指标 MM-Relevance,用于衡量多模态反应。
Nov, 2022
本文介绍了一种基于 CLIP 相似度的多模态对话数据集创建管道,使用这个管道,我们提出了一个大规模的多模态对话数据集 DialogCC,并且通过广泛的实验结果表明,使用我们的数据集训练多模态对话模型可以改善泛化性能,与此同时,使用我们的数据集训练的现有模型在图像和文本检索任务上取得了最先进的表现。
Dec, 2022
本研究旨在通过引入图像模态转化多维人物角色的性格特点和经验,探究多模态人物角色在对话中的应用和作用,并通过多个任务的实验证明,多模态人物角色的引入可以显著提升多模态对话的性能表现。
May, 2023
本文介绍了一个新型的多模式聊天对话数据集 - TikTalk,通过视频社交应用的生成视频和相应的对话对构建对话语料库,通过三种模态的数据(文本、视觉和音频),为聊天机器人的深入理解和响应的生成提出了挑战,实验结果表明,TikTalk 仍有大量改进的空间。
Jan, 2023
为了解决现有多模态模型在多图像、多轮对话中处理交叉图像和文本输入的能力不足的问题,我们提出了 DeepSpeed-VisualChat 框架,以优化大型语言模型的性能,并提升大型视觉和语言模型处理交叉输入的能力。相比现有框架,DeepSpeed-VisualChat 在多模态语言模型方面具有较高的可伸缩性,并为未来的探索奠定了坚实的基础。
Sep, 2023
本研究提出了一个基于真实情境的多模交互对话数据集 SIMMC 2.0,收集了 11,000 个在购物领域的用户 <-> 助手任务对话。数据集通过模拟器和手工语句改写收集,可用于对话系统的基准测试和自然语言处理研究。
Apr, 2021
本文提出创建一种包含图像的 45k 多模态对话数据集的方法,该方法通过准备、预处理文本对话数据集、使用文本转图像技术创建混合图像对话,以及利用基于上下文相似性的过滤步骤确保数据集的上下文一致性。自动度量和人类评估结果表明,我们的数据集可以有效地用于多模态对话系统的训练,需要以上下文感知的方式理解图像和文本。
Jul, 2021
社交媒体是多模态信息交流的中心,包括文本、图片和视频,这对机器来理解在线空间中的信息或情感相关的交互构成了挑战。本文介绍了 MM-Soc,一个综合性基准,旨在评估多模态大型语言模型对多模态社交媒体内容的理解能力。通过我们对四个开源多模态大型语言模型的十个规模变体的详尽评估,我们发现了重要的性能差异,突出了模型在社交理解能力方面的改进需求。
Feb, 2024
本研究提出了一个新的任务 MOD,该任务需要模型能够理解多模态元素和其背后的情感,为此建立了一个大规模的开放域多模态对话数据集,其中包含约 45K 个对话和 606K 个话语,平均每个话语都包含 4 个互联网模因,并用相应的情感进行了注释。研究还提出了一种简单而有效的方法,该方法利用统一的生成网络解决 MOD 任务。实验结果表明,该方法能够在训练时实现包括文本和互联网模因的表达式交流。
Sep, 2021
本文介绍了我们在 Dialog State Tracking Challenge 10 上进行的 Situated Interactive MultiModal Conversations 2.0 挑战中的工作和方法,提出了一种结合图像和文本的多模态模型,并对 SIMMC 2.0 数据集进行了挑战。通过预先训练模型,我们在 subtask#1,#2 中取得了第三佳表现,并在生成 subtask#4 中获得亚军。
Dec, 2021