以意象为探索：探索一种用于对话推荐的多模态数据集

May, 2024

以意象为探索：探索一种用于对话推荐的多模态数据集

Imagery as Inquiry: Exploring A Multimodal Dataset for Conversational Recommendation

Se-eun Yoon, Hyunsik Jeon, Julian McAuley

TL;DR通过多模态数据集，我们介绍了一个用户通过图像表达偏好的研究。这个数据集包含了从风景到艺术表现的广泛的视觉表达，用户请求推荐具有类似感觉的书或音乐，并由社区通过点赞支持。我们的实验证明了大型基础模型在这些任务中的局限性。特别是，视觉 - 语言模型与仅使用描述的语言模型相比没有显著优势，我们推测这是因为未充分利用的视觉能力。为了更好地利用这些能力，我们提出了图像链推理的方法，并取得了显著改进。我们公开发布了我们的代码和数据集。

Abstract

We introduce a multimodal dataset where users express preferences through images. These images encompass a broad spectrum of visual expressions ranging from landscapes to artistic depictions. Users request recommendations for books or music that evoke similar feelings to those captured

multimodal dataset recommendation tasks foundation models vision-language models chain-of-imagery prompting

发现论文，激发创造

用语义相关的图片替换文本构建多模式对话数据集

本文提出创建一种包含图像的 45k 多模态对话数据集的方法，该方法通过准备、预处理文本对话数据集、使用文本转图像技术创建混合图像对话，以及利用基于上下文相似性的过滤步骤确保数据集的上下文一致性。自动度量和人类评估结果表明，我们的数据集可以有效地用于多模态对话系统的训练，需要以上下文感知的方式理解图像和文本。

Jul, 2021

IMAD: 图像增强的多模态对话

该研究提出了一种基于多模态视角的对话系统，并通过构建 IMAD 数据集和进行基线模型训练，证明了其在图像解释、数据集建设和模型表现方面具有潜在优势。

May, 2023

基于图像的对话：自然问题和回答生成的多模态上下文

该研究提出了一种新颖的任务 —— 基于图片的对话（IGC），通过图片来约束话题从而产生更高质量的对话，并引入了一个通过众包来构建的多目标参考数据集。实验结果表明，将视觉和文本相结合可以提高对话的质量，而对人的表现与神经和检索结构之间的差距表明多模态 IGC 是一个有趣的对话研究挑战。

Jan, 2017

DialogCC：大规模多模态对话数据集

本文介绍了一种基于 CLIP 相似度的多模态对话数据集创建管道，使用这个管道，我们提出了一个大规模的多模态对话数据集 DialogCC，并且通过广泛的实验结果表明，使用我们的数据集训练多模态对话模型可以改善泛化性能，与此同时，使用我们的数据集训练的现有模型在图像和文本检索任务上取得了最先进的表现。

Dec, 2022

生成多模态解释的个性化展示

本研究提出了一种名为个性化展示的新任务，以更丰富的信息形式生成推荐解释，通过对来自 Google Local 的大规模数据集的构建和收集，运用对比学习的方法构建了一个个性化多模态框架，利用多种输入模态生成多样化和可视化的解释，该框架在多种评估指标上比之前的方法有更多元化和表现力。

Jun, 2022

面向统一的多模式个性化：基于大型视觉语言模型的生成式推荐及其延伸

UniMP 是一种统一的多模式个性化系统的范式，通过使用多模态数据并消除任务和模态特定定制的复杂性，充分发挥了基础生成模型的灵活性和效力，以实现广泛的个性化需求，包括物品推荐、产品搜索、偏好预测、解释生成和用户引导的图像生成。

Mar, 2024

多模态大语言模型是文本到图像生成的人类对齐标注器

通过利用多模态大型语言模型创建 VisionPrefer，我们构建了一个高质量和细粒度的用户偏好数据集，用于指导文本到图像生成模型的训练，该数据集在多个偏好方面捕捉了人类的喜好，并且其性能优于之前的人类偏好度量标准，并证明了将人工智能生成的合成数据作为监督信号集成到视觉生成模型中，是实现与人类偏好更好的对齐的一个有前途的途径。

Apr, 2024

IRFL：修辞语言的图像识别

本研究提出了 “形象化语言图像识别” 数据集，探讨了视觉和语言模型理解多模态形象化语言的难点，并借助基准任务和基线模型初步研究了这一问题。结果表明，所有的模型在多模态形象化语言理解上都不如人类。该数据集和基准任务将促进模型更好地理解形象化语言。

Mar, 2023

基于注意力机制的多模态数据顺序推荐系统

提出了一种基于多模态数据的关注机制的序列推荐方法，该方法利用图像、文字和类别等多模态数据，利用 attention 操作和多任务学习损失，提高了推荐系统的性能。

May, 2024

大型视觉 - 语言模型中的复合推理引导

使用一种新颖的生成方法，我们对大型视觉语言模型（如 GPT-4）进行控制，以描述图像并进行组合推理，在 Winoground 数据集上优于其他嵌入式方法，并在最佳描述的增强下获得最高 10% 的准确率改进。

Jan, 2024