May, 2024

以意象为探索:探索一种用于对话推荐的多模态数据集

TL;DR通过多模态数据集,我们介绍了一个用户通过图像表达偏好的研究。这个数据集包含了从风景到艺术表现的广泛的视觉表达,用户请求推荐具有类似感觉的书或音乐,并由社区通过点赞支持。我们的实验证明了大型基础模型在这些任务中的局限性。特别是,视觉 - 语言模型与仅使用描述的语言模型相比没有显著优势,我们推测这是因为未充分利用的视觉能力。为了更好地利用这些能力,我们提出了图像链推理的方法,并取得了显著改进。我们公开发布了我们的代码和数据集。