基于图像的聊天：引人入胜的实地对话

ACLNov, 2018

基于图像的聊天：引人入胜的实地对话

Image Chat: Engaging Grounded Conversations

Kurt Shuster, Samuel Humeau, Antoine Bordes, Jason Weston

TL;DR本论文研究了基于图像的对话沟通的大型架构和数据集，利用现代状态下的图像和文本表征方式考虑不同的融合方式以实现机器人与人之间的对话，提出了 Image-Chat 数据集并通过自动指标和人类评估验证了模型的有效性以及其在现有基准测试中的表现，并得出最佳模型与人类表现相当的结论。

Abstract

To achieve the long-term goal of machines being able to engage humans in conversation, our models should captivate the interest of their speaking partners. Communication grounded in images, whereby a dialogue is conducted based on a given photo, is a setup naturally appealing to humans (Hu et al., 2014). In this work we study large-scale architectures and da

machine conversation image-grounded communication neural architectures dataset collection engagingness

发现论文，激发创造

基于图像的对话：自然问题和回答生成的多模态上下文

该研究提出了一种新颖的任务 —— 基于图片的对话（IGC），通过图片来约束话题从而产生更高质量的对话，并引入了一个通过众包来构建的多目标参考数据集。实验结果表明，将视觉和文本相结合可以提高对话的质量，而对人的表现与神经和检索结构之间的差距表明多模态 IGC 是一个有趣的对话研究挑战。

Jan, 2017

社交媒体语境下的对话模型建立方法

本文介绍了一种通过模仿社交媒体上的非正式互动改善系统的原始会话能力的方法，并利用 Reddit 上的过滤评论数据作为 seq2seq 生成器的额外上下文，以提高开放域对话系统的能力。

Jun, 2022

具有隐变量图像的开放域对话生成

本文提出使用图像来增强样本数量的方法，以学习针对含有图像信息的对话的应答生成模型，并利用条件变分自编码框架下的响应生成器和图像重构器来刻画图像和文本信息之间的关系。实验表明，该方法在低资源情况下可以有效增加图像驱动类对话的训练样本，同时保持应答内容与上下文的相关性。

Apr, 2020

聊天达到完美 -- 基于聊天的图像检索

本文介绍了一种基于聊天式对话系统的图像检索方法，使用大型语言模型生成对用户问题的跟进问题，在对用户的意图进行澄清后，从一个较大的图像库中检索目标图像，并在多次对话中显著提高了图像检索成功率。

May, 2023

Maria: 一款由视觉体验支持的对话代理人

本文提出了 Maria，一种视觉知识驱动的神经会话代理，该代理由三个灵活的组件构成，支持无对话和图像配对的开放式对话，包括图像检索器、视觉概念检测器和基于视觉知识的响应生成器。大量实验表明，Maria 在自动指标和人类评估方面均优于先前的最新方法，并且可以生成具有一定视觉常识的信息响应。

May, 2021

自我对话交互式强化学习的物体定位

本文介绍了一个交互式培训方法，以改进自然语言对话系统的视觉基础任务。培训过程中，共同的奖励函数引导着两个代理逐渐适应并合作完成任务，同时，该参数化奖励函数更新自身使训练效果得到了明显提高。虽然我们在训练过程中观察到了语言漂移问题，但我们提出使用奖励工程来提高生成对话的可解释性。此外，该研究结果表明评估目标为视觉对话任务时，需要比任务成功率更有语义相关性的评估标准。

Dec, 2017

通过个性化实现引人入胜的图像字幕

本研究定义了一项全新的任务 —— 人格化字幕，旨在提高人类与机器之间的互动性，并基于 215 种可能的人格特征收集并发布了 201,858 个字幕的大型数据集。该研究运用了转换器及 1.7 亿对话样本对句子表示进行建模，通过 Mahajan 等人（2018 年）的图像表示及针对 35 亿社交媒体图像进行训练的 ResNets 得到图像表示。本文在 Flickr30k 和 COCO 上取得最优表现，并经在线评估验证其在人与机器之间的互动性。

Oct, 2018

多模态开放领域对话

本文旨在研究结合先进的开放域对话代理和视觉模型，以实现多模态对话的目标，研究不同的图像融合方案和域自适应预训练和微调策略，并展示了我们最好的模型不仅在多模态对话方面优于现有的强模型，而且在纯文本对话方面表现也和其前身 BlenderBot 一样好，同时我们还研究并整合了安全组件，展示这种努力不会削弱模型性能方面的吸引力度量。

Oct, 2020

MPCHAT: 面向多模态角色驱动的对话

本研究旨在通过引入图像模态转化多维人物角色的性格特点和经验，探究多模态人物角色在对话中的应用和作用，并通过多个任务的实验证明，多模态人物角色的引入可以显著提升多模态对话的性能表现。

May, 2023

LLaVA-Grounding: 大型多模态模型的基于视觉的聊天

最近在大型多模态模型（LMMs）的重要突破中，人们越来越意识到视觉聊天的基础能力。然而，尽管近期的努力使 LMMs 能够支持基础能力，但它们的聊天表现通常是独立的，并且在被要求进行基础时其聊天性能显著下降。该问题的根源在于缺乏一个用于基础视觉聊天（GVC）的数据集。为了解决这个问题，我们创造了能够结合基础和聊天能力的 GVC 数据。为了更好地评估 GVC 的能力，我们引入了一个名为 Grounding-Bench 的基准。此外，我们提出了一种模型设计，可以通过将分割模型与语言模型相连接来支持 GVC 和各种类型的视觉提示。实验结果表明，我们的模型在 Grounding-Bench 上优于其他 LMMs。此外，我们的模型在经典的基础基准测试中，如 RefCOCO/+/g 和 Flickr30K 实体中，也取得了有竞争力的性能。我们的代码将在此 https URL 发布。

Dec, 2023