教授文本到图像模型进行交流

Sep, 2023

Teaching Text-to-Image Models to Communicate

Xiaowen Sun, Jiazhan Feng, Yuxuan Wang, Yuxuan Lai, Xingyu Shen...

TL;DR通过语料上进行的实验结果证明，我们的方法有效且实用，能够生成与指定对话一致的逼真图像，并在多个度量指标上持续提高各种模型的性能。

Abstract

Various works have been extensively studied in the research of text-to-image generation. Although existing models perform well in text-to-image generation, there are significant challenges when directly employing them to generate images in dialogs. In this paper, we first highlight a n

text-to-image generation dialog-to-image generation dialog context pre-trained text-to-image models semantic information

发现论文，激发创造

具有隐变量图像的开放域对话生成

本文提出使用图像来增强样本数量的方法，以学习针对含有图像信息的对话的应答生成模型，并利用条件变分自编码框架下的响应生成器和图像重构器来刻画图像和文本信息之间的关系。实验表明，该方法在低资源情况下可以有效增加图像驱动类对话的训练样本，同时保持应答内容与上下文的相关性。

Apr, 2020

多模态对话回应生成

本论文提出了一种多模态对话生成模型，通过一种新颖的会话代理 Divter，该模型在低资源情况下学习多模态对话，利用文本和图像对对话历史进行响应，并取得了最先进的结果。

Oct, 2021

逐步文本到图像生成的序贯语义生成通信

该论文提出了一种新的通信系统框架，利用多模式生成模型的优势生成有前途的代沟能力。我们的主要研究方向是基于图像到文本转换和顺序传输单词令牌的通信系统设计，旨在为实际通信系统利用最先进的生成模型铺平新的道路。

Sep, 2023

IMAD: 图像增强的多模态对话

该研究提出了一种基于多模态视角的对话系统，并通过构建 IMAD 数据集和进行基线模型训练，证明了其在图像解释、数据集建设和模型表现方面具有潜在优势。

May, 2023

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

ChatPainter：利用对话改进文本到图像生成

本文研究使用对话来提高基于文本描述合成逼真图像的模型在 Microsoft COCO 数据集上的生成效果和 Inception Score（评估图像质量的指标）。

Feb, 2018

用语义相关的图片替换文本构建多模式对话数据集

本文提出创建一种包含图像的 45k 多模态对话数据集的方法，该方法通过准备、预处理文本对话数据集、使用文本转图像技术创建混合图像对话，以及利用基于上下文相似性的过滤步骤确保数据集的上下文一致性。自动度量和人类评估结果表明，我们的数据集可以有效地用于多模态对话系统的训练，需要以上下文感知的方式理解图像和文本。

Jul, 2021

基于场景的人类先验文本到图像生成技术

提出了一种基于场景控制、区域特征和转换器的文本生成图像方法，实现了高分辨率 (512x512) 下最先进的生成图像质量和人工评估结果，并实现了场景编辑、文本编辑和故事插图生成等新功能。

Mar, 2022

DialogGen: 多模态交互式对话系统用于多轮文本到图像生成

通过将多模态大型语言模型与文本到图像生成模型相结合，提出了一种用于多轮文本到图像生成的多模态交互对话系统，同时引入了一种全面的多模态对话评估基准，以评估模型在生成准确且连贯的多模态内容上的能力，包括模态切换和输出图像的连贯性。

Mar, 2024

超越生成：利用文本至图像模型进行对象检测和分割

通过使用文本到图像合成框架（如 DALL-E、稳定扩散等），我们提出了一种新的范式，以自动产生具有准确标签的训练数据。该方法将训练数据生成分解为前景物体生成和上下文一致的背景生成部分，并演示了在五个物体检测和分割数据集上使用我们方法生成的合成数据用于训练可以产生与使用真实数据训练的模型性能相媲美甚至更好的目标检测器。

Sep, 2023