大型语言模型作为一致的故事可视化器

Dec, 2023

大型语言模型作为一致的故事可视化器

Large Language Models as Consistent Story Visualizers

Xiaoqian Shen, Mohamed Elhoseiny

TL;DRStoryGPT-V 使用潜在扩散和大语言模型的优点，生成具有一致且高质量角色的图像，通过解决指代消解和对上下文的理解来提高生成准确性和忠实度。模型在视觉故事可视化上表现优异，并具有较低的内存消耗。

Abstract

Recent generative models have demonstrated impressive capabilities in generating realistic and visually pleasing images grounded on textual prompts. Nevertheless, a significant challenge remains in applying these models for the more intricate task of →

generative models story visualization anaphora resolution large language model character generation

发现论文，激发创造

基于大语言模型的概率图模型的语言表达

本文介绍了一种新颖的贝叶斯提示方法，通过使用一个语言大模型（LLMs）中的一个模糊概率图模型（PGM）来实现无需训练的贝叶斯推理。我们的模型在多个组合推理任务中取得了良好的效果，有效提升了置信度的引发和文本生成质量，显示出在模拟不确定性方面提高人工智能语言理解系统的潜力。

Jun, 2024

极大预训练语言模型能否通过少量示例学习叙事？

本文对使用 VLPLMs 和 SOTA 模型在三个不同的数据集上进行的故事生成能力进行了自动和人为评估，结果表明 VLPLMs 生成的故事比其他故事生成模型更高质量，有一定程度上的过人之处，但也揭示了在涉及世界知识的情况下容易 “抄袭” 真实故事的现象。

Jan, 2023

基于 LLM 的数据增强方法提升跨语言表现

本研究探讨了利用大型语言模型进行数据增强在跨语言常识推理数据集中的潜力，通过使用包括 Dolly-v2、StableVicuna、ChatGPT 和 GPT-4 在内的大型语言模型来扩充三个数据集，确定了该方法的有效性，并比较了使用英语生成数据和将英语生成的数据翻译成目标语言。实验结果表明，使用 GPT-4 生成的合成数据进行训练的性能比其他模型优秀，ChatGPT 和 GPT-4 在大多数语言中生成的自然文本效果非常好，但在某些情况下，它们的效益会下降。

May, 2023

大型语言模型也能分享图片！

该研究探讨了大型语言模型（LLMs），如 InstructGPT，ChatGPT 和 GPT-4，在零样本设置中的图像共享能力，提出了一个两阶段框架，使 LLMs 能够预测潜在的图像共享转向并生成相关的图像描述，通过广泛的实验证明了 GPT-4 在零样本提示下实现了最佳性能，此外，我们发现了零样本提示中的紧密共享能力，证明了我们框架的两个阶段中基于限制的提示的有效性。基于该框架，我们利用 Stable Diffusion 在预测的转向处生成图像，即 PhotoChat ++，据我们所知，这是第一项在没有视觉基础模型的零样本设置中评估 LLMs 图像共享能力的研究。发表后将发布源代码和数据集。

Oct, 2023

为实际手动任务生成连贯的视觉插图序列

通过将潜在扩散模型与大型语言模型结合，我们提出了一种生成一致图像序列的方法，用于配合多步骤的指南，并在人类参与实验中被 46.6% 的人选择为最佳方法，同时自动评价指标表明该方法在两个领域中能够维持语义连贯性和视觉一致性。

May, 2024

基于大语言模型的通用实体链接

我们提出了一种新的方法来从长描述中密集地连接视觉实体，利用大型多模态模型提取语义名词，利用无类别分割模型生成实体级分割，采用多模态特征融合模块将每个语义名词与其对应的分割蒙版关联。此方法利用颜色映射对实体分割蒙版进行编码，使得细粒度预测能够保留高分辨率蒙版的特征。该方法使用 LMM 中的 CLIP 视觉编码器从低分辨率图像中提取视觉特征，比使用额外编码器处理高分辨率图像的现有方法在计算上更高效。我们的全面实验表明，我们的方法卓越于三个任务，包括全景叙事连接、指称表达分割和全景分割。

Feb, 2024

大型语言模型是零样本文本到视频生成的帧级导演

本文介绍了一种新的基于指令训练的大语言模型框架 DirecT2V，该模型可以通过用户提供的单个抽象提示生成一帧帧的视频，并通过新颖的数值映射方法和双 softmax 过滤来维护临时一致性和防止物体折叠。实验结果证明了 DirecT2V 框架在从抽象用户提示中生成视觉上一致和连贯的视频方面的有效性，从而解决了零样本视频生成的挑战。

May, 2023

大型视觉 - 语言模型中的复合推理引导

使用一种新颖的生成方法，我们对大型视觉语言模型（如 GPT-4）进行控制，以描述图像并进行组合推理，在 Winoground 数据集上优于其他嵌入式方法，并在最佳描述的增强下获得最高 10% 的准确率改进。

Jan, 2024

LLM-grounded Diffusion: 借助大型语言模型增强文本到图像扩散模型中的提示理解

该论文介绍了一种使用预训练大型语言模型对扩散模型进行增强推理能力的方法，包括两个阶段：第一阶段使用大型语言模型生成场景布局；第二阶段使用一个新的控制器，来生成与布局条件相符的图像。实验结果表明，该方法能更准确地生成需要语言和空间推理的图像。

May, 2023

VideoDirectorGPT: 基于 LLM 引导的一致多场景视频生成

我们提出了 VideoDirectorGPT，这是一个使用 LLMs 知识的生成一致多场景视频的新框架，并通过实验展示了其在布局和运动控制方面的显著改进，同时在单场景和多场景视频生成中实现了场景的视觉一致性。

Sep, 2023