通过引入适应性框架 Ctrl-G,该研究提出了一种可实现对大型语言模型的可控生成的方法,并将其应用于交互文本编辑和有限状态自动机表示的逻辑约束,结果显示 Ctrl-G 在人类评估中相比于 GPT4 以及 GPT3.5 取得了 30% 以上的满意率提升,并在标准基准测试中超越了中型语言模型。此外,该研究还进行了 Grade School Math 基准测试作为概念验证,展示了 Ctrl-G 在辅助大型语言模型推理方面的潜力。
Jun, 2024
DiffusionGPT 结合了扩散模型、文本到图像系统和领域特定树,提供了一个统一的生成系统,能够适应各种类型的提示并集成领域专家模型,推动了多领域图像合成的边界。
Jan, 2024
本研究提出了一个名为 MAGIC 的无需训练的框架,它能够将视觉控制插入文本生成过程中,并使 LM 在零样本情况下执行多模态任务,如图像字幕生成。在零样本图像字幕生成方面,MAGIC 在几乎 27 倍的解码加速度下,极大地超越了现有的最先进方法。
May, 2022
本研究是一项探索性研究,通过创建 100 个 LLM 提示,测试了控制逻辑生成,旨在提高控制工程师的生产力。
May, 2023
LayoutGPT 是一种利用 LLMS 生成样式表语言的方法,能够生成多个视觉域中的可信布局,包括三维室内场景;当与下游图像生成模型相结合时,比文本到图像模型系统表现更好,并可在正确性方面与人类用户进行比较,同时在 3D 室内场景合成方面也与监督方法实现相当的性能。
该研究探讨了大型语言模型(LLMs),如 InstructGPT,ChatGPT 和 GPT-4,在零样本设置中的图像共享能力,提出了一个两阶段框架,使 LLMs 能够预测潜在的图像共享转向并生成相关的图像描述,通过广泛的实验证明了 GPT-4 在零样本提示下实现了最佳性能,此外,我们发现了零样本提示中的紧密共享能力,证明了我们框架的两个阶段中基于限制的提示的有效性。基于该框架,我们利用 Stable Diffusion 在预测的转向处生成图像,即 PhotoChat ++,据我们所知,这是第一项在没有视觉基础模型的零样本设置中评估 LLMs 图像共享能力的研究。发表后将发布源代码和数据集。
Oct, 2023
研究使用空间特征和自我关注来实现生成图片结构的微调,并将其用于文本到图像合成中,从而实现图像到图像转换。
Nov, 2022
本文介绍了 MiniGPT-4 模型,该模型利用像 GPT-4 这样的先进的大型语言模型(LLM)与视觉编码器对齐,可以生成详细的图像描述和从手写草图中创建网站等多重能力,采用对齐的图文数据集训练可以提高生成的可靠性和整体可用性。
Apr, 2023
本文介绍了 GPT-4,一种大规模、多模态模型,可接受图像输入和文本输入,并产生文本输出。通过预先训练,优化方法和改进后的对齐过程,GPT-4 表现出人类水平的性能。
Mar, 2023
本文介绍了 MiniGPT-4 和 ArtGPT-4 模型,这些模型通过新颖的数据评估方法来解决获得符合其规模的数据集的挑战,并可生成带有艺术风格的图片和 aesthetically pleasing HTML/CSS web pages,并且 ArtGPT-4 模型比当前最先进的模型在评估方法中得分更高。