通过 LLMs-AIGCs 协作进行系统性视觉适应的交互式数据合成

May, 2023

通过 LLMs-AIGCs 协作进行系统性视觉适应的交互式数据合成

Interactive Data Synthesis for Systematic Vision Adaptation via LLMs-AIGCs Collaboration

Qifan Yu, Juncheng Li, Wentao Ye, Siliang Tang, Yueting Zhuang

TL;DR该文章介绍了一种基于 LLM 模型的 ChatGenImage 新模型，用于数据扩充和标注，以及探索 LLMs 与 AIGC 模型的互补优势，以实现更可控的图像生成，并首次尝试将它们合作用于自动数据增强，并呈现了令人惊叹的结果。

Abstract

Recent text-to-image generation models have shown promising results in generating high-fidelity photo-realistic images. In parallel, the problem of data scarcity has brought a growing interest in employing AIGC technology for high-quality →

text-to-image generation data expansion annotated data expansion llms chatgenimage

发现论文，激发创造

稳定的 LLaVA：通过合成的图像对话数据增强视觉指导调整

我们提出了一种新的数据收集方法，通过异步合成图像和对话以进行视觉指导调优，结合 ChatGPT 和文本到图像生成模型的能力，显著增强了多种模型功能。

Aug, 2023

ChatIllusion: 高效对齐交错生成自适应可视化指导模型

通过 GenAdapter 将视觉表示能力集成到 ChatIllusion 中，ChatIllusion 是一种高级生成多模态大语言模型，结合了大语言模型的能力和视觉理解能力，能够为用户提供多样且高质量的图像输出，同时保持语义一致性和对话控制性，极大提升用户的体验质量。

Nov, 2023

VIGC: 视觉指令生成和校正

本文提出了视觉指令生成和校正（VIGC）框架，使多模态大型语言模型能够生成指令调整数据并在生成过程中逐步提高其质量。

Aug, 2023

LLM4GEN：利用语义表示的 LLM 用于文本到图像生成

LLM4GEN 通过结合 LLMs 特征设计的 Cross-Adapter 模块，有效提高了复杂和密集提示的语义理解能力，为 text-to-image 生成任务带来了显著改进，并在 sample 质量、图像文本对齐和人工评估方面超越了现有的最先进模型。

Jun, 2024

Idea-2-3D: 协作的 LMM 机器人实现从交错的多模式输入生成 3D 模型

通过大型多模型模型以及现有的算法工具，使用 Idea-2-3D 框架自动生成与多模态输入 IDEA 相匹配的 3D 模型，并通过定量对比表明其优于当前方法。

Apr, 2024

人工智能生成内容的综合调查（AIGC）：从 GAN 到 ChatGPT 的生成式人工智能历史

该研究综述了生成模型的历史和基本组成部分，并从单模态和多模态交互的角度介绍了文本和图像生成任务及相关模型，讨论了人工智能生成内容领域中的开放性问题和未来挑战。

Mar, 2023

增强想象力生成：学习为超大语言模型提供更丰富上下文的问题回答

提出了一种基于想象力的知识增强框架（IAG）和适用于问题回答的想象力丰富上下文方法（IMcQA），通过模拟人类补偿知识缺陷的能力，实现了在回答问题时仅依靠想象而不依赖外部资源。在三个数据集上的实验结果表明，IMcQA 在开放领域和封闭书籍设置中，以及分布内性能和分布外推广方面都具有显著优势。

Mar, 2024

LLMGA: 基于多模态大型语言模型的生成助手

该研究介绍了一种基于多模态大型语言模型的生成助手（LLMGA），利用大型语言模型（LLM）中内在的知识和理解能力，帮助用户进行图像生成和编辑，通过精确控制生成提示实现对稳定扩散（SD）的控制，以提供更精细、准确的内容和更直观的网络解释性，同时还提出了一个两阶段的训练方案来优化 SD 的生成结果，并引入基于参考的恢复网络来减少图像编辑过程中生成区域与保留区域之间的纹理、亮度和对比度差异。广泛的实验结果表明，LLMGA 具有很好的生成能力，并能以交互方式在更广泛的应用中发挥作用。

Nov, 2023

图像标题是文本到图像模型的自然提示

论文理论分析了合成数据的训练效果和提示诱导的合成数据分布之间的关系，并相应地提出了一种简单而有效的方法，通过图像字幕和类名来提示生成模型，从而合成更具信息性和多样性的训练数据。实验证明，该方法显着提高了在合成训练数据上训练的模型的表现。

Jul, 2023

AIGCs 对 AI 的混淆：探究和解释大型视觉语言模型中由合成图像引起的幻觉

人工智能生成内容的进化朝着更高质量的方向发展，与人工智能生成内容的不断交互给数据驱动的人工智能社区带来了新的挑战：尽管 AI 生成的内容在广泛的 AI 模型中扮演着关键角色，但它们引入的潜在风险尚未得到充分的审查。本研究突出了由 AI 合成图像引起的大型视觉语言模型中的严重幻觉现象，结果发现合成图像引起的物体幻觉特点是数量更多且位置分布更均匀，即使这些合成图像与自然图像相比没有呈现非现实或额外相关的视觉特征。此外，我们对 Q-former 和线性投影仪的研究发现，视觉投影后合成图像可能呈现令牌偏差，从而放大幻觉偏差。

Mar, 2024