通过 LLMs-AIGCs 协作进行系统性视觉适应的交互式数据合成
我们提出了一种新的数据收集方法,通过异步合成图像和对话以进行视觉指导调优,结合 ChatGPT 和文本到图像生成模型的能力,显著增强了多种模型功能。
Aug, 2023
通过 GenAdapter 将视觉表示能力集成到 ChatIllusion 中,ChatIllusion 是一种高级生成多模态大语言模型,结合了大语言模型的能力和视觉理解能力,能够为用户提供多样且高质量的图像输出,同时保持语义一致性和对话控制性,极大提升用户的体验质量。
Nov, 2023
LLM4GEN 通过结合 LLMs 特征设计的 Cross-Adapter 模块,有效提高了复杂和密集提示的语义理解能力,为 text-to-image 生成任务带来了显著改进,并在 sample 质量、图像文本对齐和人工评估方面超越了现有的最先进模型。
Jun, 2024
通过大型多模型模型以及现有的算法工具,使用 Idea-2-3D 框架自动生成与多模态输入 IDEA 相匹配的 3D 模型,并通过定量对比表明其优于当前方法。
Apr, 2024
该研究综述了生成模型的历史和基本组成部分,并从单模态和多模态交互的角度介绍了文本和图像生成任务及相关模型,讨论了人工智能生成内容领域中的开放性问题和未来挑战。
Mar, 2023
提出了一种基于想象力的知识增强框架(IAG)和适用于问题回答的想象力丰富上下文方法(IMcQA),通过模拟人类补偿知识缺陷的能力,实现了在回答问题时仅依靠想象而不依赖外部资源。在三个数据集上的实验结果表明,IMcQA 在开放领域和封闭书籍设置中,以及分布内性能和分布外推广方面都具有显著优势。
Mar, 2024
该研究介绍了一种基于多模态大型语言模型的生成助手(LLMGA),利用大型语言模型(LLM)中内在的知识和理解能力,帮助用户进行图像生成和编辑,通过精确控制生成提示实现对稳定扩散(SD)的控制,以提供更精细、准确的内容和更直观的网络解释性,同时还提出了一个两阶段的训练方案来优化 SD 的生成结果,并引入基于参考的恢复网络来减少图像编辑过程中生成区域与保留区域之间的纹理、亮度和对比度差异。广泛的实验结果表明,LLMGA 具有很好的生成能力,并能以交互方式在更广泛的应用中发挥作用。
Nov, 2023
论文理论分析了合成数据的训练效果和提示诱导的合成数据分布之间的关系,并相应地提出了一种简单而有效的方法,通过图像字幕和类名来提示生成模型,从而合成更具信息性和多样性的训练数据。实验证明,该方法显着提高了在合成训练数据上训练的模型的表现。
Jul, 2023
人工智能生成内容的进化朝着更高质量的方向发展,与人工智能生成内容的不断交互给数据驱动的人工智能社区带来了新的挑战:尽管 AI 生成的内容在广泛的 AI 模型中扮演着关键角色,但它们引入的潜在风险尚未得到充分的审查。本研究突出了由 AI 合成图像引起的大型视觉语言模型中的严重幻觉现象,结果发现合成图像引起的物体幻觉特点是数量更多且位置分布更均匀,即使这些合成图像与自然图像相比没有呈现非现实或额外相关的视觉特征。此外,我们对 Q-former 和线性投影仪的研究发现,视觉投影后合成图像可能呈现令牌偏差,从而放大幻觉偏差。
Mar, 2024