文本到图像生成和评估的可视化编程
本文提出了一个通用的交互式故事可视化系统,该系统涵盖了故事到提示生成,文本到布局生成,可控文本到图像生成和图像到视频动画四个组件,允许用户处理多个新角色和灵活修改布局与结构。
May, 2023
本研究提出一种自然语言到有效图像生成(NL2VI)的方法,将自然提示转换为更适合图像生成的可视提示。通过实验,将自然提示与图像生成对齐可以提高生成图像的一致性,尤其在烹饪和 DIY 等领域具有广泛的推广和应用。
May, 2023
本文提出了一种用于视觉和语言理解与生成的端到端的视觉 - 语言预训练模型 E2E-VLP,其中我们建立了一个统一的 Transformer 框架来共同学习视觉表示和图像文本语义对齐,同时通过将目标检测和图像字幕生成任务整合到预训练中,采用统一的编码 - 解码结构增强了视觉学习。在广泛的视觉 - 语言相关下游任务中进行的一系列实验表明了该新 VLP 模型的有效性。
Jun, 2021
生成式人工智能和大型语言模型在计算机教育领域有潜力通过自动生成个性化反馈和内容来大幅改善情况。本文研究了这些模型在文本编程教育领域的能力,但是对于常用于 K-8 编程教育的可视化编程领域的性能尚未探究。本研究评估了 ChatGPT 和 GPT-4 两个模型在不同场景的可视化编程领域中的表现,并通过专家评注进行了性能评估。结果显示这些模型在整合空间、逻辑和编程技能方面性能较差,为改进生成式模型在可视化编程中的表现提供了有趣的发展方向。
Jul, 2023
提出了 DiagrammerGPT,它是一个新颖的两阶段文本生成图表的框架,利用了 LLMs 的布局指导能力来生成更准确的开放领域、开放平台图表。
Oct, 2023
提出了一种将语言模型和符号规划器相结合的新框架,通过生成语言指令和场景观察的问题描述 (PD) 来驱动符号规划器,实现语言引导的机器人规划,实验结果显示该框架能够以超过 99% 的准确率生成句法正确的问题描述和超过 58% 的准确率生成有效的机器人规划。
Nov, 2023
通过利用三层艺术理论的建议,我们提出了一种用于抽象概念的文本到图像生成的框架,该框架通过将抽象概念转化为明确的意图、从 LLMs 中提取的语义相关的物体和依赖于概念的形式来生成图像。人类评估结果和我们设计的概念评分指标的评价结果证明了我们的框架在表达抽象概念方面的有效性。
Sep, 2023
通过大规模的带有含糊视觉描述的歌词集合进行训练,ViPE 是一种轻量且强大的语言模型,能够将任意文本转化为可视化描述,并展示出对比人类专家更具鲁棒性的理解能力,为音乐视频和字幕生成等许多下游应用提供了强大的开源基础。
Oct, 2023
通过我们提出的评估方法和平台 EvaLLM,我们解决并评估了大型语言模型生成可视化的问题,并通过 GPT3.5-turbo with Code Interpreter 和 Llama2-70-b 模型的两个案例研究展示了相关结果。
Feb, 2024
我们引入了新颖的扩散可视化编程器 (DVP),这是一个神经符号图像转换框架。我们提出的 DVP 在 GPT 架构中无缝嵌入了一个条件灵活的扩散模型,为各种符号步骤(包括 RoI 识别、风格转换和位置操作)提供一致的视觉程序序列,实现透明和可控的图像转换过程。大量实验证明了 DVP 的卓越性能,超过了当前艺术的表现。其中 DVP 的几个关键功能是:通过实例标准化实现条件灵活的翻译,使模型消除了手动引导导致的敏感性,并始终专注于用于高质量内容生成的文本描述;框架通过将特征空间中的复杂高维概念解读为更易理解的低维符号(如 [Prompt]、[RoI object])来增强上下文推理能力,从而实现了局部的、无上下文的编辑和整体的一致性维护;最后,DVP 在每个编程阶段提供明确的符号表示,提高了系统的可控性和可解释性,使用户能够直观地解释和修改结果。我们的研究在将人工图像翻译过程与认知智能相协调方面迈出了重要的一步,具有广泛的应用前景。
Jan, 2024