修订的重要性:以修订编辑为指导的生成设计
这项研究描述了IteraTeR:第一个大规模、多领域、编辑意图注释的迭代修订文本语料库,包括了新框架和注释后的编辑意图,提高了自动生成模型的评价,从而更好地理解文本修订过程,使得编辑意图和写作质量之间可以建立重要联系,并促进迭代修订文本的计算模型的多样性语料库的创建。
Mar, 2022
本文介绍了一种人机交互的迭代文本修订系统(R3),该系统可提供高质量的文本修改建议,通过人机交互实现文档的迭代修订,从而使大语言模型在文本修订任务中发挥更大作用。
Apr, 2022
引入了“Idea to Image”系统,利用GPT-4V(Vision)进行多模态迭代自我精炼,实现自动图像设计与生成。
Oct, 2023
通过综合评估,我们发现GPT-4V在将视觉设计转换为代码实现的任务中表现最佳,其生成的网页在视觉外观和内容方面可以替代原始参考网页的49%,并且在64%的情况下被认为比原始参考网页更好。
Mar, 2024
从实际场景中提取和清洗,包含设计愿景和UI代码的高质量数据集VISION2UI用于细调Multimodal Large Language Models (MLLMs)以实现自动化UI代码生成。
Apr, 2024
近期,在指令追踪模型方面取得的进展使得用户与模型的交互更加用户友好和高效,扩大了它们的适用范围。本研究引入了一种新颖的多模态指令追踪框架,用于布局规划,在设计领域,非专业用户经常由于技能和资源有限而难以创建具有视觉吸引力的布局。我们提出了三个布局推理任务来训练模型理解和执行布局指令。在两个基准测试中的实验证明,我们的方法不仅简化了非专业人员的设计过程,而且在Crello上的mIoU高于few-shot GPT-4V模型12%。这一进展凸显了多模态指令追踪模型在自动化和简化设计过程方面的潜力,为视觉丰富文档上的各类设计任务提供了可行的解决方案。
Apr, 2024
InstructLayout是一种集成了语义图先验和布局解码器的新型生成框架,用于改善2D和3D布局合成的可控性和保真度,通过同时学习布局外观和对象分布,实现了多个下游任务的零样本表现。
Jul, 2024
本研究解决了布局到图像生成中,现有方法在复杂文本描述场景下表现不佳的问题。提出了一种新颖的区域交叉注意力模块,以增强生成过程,并提出了评估开放词汇情景下生成性能的新指标。研究发现,这些指标与人类偏好高度一致,具有重要的应用潜力。
Sep, 2024
本研究针对当前离散扩散模型在生成布局后难以校正不和谐布局的问题,提出了一种名为布局校正器的模块。该模块通过识别布局中的不和谐元素,并重新生成和谐的布局,显著提升了布局生成的性能,展现了在高效控制布局和谐性方面的潜力。
Sep, 2024