本文提出一种端到端的神经框架,用于自动生成科学图表的信息丰富,高质量的标题,并引入了基于计算机科学 arXiv 论文的 SCICAP 大规模图标题数据集,包括 200 万多个来自 290,000 多篇论文的图像,展示了为科学图表生成标题的机遇和挑战。
Oct, 2021
UFOGen 是一种新型的生成模型,用于高效的一步式文本到图像合成,通过采用扩散模型和生成对抗网络目标的混合方法,UFOGen 在单个步骤中能够高效地生成质量高、与文本描述相匹配的图像,并且在传统的文本到图像生成以及各种下游任务中具有广泛的适用性。
Nov, 2023
本研究引入了 SciGen,一个考虑推理的数据到文本生成任务的数据集。SciGen 是第一个评估生成模型在复杂输入结构下算术推理能力的数据集,并表明表格描述需要考虑表格值的推理。在 SciGen 上进行实验表明,目前数据到文本生成模型的推理能力受限,缺乏适当的自动评估度量。
Apr, 2021
近年来,文本到三维形状生成领域经历了大量的工作和兴趣。这篇综述报告了驱动文本到三维形状生成的底层技术和方法,并对需要的监督数据类型进行了系统分类。最后,讨论了现有方法的局限性,并勾画了未来工作的有希望的方向。
Mar, 2024
通过引入文本条件,该论文提出了一种名为 TG-3DFace 的文本引导的 3D 人脸生成方法,利用全局对比学习和细粒度对齐模块两种跨模态对齐技术,实现了更逼真和语义一致的纹理生成。
Aug, 2023
本文介绍用纯文本方法生成科学文献图注的一种新方法,使用了提取目标图像引用的句子然后将其总结为简明的图注的技术。通过真实世界 arXiv 论文的实验,我们的方法在自动和人工评估中都优于以前的方法,证明了纯文本技术在生成学术文章中的图片标注方面的有效性。
Feb, 2023
SceneTextGen 是一种基于扩散模型的新颖方法,通过集成具有详细排版属性的字符级编码器,字符级实例分割模型和词级定位模型,以实现更自然和多样化的文本生成,从而提高了生成图像上的字符识别率。
Jun, 2024
通过生成对抗网络(GAN)或变压器模型进行文本到图像生成。提出了一种方法,利用人工智能模型进行主题创造,并对实际绘画过程进行分类建模。通过将所有视觉元素转化为可量化的数据结构来创建图像,并与现有的图像生成算法进行语义准确性、图像可复现性和计算效率方面的有效性评估。
Dec, 2023
本文提出了 Text2Scene 模型,该模型从自然语言描述中生成各种形式的组成场景表示。与最近的其他工作不同,Text2Scene 不使用生成对抗网络(GANs),而是通过依次生成对象和它们的属性来学习生成场景,从而实现生成各种形式的场景表示,包括卡通样式的场景、与真实图像相对应的对象布局和合成图像。该方法不仅能够胜任与基于 GAN 的最先进方法相竞争的工作,而且其结果可以被解释。
Sep, 2018
本文介绍了一种利用生成式对抗网络和自然语言处理模型生成人脸的新方法,将面部描述转换为可学习的潜在向量,从而生成与这些特征相对应的面部。
Jan, 2023