- MMLongBench-Doc: 用视觉化评估长上下文文档理解技术的基准测试
通过构建一个多模式长上下文的基准数据集,本研究表明长上下文文档理解对于当前的大型视觉 - 语言模型 (LVLMs) 来说是个巨大挑战,并验证了未来研究更强大的长上下文 LVLMs 的必要性。
- 精确物体数量的文本到图像生成
通过分离并计算对象的实例以及修复缺失对象的形状和位置,本文提出了一种名为 CountGen 的模型,该模型在生成图像时能够准确控制对象的数量。
- ACLM3T: 多模文档级机器翻译的新基准数据集
本文介绍了 M3T,这是一个新颖的基准数据集,旨在评估 NMT 系统在翻译半结构化文档的全面任务上的表现,并解决了现实世界应用中丰富文本布局所带来的挑战。
- CVPRDocSynthv2:面向文档生成的实用自回归建模
通过开发一种简单且有效的自回归结构模型,本文在探索综合文档生成,即包括布局和内容的文档生成的更复杂挑战方面提出了名为 DocSynthv2 的新方法,通过关注文档内结构元素与文本内容之间的关系,我们旨在生成连贯且与上下文相关的文档,不依赖于 - LayoutFlow: 布局生成的流匹配
利用流匹配作为替代现有的基于扩散的布局生成模型的方法,我们提出了一种名为 LayoutFlow 的高效基于流的模型,用于生成高质量的布局。通过逐渐移动或流动初始样本的元素直到达到最终预测,我们的方法学习替代了逐步去噪噪声布局的元素。此外,我 - 能否让人工智能模型欣赏文件美学?关于预测自信程度与可读性和布局质量的探究
通过对文档设计原则的分析以及与人类认知和人工智能对文档审美的解读之间的桥梁,本研究通过相关性分析测试了噪声、字体大小对比、对齐和复杂性等四个审美效果对模型置信度的影响,结果和观察强调了基于文档设计理论的模型分析的价值,提供了进一步研究的新视 - 神奇修复:通过观察动态视频简化照片编辑
我们提出了一个生成模型,根据粗略编辑的图片合成一个遵循预定布局的逼真输出,并从原始图像中转移细节,同时保留其部分的身份信息,并将其调整到由新布局定义的光照和上下文。
- 基于关注重心的文本到图像的合成
本研究提出了两个新的损失函数,用于在采样过程中根据给定的布局重新聚焦注意力图,以解决在多个对象、属性和空间组合都涉及到的情况下现有文本到图像综合方法无法精确遵循文本提示的问题,并通过 Large Language Models 合成的布局在 - Cones 2: 多主体定制图像合成
研究在多个主题约束下如何高效地表示一个特定主题以及如何适当地组合不同主题,并提出了一种方案,该方案利用文本嵌入和布局来生成图像,并通过实验证明了其在多个主题的自定义方面具有优越性。
- 从学术文章中提炼文本分类和物体识别的框架
本论文提出了一种机器学习与基于规则的混合方法,称为 TBRF,用于数据挖掘学术论文中的特定信息,通过分析学术论文中的标准布局和排版方法,通过实验验证表明,该方法可以在分类准确率和表格及图片检测准确率方面达到超过 95% 和 90% 的精度。
- CVPR图像感知布局生成的像素级鉴别器无监督领域自适应
本文关注利用基于图像内容的条件 GAN 模型生成具有图片感知性的广告海报平面设计,在现有数据集的基础上,将无监督领域自适应技术与深度学习相结合,设计了一种新的像素级鉴别器 (PDA-GAN) 来生成具有高质量图像感知的广告海报平面设计。 实 - ACL利用可视化排版组件提高从科学 PDF 文件中提取结构化内容的效果
本文提出了一种新颖的方法,即 I-VILA 和 H-VILA,可以用于从科学论文的 PDF 文件中准确地提取结构化内容,不需要进行昂贵的额外预训练,并通过在模型输入中加入特殊标记或层次编码来提高分类性能或降低推理时间。
- AttrLostGAN:基于可重构布局和样式的属性控制图像合成
本文提出了一种从布局生成图像的方法,可以对单个对象的出现进行属性控制,从而提高对多个对象场景的建模。
- 具有上下文对象布局细化的场景图像生成
提出了一种新的方法,通过逐步生成整个布局描述来改善物体间的依赖关系,从而生成高质量的中间布局和最终图像,提高了布局覆盖率近 20 个百分点,减少了物体之间的重叠到可忽略的程度。