检索增强式布局变换器用于内容感知布局生成

Nov, 2023

检索增强式布局变换器用于内容感知布局生成

Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation

Daichi Horita, Naoto Inoue, Kotaro Kikuchi, Kota Yamaguchi, Kiyoharu Aizawa

TL;DR本文介绍了一种名为 RALF 的模型，它通过检索相似的布局示例来提高内容感知图形布局的生成质量，并成功地在不受限制和受限制的环境中生成高质量的布局。

Abstract

content-aware graphic layout generation aims to automatically arrange visual elements along with a given content, such as an e-commerce product image. In this paper, we argue that the current layout generation approaches suffer from the limited →

content-aware graphic layout generation training data layout structure retrieval augmentation high-quality layouts

发现论文，激发创造

ALR-GAN: 自适应文本布局调整的图像合成

本文介绍了一种新型文本到图像生成网络 ALR-GAN，它利用自适应布局优化模块和布局细化损失来提高生成图像的布局结构。ALR-GAN 在文本到图像生成任务上表现良好。

Apr, 2023

递归自编码器用于文档布局生成

本文提出了一种名为 READ 的新框架，利用递归自动编码器生成大量和多样的文档 2D 布局，其中采用了一种递归的方法来提取文档的结构分解，并利用标注边界框的文档数据集对此进行了学习，从而获得了结构表示形式，并将其映射到高斯空间，从而生成新的文本布局，同时，还引入了一种组合度量来测量文档布局之间的结构相似性，并证明了所生成文档布局的高可变性和实际性，在文本检测任务中证明了所生成布局的作用。

Sep, 2019

用于医学教育中大规模非结构化文本数据的检索增强生成和代表性向量摘要化

本文讨论了检索增强生成模型在医学教育领域的应用，并提出了一种使用代表向量对大规模非结构化文本数据进行抽取和生成式摘要的方法。

Aug, 2023

大型语言模型的检索增强文本生成综述

Retrieval-Augmented Generation (RAG) 是一种合并检索方法和深度学习技术的方法，旨在通过动态整合最新的外部信息解决大型语言模型（LLMs）的静态限制，并通过使用真实世界的数据提供一种成本效益的解决方案来改进 LLMs 输出的准确性和可靠性。该研究将 RAG 范式分为四个类别，并从检索的角度提供了详细的视角，同时介绍了 RAG 的演进和领域的进展。此外，该论文还提出了针对 RAG 的评估方法，并提出了面临的挑战和未来的研究方向，旨在巩固现有的 RAG 研究，明确其技术基础，并突出其扩展 LLMs 的适应性和应用潜力。

Apr, 2024

几何对齐变分转换器用于基于图像条件的布局生成

本文探讨了一种新的图像条件布局生成的范式，通过采用自我关注机制和交叉关注机制来建立布局元素间的关系并结合条件图像的视觉信息生成各种布局，其中几何对齐模块可以消除元素域和视觉域之间的差距，在大规模广告海报布局设计数据集上进行的实验结果表明，我们的模型可以自适应地生成非侵入式区域的布局，从而实现和谐的布局设计。

Sep, 2022

大语言模型的检索增强生成：综述

大型语言模型（LLMs）在实际应用中仍面临幻觉、知识更新缓慢和答案透明度不足等挑战。检索增强生成（RAG）是指在 LLMs 回答问题之前从外部知识库中检索相关信息。该论文概述了 LLMs 时代 RAG 的发展范式，总结了三种范式：Naive RAG，Advanced RAG 和 Modular RAG。同时，它提供了 RAG 的三个主要组成部分：检索器、生成器和增强方法的摘要和组织，以及每个组件的关键技术。此外，论文讨论了如何评估 RAG 模型的有效性，并介绍了两种 RAG 的评估方法、重点指标和能力，以及最新的自动评估框架。最后，从垂直优化、水平可扩展性和 RAG 的技术堆栈和生态系统三个方面引入了潜在的未来研究方向。

Dec, 2023

面向大规模视频库的检索增强生成

通过使用大型语言模型（LLM）生成搜索查询，检索由语音和视觉元数据索引的相关视频片段，并将用户查询与此元数据集成以生成具有特定视频时间戳的响应，我们提出了一种在视频库中应用检索增强生成（RAG）的可互操作体系结构，该方法公有多媒体内容检索和人工智能辅助视频内容创建中潜在应用。

Jun, 2024

使用自适应对抗训练提升检索增强语言模型的抗噪能力

这项研究将大型语言模型与检索增强生成相结合，提出了一种名为 RAAT 的新的检索增强自适应对抗训练方法，通过适应性对抗训练动态调整模型的训练过程以应对检索噪声，并通过多任务学习确保模型内部识别噪声上下文的能力。实验证明，使用 RAAT 训练的 LLaMA-2 7B 模型在不同噪声条件下显著提高了 F1 和 EM 分数。

May, 2024

基于检索增强生成的大型语言模型的基准测试

通过对 Retrieval-Augmented Generation 对大型语言模型的影响进行系统调查和评估，本文发现大型语言模型在噪音鲁棒性、负面拒绝、信息整合和对抗性鲁棒性方面存在挑战，表明在将 RAG 有效应用于大型语言模型方面仍有很长的路要走。

Sep, 2023

基于检索的长尾视觉识别分类

提出了 Retrieval Augmented Classification (RAC) 方法，并应用于解决长尾分类问题，通过显式引入检索模块，使用非参数化外部内存信息显著提高了 Places365-LT 和 iNaturalist-2018 数据集的性能，尤其是在尾部类别上，为计算机视觉体系结构中更有效地利用外部存储器提供了替代方案。

Feb, 2022