生成文档检索的瓶颈最小化索引

ICMLMay, 2024

Bottleneck-Minimal Indexing for Generative Document Retrieval

Xin Du, Lixin Xiu, Kumiko Tanaka-Ishii

TL;DR利用信息论的视角重新思考生成式文档检索（GDR）问题，我们使用神经自回归模型将查询与索引进行匹配，通过应用香农的速率失真理论，我们分析索引的最优性并提出了一种最小瓶颈索引方法，在 NQ320K 和 MARCO 数据集上验证了该方法的优越性。

Abstract

We apply an information-theoretic perspective to reconsider generative document retrieval (GDR), in which a document $x \in X$ is indexed by $t \in T$, and a neural autoregressive model is trained to map queries $Q$ to $T$. GDR can be considered to involve →

generative document retrieval neural autoregressive model information transmission bottleneck indexing

发现论文，激发创造

检索增强生成中有效的噪音过滤的信息瓶颈视角

检索增强生成结合了大语言模型的能力和从广泛语料库检索到的相关信息，但在面对现实世界的噪声数据时面临挑战。本文提出将信息瓶颈理论引入检索增强生成，通过同时最大化压缩和生成结果的互信息，最小化压缩和检索到的内容之间的互信息，实现对噪声的过滤。实验结果表明，我们的方法在各种问答数据集中取得显著的改进，不仅在答案生成的正确性方面，而且在 2.5% 的压缩率下的简洁性方面也有明显提升。

Jun, 2024

生成式密集检索：内存可能成为负担

提出了生成检索（GR）和生成稠密检索（GDR）两种机制，通过克服记忆机制的精度、记忆混淆和记忆更新成本等问题，在小规模语料库中实现了较好的检索性能和可扩展性。

Jan, 2024

离散和高斯源的分布式信息瓶颈方法

研究多个编码器分别以某种方式压缩其观察结果的分布式信息瓶颈问题，建立单字母表征信息率区间的模型，并针对离散无记忆源和无记忆向量高斯源，提出 Blahut-Arimoto 类型的迭代算法，通过迭代一组自洽方程来计算最优的信息率与复杂度之间的权衡。

Sep, 2017

关于信息瓶颈问题：模型、连接、应用和信息论视角

本文主要讨论信息瓶颈问题，包括如何解决它、与编码和学习方面的联系，以及其对分布式信息瓶颈问题和高斯模型的扩展。同时探讨其与自动编码器、表征学习、变分推断和通用重建等方面的紧密联系。

Jan, 2020

利用信息瓶颈进行科学文档摘要

使用信息熵原理，提出了无监督的文档摘要方法，通过两个单独步骤在信号查询和句子搜索和编辑之间进行。使用预训练的语言模型返回最终提取的摘要结果，验证了在三个科学文献集上的有效性，同时人类评估表明此方法包含了更多的内容方面。

Oct, 2021

生成式信息检索综述

通过综述 Generative Retrieval（GR）的关键发展、索引和检索策略和挑战，讨论了具有挑战性的生成查询质量、可学习文档标识符、可扩展性和多任务学习框架等未来研究方向，旨在为 GR 提供基础理解并激发信息检索领域的进一步创新。

Jun, 2024

信息瓶颈问题及其在机器学习中的应用

该论文介绍了信息瓶颈理论作为一种信息理论范例来分析机器学习中使用深度学习等算法进行降维操作的有效性，并总结了其在深度学习理论中的重要性和实际算法的启示。

Apr, 2020

非线性信息瓶颈

该研究提出了一种方法，通过神经网络来实现将任意分布的离散和 / 或连续变量进行信息瓶颈编码和解码，并允许使用非线性映射，该方法通过一种新颖非参数上界来实现最大信息提取，相较于其他方法在多个真实数据集上表现更好。

May, 2017

事件 GDR：以事件为中心的生成式文档检索

提出了 Event GDR，一种以事件为中心的生成式文档检索模型，通过将事件知识集成到任务中，解决了忽略文档内部内容相关性和标识符构建缺乏明确语义结构的两个挑战。通过多代理的交换 - 反射方法来进行事件知识提取，利用事件和关系对文档进行建模以保证全面性和内部内容相关性，将事件映射到明确的事件分类法构建标识符。实验证明，该方法在两个数据集上明显优于基线，并希望为未来的研究提供启示。

May, 2024

信息瓶颈方法

该研究提出了一种在信号处理和学习中使用的方法，通过压缩信号 $x$ 来提取其对另一个信号 $y$ 的最大信息，使用一组有限的编码词 $tX$ 来限制信息流，并使用 Blahut-Arimoto 算法求解编码规则。

Apr, 2000