IRGAN:统一生成和判别信息检索模型的极小极大博弈
本研究旨在重新审视信息检索的生成式框架,并比较其与基于语义相似性的判别式模型在答案选择任务上的表现。同时,还展示了非似然损失对信息检索的有效性。
Oct, 2020
本文引入了一种无监督的辨别模型,用于在线文档检索。我们仅使用文本证据,通过无监督学习分布式词表示来避免显式特征工程。我们将我们的模型与最先进的无监督统计向量空间和概率生成方法进行比较,并发现我们的模型在大多数情况下可以与监督方法匹配,且算法成本较低,因此可以取得与所谓的基于档案的方法相同的检索性能水平。
Aug, 2016
信息检索系统 (IR) 是用户访问信息的关键工具,也是搜索引擎、问答系统和推荐系统等场景中被广泛应用的工具。本文综述了生成式信息检索 (GenIR) 的最新研究进展,涉及到生成式文档检索 (GR)、可靠响应生成以及 GenIR 系统的评估、挑战和未来前景。
Apr, 2024
提出了一种基于多个鉴别器网络来训练生成器的创新框架,通过更新分配给每个判别器的混合权重来反映生成器的进展情况,实验结果表明能够通过学习曲线来提高样本的质量和多样性。
Jul, 2018
本文提出一种新的学习策略,该策略基于双重分解方法,联合学习生成模型和判别模型,有效提高了它们的学习结果,并在 UD 树库上取得了 30 种语言的最新成果。
Aug, 2017
该论文提出了一种 kernel generative networks 方法,将深度鉴别网络转换为核生成网络,实现了鉴别模型和生成模型的协同配合,探讨了在低维环境下两种模型的应用时的理论和经验表现,证明了它比对应的鉴别学习方法更有效,并可以在样本量较少时实现更优的表现,不仅可以获得更平滑的后验概率,而且可以超出训练数据的凸包范围,更好地处理 OOD 输入。
Jan, 2022
本教程讨论了 GAN 技术及其在不同信息检索场景下的离散数据拟合的变体,着重介绍了 IRGAN 的基本 GAN 框架和直接应用在信息检索中拟合单个 ID 数据分布,以及 GAN 在生成文本和图形数据等方面的解决方案,并介绍了 IRGAN 和 Texygen 等相关开源平台来帮助研究者进行有关 GAN 的信息检索实验,最后对 GAN 在信息检索中未来研究方向进行了综合总结和展望。
Jun, 2018
UniGen 是一种集成了生成式检索和问答功能的统一生成模型,通过使用大型语言模型,UniGen 采用一个共享编码器和两个不同的解码器,引入连接器来弥补查询输入和生成目标、文档标识符和答案之间的差距,并提出了一种迭代增强策略来通过生成的答案和检索的文档迭代地改进两个任务,在 MS MARCO 和 NQ 数据集上的广泛实验证明了 UniGen 在检索和问答任务中具有优越的性能。
Dec, 2023
通过综述 Generative Retrieval(GR)的关键发展、索引和检索策略和挑战,讨论了具有挑战性的生成查询质量、可学习文档标识符、可扩展性和多任务学习框架等未来研究方向,旨在为 GR 提供基础理解并激发信息检索领域的进一步创新。
Jun, 2024
通过对生成法和判别法进行比较分析,研究聚焦于从各种来源获取信息的不确定性感知推断,以及对半监督学习的兼容性,推导出一般的采样方案,从后验预测分布中获得监督学习和半监督学习。
Jun, 2024