- CHIQ:上下文历史增强对话式搜索中查询重写的提升
研究论文通过利用开源大规模语言模型(LLMs),在改进会话搜索中,特别是对于歧义查询的查询重写方面,研究了如何有效地部署。通过引入 CHIQ,一个利用 LLMs 在查询重写之前解决会话历史中歧义的两步方法。与先前的研究不同,该方法主要使用闭 - 我们能利用大型语言模型填补相关性评判空缺吗?
利用大型语言模型填补测试集中的空缺,以扩展现有的测试集合,并找出人工注释与自动注释的一致性差异,从而更好地满足人类需求的工作。
- 聊天检索器:将大型语言模型用于通用和鲁棒的对话密集检索
ChatRetriever 是一个通过对比学习调整的对话式检索模型,能够准确解读用户意图并表示复杂对话会话,通过在高质量对话指令数据上进行掩码训练进一步提升对话理解,实验证明在五个对话式检索基准上 ChatRetriever 显著优于现有模 - 对话式搜索和推荐的概念框架:在对话式搜索过程中概念化代理人与人类的互动
该研究论文提供了关于代理人和用户之间对话式搜索过程的概念化,为对话式搜索代理开展研究、开发和评估提供了框架和起点。
- WWWConvSDG:面向对话式搜索的会话数据生成
基于大型语言模型的 ConvSDG 框架通过生成对话数据来提高对话式搜索的性能,并在四个广泛使用的数据集上展现了其有效性和广泛适用性。
- PAQA:面向主动开放式检索的问题回答
为了解决会话式搜索系统中存在的问题,本文提出了 PAQA,这是 AmbiNQ 数据集的扩展,通过考虑用户查询和文档中存在的歧义,生成相关的澄清问题,并评估各种模型以及检索过程对歧义检测和澄清问题生成的影响。
- 最佳问题询问:将大型语言模型与检索器在对话式搜索中的偏好进行对齐
通过 RetPO 框架,使用 Retrievers' Feedback 构建了一个大规模数据集,属于对话语境下的问题重述,并通过该数据集对较小的语言模型进行了微调,从而在两个最新的对话式搜索基准测试中实现了最新、显著超越包括 GPT-3.5 - 通过 LLM-Cognition 数据增强来概括对话式密集检索
通过 LLM - 认知数据增强(ConvAug)的方式,本文提出了一个泛化会话密集检索的框架,生成多级增强会话以捕捉会话上下文的多样性,利用认知感知过程减少误报、漏报和幻觉,通过难度自适应的样本筛选改进模型的学习空间,采用对比学习目标训练更 - 生成回声室?LLM 驱动的搜索系统对多样化信息检索的影响
利用大型语言模型(LLM)驱动的对话式搜索系统已经被数亿人使用,并被认为相较于传统搜索带来许多优势。然而,尽管几十年的研究和公众讨论揭示了搜索系统在增加选择性暴露和形成回声室方面的风险 —— 限制了对多样观点的接触,导致意见极化,对于 LL - 历史感知的对话密集检索
通过上下文消噪的查询重构和根据历史转折的实际影响自动挖掘监督信号,提出了一种历史感知对话稠密检索系统,实验证明了 HAConvDR 在长对话中具有改进的历史建模能力。
- EMNLP加强对话式搜索:大型语言模型辅助的信息性查询改写
通过利用大型语言模型作为查询重写器,并结合精心设计的指令,我们定义了四个重写的关键属性,提出了基于大型语言模型的查询重写方法。我们还介绍了 LLMs 的重写能力的提炼,并采用 “先重写后编辑” 的方法来处理初始查询重写。实验结果在 QReC - CONVERSER:基于合成数据生成的小样本对话稠密检索
使用 CONVERSER 框架,在最多 6 个领域对话示例的情况下,利用大规模语言模型的上下文学习能力为基于对话的密集重排进行训练,实验结果表明所提出的框架在少样本对话密集重排中取得了可比较的性能。
- 面向对话式搜索的零次查询重构
通过无监督对话查询改写,解决了普遍存在的语义歧义和遗漏问题,提升了零样本会话搜索的性能和可解释性。
- ACL基于自监督的会话式搜索后训练
本篇论文提出了一种名为 SSPT 的后训练范式,通过三个自监督任务以及有效的实现来初始化会话式搜索模型以增强对话结构与语境语义的理解,并表明该方法能够提高多个现有会话式搜索方法的性能。
- KDD学习在对话式搜索中与先前交谈内容的关联
本文提出了一种新的方法来选择与当前查询相关且有用的历史查询,采用伪标记法进行注释,结合多任务学习框架并在微调过程中进行选取模型和检索模型联合训练,提高对话式搜索中检索效果。
- ACLConvGQR: 面向对话搜索的生成查询改写
本文提出了 ConvGQR 的框架,该框架基于生成预训练语言模型,一种用于查询重写,另一种用于生成潜在答案。通过结合两者,ConvGQR 可以产生更好的搜索查询。此外,我们提出了一种知识注入机制来优化查询重写和检索,实验表明 ConvGQR - SIGIR查询性能预测:从即席查询到会话式搜索
本文研究了在对话检索(CS)场景下,已有的查询预测方法的有效性和适用性,并探讨了一些新的查询性能预测挑战,研究发现:(i)仅在大规模训练集可用时,受监督的 QPP 方法明显优于无监督的对应物;(ii)对于大多数情况,点对点受监督的 QPP - 对话式搜索的零样本澄清性问题生成
本文提出了使用零样本学习生成澄清问题的方案,并且通过问句模板和查询维度来引导澄清问题的生成,实验结果表明,该方法在自然度、有效性和多样性等方面表现优异。
- 探究面向领域探索的对话式搜索行为
本文研究了如何设计对话式搜索系统以协助用户在不熟悉的领域进行信息探索,并通过实验研究采用统计分析和过程挖掘技术发现了用户在不同领域中的一般信息需求类型和对话行为,从而得出了为对话式搜索系统提供设计建议的结论。
- EMNLP从无标签文件生成信息需求对话
本文介绍了一种机器学习框架 SIMSEEK,可用于合成 2M 条 CQA 对话,并且在 QuAC 基准测试中实现了最先进的性能