基于 CFLIS 和 MGR-LAU 的用户意图识别和语义缓存优化的查询处理框架
基于知识库的问答(KBQA)旨在根据知识库来回答事实性问题。本研究针对无人系统中的知识图推理问答的 CCKS2023 竞赛,在 ChatGPT 和 GPT-3 等大型语言模型在许多问答任务中取得的最近成功的启发下,提出了基于 ChatGPT 的 Cypher 查询语言(CQL)生成框架,从给定的自然语言问题中生成最适合的 CQL 查询。我们的生成框架包括六个部分:根据给定的自然语言问题预测 CQL 的语法相关信息的辅助模型,从给定的自然语言问题中提取专有名词的专有名词匹配器,检索输入样例的相似示例的演示示例选择器,设计 ChatGPT 的输入模板的提示构造器,生成 CQL 的 ChatGPT 模型,以及从多样化的输出中获取最终答案的集成模型。凭借我们的基于 ChatGPT 的 CQL 生成框架,我们在 CCKS 2023 无人系统知识图推理问答竞赛中获得第二名,F1-score 为 0.92676。
Nov, 2023
本文提出了一种基于标记级精细化查询理解的通用、模块化的神经语义分析框架,包括命名实体识别器(NER)、神经实体链接器(NEL)和神经语义解析器(NSP),该框架联合建模查询和数据库,并基于动态生成的语法合成基于树结构的 SQL 查询。实验证明,该模型在 SQUALL 数据集上的执行准确率达到了 56.8%,超过了现有技术水平 2.7%。
Sep, 2022
运用大语言模型生成的查询扩展可以显著增强信息检索系统,但由于模型的知识有限,导致扩展与检索语料库之间存在错位、产生幻觉和过时信息等问题。为了解决这些挑战,本文提出了基于语料库导向的查询扩展方法,利用大语言模型的相关性评估能力系统地识别初始检索文档中的关键句子,并将这些基于语料库的文本与大语言模型扩展的结果一起用于查询扩展,从而提高查询和目标文档之间的相关性预测。通过广泛的实验证明,该方法在没有任何训练的情况下表现出强大的性能,尤其适用于大语言模型缺乏知识的查询。
Feb, 2024
MeanCache 是一种用于 LLM 的语义缓存,通过识别语义相似的查询来确定缓存是否命中,降低了计算成本,服务提供者负载和环境影响,同时使用联邦学习在各个用户之间进行分布式训练查询相似性模型,不违反隐私。与 GPTCache 相比,MeanCache 在语义缓存命中与未命中的决策中取得了大约 17% 的 F - 得分增加和 20% 的精确度增加,并且在减少存储需求方面有了 83% 的提升和在语义缓存命中与未命中的决策加速方面有了 11% 的提升,仍然超过了 GPTCache。
Mar, 2024
在电子商务搜索中,搜索查询的变化构成了挑战,因为等效的搜索意图可以通过不同的查询表达出来。本文介绍了一个框架,以识别和利用查询等效性来增强搜索者和商业结果。该方法解决了三个核心问题:将查询映射到搜索意图的向量表示、识别表示等效或相似意图的最近邻查询、以及针对用户或业务目标进行优化。该框架利用表面相似性和行为相似性来确定查询等效性。表面相似性涉及基于单词变化、单词顺序、合成以及噪声词对查询进行规范化。行为相似性利用历史搜索行为生成查询意图的向量表示。离线过程用于训练句子相似性模型,而在线的最近邻方法支持处理未见过的查询。实验评估表明了该方法的有效性,优于流行的句子转换模型,并实现了 0.85 的查询相似性皮尔逊相关系数。结果突显了利用历史行为数据和训练模型来识别和利用电子商务搜索中的查询等效性的潜力,提升用户体验和业务结果。鼓励进一步的进展和基准数据集,以促进解决电子商务领域中这一关键问题的解决方案的发展。
Aug, 2023
本文提出了一种使用大语言模型的通用交互式查询重写框架,旨在提高透明性和意图理解能力,并改变传统的意图理解方法;在初步实验的支撑下,通过自然语言表达、交互和推理机器意图,取得了显著的排序性能提升。
Jun, 2023
通过与用户与搜索引擎的交互历史相关的上下文,我们提出了一种新颖且通用的方法,用于个性化输出,这对于理解用户当前的搜索背景以及他们历史上知道和关心的内容是必要的。我们验证了我们的方法在上下文查询建议的任务上优于几个其他 LLM 基准方法,生成了在上下文中更相关、个性化和有用的查询建议。
Nov, 2023