- 搜索引擎服务与大规模语言模型相遇:愿景与挑战
将大型语言模型与搜索引擎服务相结合,为服务计算领域带来重大变革,本文深入研究了如何整合大型语言模型和搜索引擎以互惠互利。重点关注两个主要方面:使用搜索引擎改进大型语言模型 (Search4LLM) 和使用大型语言模型增强搜索引擎功能 (LL - 泛模态信息交互
生成式人工智能正在改变信息交互,对搜索引擎进行全面的改进以支持多种搜索和聊天交互方式是一个重要研究领域。
- 通过自动化搜索结果验证和重新排序提高技术 “如何做” 查询的准确性
通过自动化搜索结果验证和重新排序的方法,该论文提出了改善在线技术支持搜索结果准确性和相关性的新方法。通过解释和执行搜索结果中的逐步说明,并将搜索结果成功指标整合到重新排序机制中,论文详细介绍了解决方案的架构和全面评估结果。实验结果表明,在排 - 增强生成语言模型中的句子嵌入的简单技术
本研究挑战了从预训练语言模型(PLMs)中获得句子嵌入所必须的显式单字限制的普遍观点,并通过实验证明了这种方法对于判别模型或生成型 PLMs 的精调并非必需。在此基础上,我们提出了两种创新的提示工程技术,可以进一步增强 PLMs 原始嵌入的 - 无偏学习排名遇到现实:来自百度大规模搜索数据集的教训
通过对百度搜索引擎的实时数据集开展实证研究,发现无偏学习排序技术在点击预测方面有明显的性能提升,但这并不转化为在专家相关性标注中的排名性能改进,表明结论在很大程度上取决于基准评估方法。
- 使用生成式搜索引擎进行知识工作和复杂任务
基于 Bing Copilot(Bing 聊天)的实证分析结果显示,人们使用生成式搜索引擎进行更高认知复杂度的知识工作任务,相较于传统搜索引擎。
- 构建知识:探索基于聊天的搜索引擎的创造性机制
该研究揭示了基于大型语言模型的聊天搜索引擎在选择信息来源时偏好可读性强、结构规范、同时具有较低困惑度的文本,这种文本偏好在 Bing 聊天和 RAG API 中一致出现,暗示这种文本偏好是由底层语言模型自发形成的。此外,研究还发现 RAG - 小型模型,大洞见:利用精简代理模型决定何时和何物为大型语言模型检索
通过代理模型 SlimPLM 在问题 - 回答任务中,检测大型语言模型(LLMs)中缺失的知识,并大幅提升 LLMs 的端到端性能,降低 LLM 推理成本。
- 搜索引擎后 ChatGPT:生成人工智能如何使搜索更不可靠
搜索引擎在生成式人工智能(GenAI)开始生成、索引和分发内容时面临挑战,包括事实不一致和偏见。GenAI 输出带有不合理的可信度,降低了透明性和信息来源能力,搜索引擎已经通过错误内容回答问题,进一步模糊了信息的来源,影响信息生态的完整性。 - 组织病理学图像搜索引擎的分析和验证
在组织学和组织病理学影像档案中搜寻相似影像是一项关键任务,可用于患者匹配,从分类、诊断到预后和预测的各个方面。本文详细分析和验证了四种搜索方法(包括视觉词袋、Yottixel、SISH 和 RetCCL),其算法和结构进行了评估,同时提出需 - 大型搜索模型:在 LLMs 时代重新定义搜索架构
通过统一搜索任务,大规模语言模型框架重新定义了传统的搜索栈,利用其强大的语言理解和推理能力,提高搜索结果质量并简化搜索系统。
- 一个用例:将查询重写重新定义为统计机器翻译问题
该论文提出了一个基于单语机器翻译模型的查询重写流程,用于学习重写阿拉伯用户搜索查询,并描述了创建用户查询和网页标题之间映射的预处理步骤。
- 大型语言模型协助人类验证真实性 -- 除非其错得令人信服
通过与搜索引擎进行对比实验证明,大型语言模型虽然能提高事实核查的效率,但在解释错误的情况下容易让用户过分依赖,因此在高风险环境中不宜将其作为阅读检索内容的可靠替代品。
- 个性化的改写提示增强文本生成图像
我们提出了一种将大型预训练模型视为搜索引擎的新视角,从而使以前用于提高搜索引擎性能的技术得以重新应用。通过个性化查询重写技术的示例,我们在文本到图像生成领域使用了这种视角。尽管该领域取得了显著进展,但仍然很难创建与个体用户的期望和偏好密切对 - 超越语义:学习行为增强的相关性模型与自监督学习
我们提出了一种 Behavior Augmented Relevance Learning 模型,通过利用邻居查询和邻居项来补充目标查询 - 项语义匹配,从而改进了 Alipay Search 的准确性和鲁棒性。实验结果显示我们的提案在低延 - 基于机器人协议的网页爬虫策略
介绍了搜索引擎如何使用搜索算法,通过网络爬虫获取网页并提供方便的搜索结果,以及 webmaster 如何使用机器人排除协议以限制网络爬虫的访问。
- 音乐行业的搜索引擎和推荐系统 —— 基于 JinaAI 的构建
在音乐界的搜索引擎和推荐系统开发过程中,Jina AI 是一种用于构建神经搜索引擎的 MLOps 框架,它有效帮助维护和提升查询给出的搜索引擎和推荐系统的性能质量。
- MM基于季节性的电子商务自动补全的自然语言查询再排序
提出了一种基于神经网络的自动补全排名模型的自然语言处理算法,将季节性作为信号加入到自动补全排名模型中,以提高补全的相关性和业务指标。
- HAGRID:人机合作生成性信息搜索的数据集
通过构建 HAGRID 数据集,该文研究了大型语言模型对搜索引擎的影响,为开发具有更好归因能力的信息寻找模型提供了新的数据资源。
- ChatGPT 与 Google:搜索性能和用户体验的比较研究
本研究探讨了使用搜索引擎和聊天机器人工具进行信息寻求任务时用户行为的差异,并表明 ChatGPT 组在所有任务中花费的时间都较少,用户反馈的用户体验显著更好,然而,ChatGPT 还可能会导致过度依赖并产生或复制错误信息。