利用互联网优化大型语言模型
通过与用户与搜索引擎的交互历史相关的上下文,我们提出了一种新颖且通用的方法,用于个性化输出,这对于理解用户当前的搜索背景以及他们历史上知道和关心的内容是必要的。我们验证了我们的方法在上下文查询建议的任务上优于几个其他 LLM 基准方法,生成了在上下文中更相关、个性化和有用的查询建议。
Nov, 2023
使用 NLP 和多模式学习,该论文介绍了如何通过搜索引擎检索来增强预训练模型,从而在测试时从互联网中检索到有用的数据,并更新模型以解决模型的不确定性,取得了零样本性能的显著改进。
Nov, 2023
通过在复杂环境中使用 WebArena 基准测试,我们探索了大语言模型在长期任务中作为代理人自我提升性能的程度,通过自我改进的方式,在三种不同的合成训练数据混合情况下,我们实现了在 WebArena 基准测试中任务完成率的 31%提高,并额外提供了用于评估我们精调代理模型的性能、鲁棒性、功能和轨迹质量的新型评价指标。
May, 2024
将大型语言模型与搜索引擎服务相结合,为服务计算领域带来重大变革,本文深入研究了如何整合大型语言模型和搜索引擎以互惠互利。重点关注两个主要方面:使用搜索引擎改进大型语言模型 (Search4LLM) 和使用大型语言模型增强搜索引擎功能 (LLM4Search)。
Jun, 2024
提出了一种自动生成大量数据增强指令并选择最适合任务的指令的新解决方案,从而赋予 LLM 创建高质量增强数据用于不同的下游任务的能力。在 26 个少样本学习任务中,该方法一致生成比非 LLM 和基于 LLM 的数据增强方法质量更好的增强数据,表现最佳。
Apr, 2024
这篇论文旨在研究大型语言模型的文档检索能力。实验表明,通过提供少量上下文演示,大模型可以直接生成正确答案的网址,相比于目前的检索方法在开放领域问答中表现更佳。
May, 2023
利用大型语言模型(LLM)的知识构建了一个新的生成检索框架,以提高相关性和直接回答搜索问题的能力,验证生成结果的可靠性和贡献来源的可信度,实现了在 LLM 时代的 “PageRank”。该框架包括生成器、验证器和优化器三个核心模块,分别关注生成可信任的在线来源、验证来源可靠性以及优化不可靠的来源。通过广泛的实验和评估,证明了我们方法在相关性、负责性和可信性上对多种最先进方法的优越性。
Oct, 2023
大型语言模型(LLM)在训练时使用了大量的代码,表现出了对 HTML 代码的卓越理解能力。因为 Web 界面主要使用 HTML 构建,所以我们进行了深入研究,探讨 LLM 如何用于在 Web 界面中检索和定位用户查询(即任务描述)的重要元素。与以往主要侧重于自主 Web 导航的研究不同,我们将问题分解为一个更为原子化的操作 - LLM 能否识别 Web 页面中对用户查询重要的信息?这种分解使我们能够审视 LLM 的当前能力并揭示其所带来的机遇和挑战。我们的实证实验证明,虽然 LLM 在检索重要的用户界面元素方面表现出了合理的性能水平,但仍然有很大的改进空间。我们希望我们的研究能够激发在这一领域克服当前挑战的后续工作。
Dec, 2023