用于语义缓存测试输入生成的 LLM
最近大规模语言模型能力的进步引发了对其评估的新浪潮,这篇研究工作通过在自然语言和形式语言之间的相互转换来验证大规模语言模型理解和生成结构化逻辑形式的能力,实验证明现今最先进的大规模语言模型在理解逻辑形式方面整体上接近人类水平,但在生成正确逻辑形式方面仍有改进的空间,使用大规模语言模型生成更自然的语言训练数据以增强小型模型的效果更好,同时结果还表明模型对不同形式语言表现出显著的敏感性,总体而言,形式化程度较低、更接近自然语言的形式语言对大规模语言模型更友好。
Jan, 2024
该研究探讨了大型语言模型 (LLMs) 在具有挑战性的条件问答领域中的能力和局限性。利用条件问答 (CQA) 数据集,重点关注 T5 和 UL2 等生成模型,我们评估了 LLMs 在不同问题类型上的性能。研究发现,经过微调的 LLMs 在某些情况下可以超越现有技术在一些方面的表现,即使没有完全编码所有输入上下文,对于是 / 否问题的精确匹配 (EM) 和 F1 分数有 7-8 个点的增加。然而,这些模型在抽取性问答方面遇到了挑战,在与现有技术相比落后于 10 个以上的点,并且在减少注入错误信息的风险方面也存在问题。与神谕检索器进行的一项研究强调了有效证据检索的关键作用,强调了该领域需要先进解决方案的必要性。此外,我们强调了评估评价指标对性能评估的重要影响,并倡导使用更全面的评估框架。任务的复杂性、观察到的性能差异以及在条件问答任务中改进训练任务和探索基于提示的技术以提高 LLMs 性能的未来工作的需求,突显了这一领域面临的持续挑战。
Dec, 2023
大型语言模型可用于定量信息检索,以帮助数据分析任务,如贝叶斯模型的先验分布以及缺失数据的插补。我们提出了一个提示工程框架,将大型语言模型视为科学文献的潜在空间界面,并与其他已建立的方法进行比较。同时讨论了使用大型语言模型作为 “专家” 的影响和挑战。
Feb, 2024
通过与用户与搜索引擎的交互历史相关的上下文,我们提出了一种新颖且通用的方法,用于个性化输出,这对于理解用户当前的搜索背景以及他们历史上知道和关心的内容是必要的。我们验证了我们的方法在上下文查询建议的任务上优于几个其他 LLM 基准方法,生成了在上下文中更相关、个性化和有用的查询建议。
Nov, 2023
MeanCache 是一种用于 LLM 的语义缓存,通过识别语义相似的查询来确定缓存是否命中,降低了计算成本,服务提供者负载和环境影响,同时使用联邦学习在各个用户之间进行分布式训练查询相似性模型,不违反隐私。与 GPTCache 相比,MeanCache 在语义缓存命中与未命中的决策中取得了大约 17% 的 F - 得分增加和 20% 的精确度增加,并且在减少存储需求方面有了 83% 的提升和在语义缓存命中与未命中的决策加速方面有了 11% 的提升,仍然超过了 GPTCache。
Mar, 2024
我们通过手动创建一个高质量的事实问答近义词语料库,并与先前工作中的其他相关度量标准相结合,以评估现代大型语言模型(LLMs)的语义一致性,以构建和评估一个用于事实问答参考无关性能预测的框架 -- 预测语言模型准确回答问题的可能性。通过对五个现代 LLMs 对该框架进行评估,我们展示了令人鼓舞的结果,显著超越了基线水平。
Nov, 2023
本研究探索了大型语言模型在教育应用中的能力,重点关注概念图恢复和问题回答。研究通过引入 TutorQA,一个新的专家验证的自然语言处理基准,评估了大型语言模型在领域特定的概念图和问题回答中的性能,证明其零 - shot 概念图恢复具有竞争力,且 CGLLM 生成的答案具有更精细的概念。
Feb, 2024