CarExpert:利用大型语言模型实现车载对话问答
通过人工评估,我们发现使用InstructGPT在NQ-open取得了新的最优结果,且所有模型的真实性能均被显著低估,同时超过50%的词汇匹配失败归因于意义相当的答案, 正则匹配排名与人类判断一致
May, 2023
为了有效评估 Large Language Models(LLMs) 使用外部工具回答问题的能力,我们开发了一个名为 ToolQA 的新数据集,并使用可伸缩的自动化过程进行数据集的管理,并使用13种专门设计的工具进行交互以回答问题。
Jun, 2023
本文旨在研究不同的方法将检索到的段落与大型语言模型相结合,以提高答案生成能力,并通过综合分析和实验证明了有效利用检索到的段落来增强大型语言模型答案生成能力的见解。
Aug, 2023
为应对可扩展且智能的问答挑战,我们引入了一种创新解决方案,利用开源的大型语言模型(LLMs)来确保数据隐私。我们在一个入门计算机科学课程的 Piazza 数据集上进行了实验,并对一个小的子集进行了人工评估和自动 LLM 评估。我们初步发现通过多种建模技术能够将答案的质量提升33%,而 RAG 是一个有影响力的改进。这项工作为开发适用于在线问答平台的智能 QA 助手 ChaTA 打下了基础。
Nov, 2023
开放领域问答(ODQA)作为信息系统中的关键研究领域已经崛起。现有方法采用两种主要范式来收集证据:(1)“先检索然后阅读”范式从外部语料库中检索相关文档;(2)“先生成然后阅读”范式使用大型语言模型(LLMs)生成相关文档。然而,两者都无法完全满足证据的多方面需求。因此,本文提出了LLMQA,一种通用框架,将ODQA过程分为三个基本步骤:查询扩展、文档选择和答案生成,结合了基于检索和基于生成的证据的优势。由于LLMs展示了在各种任务中表现出的出色能力,我们在框架中指导LLMs担任多个角色,作为生成器、重新排序器和评估器,集成它们在ODQA过程中的协作。此外,我们引入了一种新颖的提示优化算法,以改进角色扮演提示,引导LLMs生成更高质量的证据和答案。在广泛使用的基准测试(NQ、WebQ和TriviaQA)上进行的大量实验结果表明,LLMQA在答案准确性和证据质量方面达到了最佳表现,展示了其推进ODQA研究和应用的潜力。
Mar, 2024
为Adobe产品建立内部问答系统,提出了一种新的框架来编译大型问答数据库并发展了基于检索感知的大型语言模型微调方法,展示了微调检索器在最终生成中带来的重大改进,降低了生成过程中的幻觉并在上下文中保留了最新的检索信息以实现情境基础。
Apr, 2024
我们提出了一个面向开放域会话问答 (OCQA) 的会话动作链 (Conv-CoA) 框架,用于解决现有文献中的三个主要挑战:与实时或领域事实不一致的虚假幻觉、会话场景中弱推理能力以及在会话信息检索方面表现不理想。我们的关键贡献是一种动态推理检索机制,它提取问题的意图,并将其分解为通过系统提示、预先设计的操作、更新上下文知识集 (CKS) 和一种新颖的 Hopfield 检索器来解决的推理链。在方法论上,我们提出了一种资源高效的 Hopfield 检索器,以增强我们的操作中会话信息检索的效率和准确性。此外,我们提出了一种会话多参考信任分数 (Conv-MRFS),以验证和解决会话中检索到的知识与答案之间的冲突。在实证方面,我们在五个不同的研究方向和两个公共基准上将我们的框架与 23 种最先进的方法进行比较。这些比较表明我们的 Conv-CoA 在准确性和效率两个维度上优于其他方法。
May, 2024
提出了一种称为问题和路径增强的简单而有效的方法,通过对原始问题进行多步子问题的扩充和规划,从而提升检索性能,以及通过语言模型生成的自我生成路径来指导答案抽取,实验证明该方案优于现有技术且在现有的检索-生成模型中实现了显著的性能提升。
Jun, 2024
本研究解决了大语言模型在知识密集型领域任务中的信息幻觉和知识截止问题,提出了SMART-SLIC框架,通过结合检索增强生成与知识图谱及向量存储,避免了对大语言模型的依赖。研究表明,该框架能够有效提高特定领域的问答准确性,并减少微调需求,具有广泛的适应性和潜在应用价值。
Oct, 2024