利用大型语言模型在 NFDI4DataScience Gateway 中进行学术问题回答
使用 PaperQA,通过对科学文献进行信息检索,评估来源和段落的相关性,并利用 RAG 提供答案的方法,超越现有的 LLMs 和 LLM 代理在当前科学问答基准测试上的表现,使得该代理模型能够进行大规模、系统化的科学知识处理。
Dec, 2023
该论文提出了一种利用检索增强生成技术和迁移学习来处理教科书问答中领域外情况的方法,以处理复杂的语境和多模态数据,并改善推理能力。通过对 Llama-2 模型进行监督微调和引入 RAG,我们的架构在非图表多项选择题中相较于基线模型,在验证集上精度提升了 4.12%,在测试集上提升了 9.84%。
Feb, 2024
基于检索增强生成(RAG)的大规模语言模型(LLMs)在医学领域的知识密集型任务中表现出显著的性能提升,着重研究了利用 LLMs 和 RAG 框架回答基于医药数据库的查询问题,并提出了 Distill-Retrieve-Read 框架用于关键字搜索,实验结果证明了该框架在证据检索准确性方面的优势。
Apr, 2024
使用大型语言模型,该研究论文介绍了一种学术知识图谱问答(KGQA)系统,通过少量示例解决书目自然语言问题。模型使用基于 BERT 的句子编码器来识别与给定测试问题相关的前 n 个相似训练问题,并检索它们对应的 SPARQL 查询。利用前 n 个相似问题 - SPARQL 对作为示例以及测试问题创建提示,并将其传递给大型语言模型以生成 SPARQL 查询。最后,在底层知识图谱(Open Research KG)端点上运行 SPARQL 查询并返回答案。该系统在 Scholarly-QALD-23 挑战基准中的 SciQA 数据集上获得了 99.0% 的 F1 分数。
Nov, 2023
本文研究了领域特定的模型微调和推理机制对由大型语言模型(LLM)和检索增强生成(RAG)驱动的问答系统的性能的影响。通过使用 FinanceBench SEC 财务报告数据集,我们观察到,对于 RAG,将微调的嵌入模型与微调的 LLM 结合使用可以获得比通用模型更高的准确性,其中微调的嵌入模型所带来的收益相对更大。此外,在 RAG 之上使用推理迭代可以进一步提高性能,使问答系统更接近人类专家水平。我们讨论了这些发现的影响,提出了一个结构化的技术设计空间,涵盖了问答 AI 的主要技术组成部分,并为这些组成部分提供了高影响的技术选择建议。我们计划在本工作的基础上为 AI 团队提供具体指南,并进一步研究 RAG 中领域特定增强以及先进规划和推理等自主 AI 能力的影响。
Apr, 2024
为 Adobe 产品建立内部问答系统,提出了一种新的框架来编译大型问答数据库并发展了基于检索感知的大型语言模型微调方法,展示了微调检索器在最终生成中带来的重大改进,降低了生成过程中的幻觉并在上下文中保留了最新的检索信息以实现情境基础。
Apr, 2024
本研究提出了一个新颖的适应性问答框架,可以根据查询的复杂性动态选择最合适的策略,该策略可在回答问题时无缝地在迭代和单步检索增强型大型语言模型之间进行调整,同时适应多种查询复杂性,提高问答系统的效率和准确性。
Mar, 2024
开放领域问答(ODQA)作为信息系统中的关键研究领域已经崛起。现有方法采用两种主要范式来收集证据:(1)“先检索然后阅读” 范式从外部语料库中检索相关文档;(2)“先生成然后阅读” 范式使用大型语言模型(LLMs)生成相关文档。然而,两者都无法完全满足证据的多方面需求。因此,本文提出了 LLMQA,一种通用框架,将 ODQA 过程分为三个基本步骤:查询扩展、文档选择和答案生成,结合了基于检索和基于生成的证据的优势。由于 LLMs 展示了在各种任务中表现出的出色能力,我们在框架中指导 LLMs 担任多个角色,作为生成器、重新排序器和评估器,集成它们在 ODQA 过程中的协作。此外,我们引入了一种新颖的提示优化算法,以改进角色扮演提示,引导 LLMs 生成更高质量的证据和答案。在广泛使用的基准测试(NQ、WebQ 和 TriviaQA)上进行的大量实验结果表明,LLMQA 在答案准确性和证据质量方面达到了最佳表现,展示了其推进 ODQA 研究和应用的潜力。
Mar, 2024
通过将外部知识库融入到 Retrieval-Augmented Generation (RAG) 中,提出了一种名为 Dynamic-Relevant Retrieval-Augmented Generation (DR-RAG)的两阶段检索框架,用于改善文档检索的召回率和答案的准确性,同时保持高效性,通过对检索到的文档的贡献进行分类确定相对相关的文档,实验证明 DR-RAG 能显著提高答案的准确性,并在 QA 系统方面取得新的进展。
Jun, 2024
通过从科学文献中提取的信息,利用科学问答对生成的自动评估框架 SciQAG 表明,大型语言模型可用于从文献中提取关键知识的高质量科学问答对。
May, 2024