HiQA:一种用于大规模文档 QA 的层次上下文增强 RAG 模型
使用 PaperQA,通过对科学文献进行信息检索,评估来源和段落的相关性,并利用 RAG 提供答案的方法,超越现有的 LLMs 和 LLM 代理在当前科学问答基准测试上的表现,使得该代理模型能够进行大规模、系统化的科学知识处理。
Dec, 2023
通过将外部知识库融入到 Retrieval-Augmented Generation (RAG) 中,提出了一种名为 Dynamic-Relevant Retrieval-Augmented Generation (DR-RAG)的两阶段检索框架,用于改善文档检索的召回率和答案的准确性,同时保持高效性,通过对检索到的文档的贡献进行分类确定相对相关的文档,实验证明 DR-RAG 能显著提高答案的准确性,并在 QA 系统方面取得新的进展。
Jun, 2024
当前研究发现,基于高质量文本语料的专业知识问答系统的有效性受到 PDF 解析准确度的限制。一项实证实验表明,配备全景式和精准的 PDF 解析器的 RAG 系统 ChatDOC 能够检索更准确、更完整的片段,并给出更好的答案。实证实验显示,在接近 47% 的问题上,ChatDOC 优于基线系统,在 38% 的情况下相当,仅在 15% 的情况下表现不及。这表明通过提高 PDF 结构识别技术,我们可能革新 RAG。
Jan, 2024
该论文提出了一种利用检索增强生成技术和迁移学习来处理教科书问答中领域外情况的方法,以处理复杂的语境和多模态数据,并改善推理能力。通过对 Llama-2 模型进行监督微调和引入 RAG,我们的架构在非图表多项选择题中相较于基线模型,在验证集上精度提升了 4.12%,在测试集上提升了 9.84%。
Feb, 2024
通过引入细粒度检索扩充和自我验证等方法,我们在对话型问答系统中提出了一种具有检索增强生成能力的方法,通过协同工作的对话型问题精炼器、细粒度检索器和基于自我验证的回答生成器,实现了问题理解和相关信息获取,实验证明了我们方法在现有基准算法上的巨大优势,同时我们还发布了一个包含重组问题、关键词提取、检索段落及其有用性的中文对话型问答数据集,以促进对 RAG 增强的对话型问答的进一步研究。
Mar, 2024
学习改进查询以实现检索增强生成,通过加入外部相关文档,使模型具备显式重写、分解和消歧的能力,并在各种问题回答数据集中取得了优于现有方法的表现。
Mar, 2024
提出了一种新颖的 “Collaborative Retrieval-Augmented Generation” 框架 DuetRAG,以同时整合领域微调和 RAG 模型,提高知识检索质量,从而提高生成质量。最后,在 HotPot QA 上展示了 DuetRAG 与专业人类研究人员的匹配。
May, 2024
检索增强生成(RAG)通过为文档问答等任务提供额外的上下文大大提升了语言模型(LMs)的能力。在研究框架 RAGGED 下,我们研究了代表性的文档问答任务,观察了两种经典的稀疏和密集检索器以及四种在编码器 - 解码器和仅解码器架构中表现优异的 LMs。研究结果显示,不同的模型适用于不同的 RAG 配置,而编码器 - 解码器模型在使用更多文档时呈现出单调改进,而仅解码器模型只能有效使用小于 5 个文档,尽管其上下文窗口通常更长。此外,RAGGED 还揭示了 LMs 的上下文利用习惯,其中编码器 - 解码器模型更依赖上下文,并且对于检索质量更为敏感,而仅解码器模型则更倾向于依赖训练中记忆的知识。
Mar, 2024
为了解决用户在发出宽泛、开放式的查询时得到丰富的、多方面的回复的问题,我们提出了一种新颖的检索增强生成框架 ——RichRAG。该框架包括一个子方面探索器,用于识别问题中的潜在子方面;一个多方面检索器,用于构建与这些子方面相关的多样化外部文档的候选池;以及一个生成型列表排序器,它是为最终生成器提供前 k 个最有价值的文档的关键模块。经过实验证明,我们的框架能够有效、高效地为用户提供全面且满意的回复。
Jun, 2024
通过研究现有的 RAG 方法及其潜在组合,我们提出了几种既能兼顾性能又能提高效率的 RAG 策略,并证明多模态检索技术能显著增强对视觉输入的问答能力,并使用 “检索即生成” 策略加速多模态内容的生成。
Jul, 2024