Jan, 2024

通过增强 PDF 结构识别来改革检索增强生成

TL;DR当前研究发现,基于高质量文本语料的专业知识问答系统的有效性受到 PDF 解析准确度的限制。一项实证实验表明,配备全景式和精准的 PDF 解析器的 RAG 系统 ChatDOC 能够检索更准确、更完整的片段,并给出更好的答案。实证实验显示,在接近 47% 的问题上,ChatDOC 优于基线系统,在 38% 的情况下相当,仅在 15% 的情况下表现不及。这表明通过提高 PDF 结构识别技术,我们可能革新 RAG。