May, 2024

DocReLM: 用语言模型掌握文档检索

TL;DR通过使用大型语言模型,我们展示了文献检索系统能够达到先进的语义理解能力,显著优于现有系统;我们的方法包括使用大型语言模型生成的领域特定数据来训练检索器和再排名器,此外,我们还利用大型语言模型从检索到的论文参考文献中识别候选项以进一步提高性能;我们使用量子物理学和计算机视觉领域的学术研究人员标注的测试集来评估系统的性能,结果显示 DocReLM 在计算机视觉领域的前十准确率为 44.12%,而 Google Scholar 为 15.69%,在量子物理学中提高到 36.21%,而 Google Scholar 为 12.96%。