多视角搜索引擎的设计挑战
信息检索任务要求系统根据用户的信息需求识别相关文档。这项研究探讨了检索系统是否能够识别和回应查询的不同视角,以及利用几何特征改善检索系统的视角意识。
May, 2024
论文探讨信息革命的一个关键后果是信息供应的大量增加和污染。我们提出了一个基于自然语言理解的任务,即建立一个包含主张、观点和证据段落的数据集,以便更好地理解有争议的问题。通过在线辩论网站、搜索引擎和众包,本研究构建了名为 PERSPECTRUM 的数据集,用以解决主张的支持观点的发现,具有挑战性和机遇性。
Jun, 2019
通过考虑个性化和模棱两可性,我们创建了一个包含大约 80 万个问题和 310 万个答案的新问题回答数据集,发现考虑主观答案的个性化因素能够得到定量上更好的答案,并提供更细致的支持性观点。
Oct, 2016
利用 PubMed 作为可靠的医学研究文档集合,针对开放领域的问答设置,研究通过修改检索设置来提高问答系统性能的方法。结果显示,减少检索到的文档数量,偏爱近期和被引用次数较多的文献可以提高最终的宏观 F1 得分达到 10%。
Apr, 2024
本文介绍了一种新颖的从全文中提取和搜索科学挑战和方向的任务,以促进快速知识发现。我们构建并发布了一个专家注释的语料库,并使用我们的数据训练模型来识别 COVID-19 疫情相关的生物医学跨学科工作中的挑战和方向,从而构建了一个专用搜索引擎。我们的实验表明,我们的系统在协助知识发现方面优于流行的科学搜索引擎,并且我们的模型可以泛化到更广泛的生物医学领域和 AI 论文。
Aug, 2021
本研究采用知识综合、段落检索、三元组检索和复杂问答等方法,构建一个可扩展的解决方案,以有效地从大规模研究文档中提取和探索复杂信息,以解决医疗保健行业面临的大量非结构化数据的问题,并在 COVID-19 数据集上进行了定性评估以证明其有效性。
Feb, 2023
本文分析了预训练语言模型在信息查找问题回答方面的挑战和解决方案,包括段落选择和答案预测。作者人手对多语言数据集进行了分类和标注,在此基础上提出了未来在数据集收集和模型开发方面的研究前景。
Oct, 2020
本研究针对基于检索的开放领域问答系统,探究多语言环境下文献信息不一致的问题,分析多语言开放领域问答模型的检索偏差,探讨文化差异和信息不一致性对模型的影响。
May, 2022
现代确定性检索管道通过集中追求最先进的性能,但在决策过程中往往缺乏可解释性。本文将不确定性校准和可解释性引入检索管道,通过引入贝叶斯方法和多角度检索来校准检索管道中的不确定性。我们结合 LIME 和 SHAP 等技术分析黑盒子再排模型的行为,并用这些解释方法得到的重要性分数作为补充关联分数来增强基本再排模型。通过在问答和事实核查任务上对不确定性校准和可解释性再排的评估,我们的方法在三个 KILT 数据集上展示了显著的性能提升。
Feb, 2024