多视角搜索引擎的设计挑战

ACLDec, 2021

Design Challenges for a Multi-Perspective Search Engine

Sihao Chen, Siyi Liu, Xander Uyttendaele, Yi Zhang, William Bruno...

TL;DR本篇论文探讨了如何将自然语言理解与文档检索相结合，提出了面向角度的文档检索范式。基于此范式实现了一个原型系统，通过用户调查评估了其实用性以及针对争议性问题的信息需求。

Abstract

Many users turn to document retrieval systems (e.g. search engines) to seek answers to controversial questions. Answering such user queries usually require identifying responses within web documents, and aggregating the responses based on their different perspectives. Classical

document retrieval systems natural language understanding perspective-oriented document retrieval user survey controversial queries

发现论文，激发创造

超越相关性：评估和提升具备观点感知的检索模型

信息检索任务要求系统根据用户的信息需求识别相关文档。这项研究探讨了检索系统是否能够识别和回应查询的不同视角，以及利用几何特征改善检索系统的视角意识。

May, 2024

从不同角度看问题：探索关于声明的多元视角

论文探讨信息革命的一个关键后果是信息供应的大量增加和污染。我们提出了一个基于自然语言理解的任务，即建立一个包含主张、观点和证据段落的数据集，以便更好地理解有争议的问题。通过在线辩论网站、搜索引擎和众包，本研究构建了名为 PERSPECTRUM 的数据集，用以解决主张的支持观点的发现，具有挑战性和机遇性。

Jun, 2019

在意见问答系统中建模歧义、主观性和不同观点

通过考虑个性化和模棱两可性，我们创建了一个包含大约 80 万个问题和 310 万个答案的新问题回答数据集，发现考虑主观答案的个性化因素能够得到定量上更好的答案，并提供更细致的支持性观点。

Oct, 2016

通过可靠和时间感知的证据检索改善健康问题回答

利用 PubMed 作为可靠的医学研究文档集合，针对开放领域的问答设置，研究通过修改检索设置来提高问答系统性能的方法。结果显示，减少检索到的文档数量，偏爱近期和被引用次数较多的文献可以提高最终的宏观 F1 得分达到 10%。

Apr, 2024

语义代码搜索的多角度架构

该研究提出了一种多角度跨语言神经框架用于代码 - 文本匹配，具备全球和本地相似性，结果比以往单映射空间的方法更好地完成了这一任务。

May, 2020

一种用于科学挑战和方向发现的搜索引擎

本文介绍了一种新颖的从全文中提取和搜索科学挑战和方向的任务，以促进快速知识发现。我们构建并发布了一个专家注释的语料库，并使用我们的数据训练模型来识别 COVID-19 疫情相关的生物医学跨学科工作中的挑战和方向，从而构建了一个专用搜索引擎。我们的实验表明，我们的系统在协助知识发现方面优于流行的科学搜索引擎，并且我们的模型可以泛化到更广泛的生物医学领域和 AI 论文。

Aug, 2021

从生物医学文献中进行大规模知识综合和复杂信息检索

本研究采用知识综合、段落检索、三元组检索和复杂问答等方法，构建一个可扩展的解决方案，以有效地从大规模研究文档中提取和探索复杂信息，以解决医疗保健行业面临的大量非结构化数据的问题，并在 COVID-19 数据集上进行了定性评估以证明其有效性。

Feb, 2023

信息查询问答中的挑战：无法回答的问题和段落检索

本文分析了预训练语言模型在信息查找问题回答方面的挑战和解决方案，包括段落选择和答案预测。作者人手对多语言数据集进行了分类和标注，在此基础上提出了未来在数据集收集和模型开发方面的研究前景。

Oct, 2020

多语言开放领域问答中的信息不一致性研究

本研究针对基于检索的开放领域问答系统，探究多语言环境下文献信息不一致的问题，分析多语言开放领域问答模型的检索偏差，探讨文化差异和信息不一致性对模型的影响。

May, 2022

可解释的贝叶斯多视角生成检索

现代确定性检索管道通过集中追求最先进的性能，但在决策过程中往往缺乏可解释性。本文将不确定性校准和可解释性引入检索管道，通过引入贝叶斯方法和多角度检索来校准检索管道中的不确定性。我们结合 LIME 和 SHAP 等技术分析黑盒子再排模型的行为，并用这些解释方法得到的重要性分数作为补充关联分数来增强基本再排模型。通过在问答和事实核查任务上对不确定性校准和可解释性再排的评估，我们的方法在三个 KILT 数据集上展示了显著的性能提升。

Feb, 2024