RepLiQA:用于评估 LLMs 在未见参考内容上的问答数据集
本篇论文介绍了一个用于评估大规模句子级别答案检索模型的基准 Retrieval Question-Answering(ReQA),并使用神经编码模型和传统信息检索技术建立了基线。我们提供我们的评估代码以鼓励更多关于这一具有挑战性的任务的研究。
Jul, 2019
该研究提出了一个名为 MLQA 的多语言提取式问答(QA)评估基准,旨在推动跨语言 QA 研究。 MLQA 包含 7 种语言的 QA 实例,并使用一种新颖的对齐上下文策略,基于 Wikipedia 文章构建,以此作为现有提取式 QA 数据集的跨语言扩展。
Oct, 2019
本研究提供了一个基于微软产品和技术问题的产业特定 QA 知识的检测基准 MSQA,旨在评估旨在提高 LLM 领域特定能力的方法。此外,我们提出了一种新的模型交互范式,可以使 LLM 在不熟练的领域特定任务上实现更好的性能。实验表明,遵循我们的模型融合框架的方法优于常用的检索方法的 LLM。
May, 2023
我们介绍了 TeleQnA,这是首个用于评估大型语言模型(LLMs)在电信领域知识的基准数据集。该数据集包含 10,000 个问题和答案,来源于多个标准和研究文章。该论文阐述了创建该数据集的自动问题生成框架,并说明了在不同阶段集成人工输入以保证问题质量。通过使用提供的数据集,对 GPT-3.5 和 GPT-4 等 LLMs 的能力进行了评估。结果表明,这些模型在处理复杂的标准相关问题方面存在困难,但在解答一般的电信相关问题时表现出了出色的能力。此外,我们的结果展示了将电信知识背景纳入模型显著提高了其性能,从而揭示了电信基础模型的需求。最后,将数据集分享给了活跃在电信领域的专业人士,并将他们的表现与 LLMs 进行了基准测试。研究结果表明,在电信知识方面,LLMs 可以与活跃专业人士的表现相媲美,这归功于它们处理大量信息的能力,突显了 LLMs 在该领域的潜力。该数据集已在 GitHub 上公开获取。
Oct, 2023
这篇研究论文介绍了一种基于搜索引擎日志的、具有多角度和非事实性问题的数据集,该数据集对于最强大的大型语言模型来说具有挑战性,并展示了对这些问题进行分解和替代回答技术的好处。
Feb, 2024
通过建立一个包含多样化复杂问答任务的基准以及提供工具包,在开放领域环境中评估先进的预训练密集和稀疏检索模型,本研究旨在解决开放领域复杂问答中证据检索和推理的挑战。我们观察到晚期交互模型和词汇模型(如 BM25)表现较好,此外,我们还评估了 LLMs 的推理能力以及检索性能对其推理能力的影响,通过实验证实,要改进复杂问答的下游性能,还有很多待办之事。
Jun, 2024
TriviaQA 是一个具有挑战性的阅读理解数据集,包含超过 650k 个问题 - 答案 - 证据三元组,该数据集需要进行跨句子推理和包含看似复杂、组合式、句法和词汇变化巨大的问题,并提供了两种基线算法:基于特征的分类器和最先进的神经网络,它们在 SQuAD 阅读理解上表现良好,但都无法接近人类表现(23%和 40%与 80%),因此需要进一步的研究。
May, 2017
介绍了 LAReQA - 一项新的挑战性基准测试,可从多语言候选池中进行语言无关的答案检索。在基于多语言 BERT 的基础上,研究了实现强交叉语言对齐的不同策略,发现通过机器翻译增加训练数据是有效的,同时,该基线在 LAReQA 上表现最好,但在仅瞄准 “弱” 对齐的任务中却不及竞争基线,这突显了语言无关检索是一种实质性新型跨语言评估。
Apr, 2020