CCQA:用于模型预训练的新型 Web 规模问答数据集
基于检索的代码问答模型通过预训练模型使用构建的双模和单模数据集来匹配自然语言查询与相关代码片段。本文介绍了 ProCQA,一个从 StackOverflow 社区提取的大规模编程问答数据集,提供自然结构的混合模态问答对。为了验证其有效性,我们提出了一种模态不可知的对比预训练方法,以改善当前代码语言模型的文本和代码表示之间的对齐。与先前主要使用从 CodeSearchNet 中提取的双模和单模对进行预训练的模型相比,我们的模型在广泛的代码检索基准上表现出显著的性能改进。
Mar, 2024
本文提出一个大规模的人工标注真实世界 QA 数据集 WebQA,通过序列标注模型将神经 QA 视为序列标注问题,与现有神经 QA 方法相比,性能大幅度提高,F1 得分为 74.69%。
Jul, 2016
该研究提出了一个名为 SearchQA 的数据集,该数据集用于机器理解和问答,并通过从 J! Archive 爬取的现有问题 - 答案配对及 Google 检索的文本片段进行扩充。在 SearchQA 中,包含了 14 万个问题 - 答案对,每个对平均包含 49.6 个片段。使用人类评估以及两种基准方法进行测试,研究显示了人类和机器表现之间的显著差距,表明所提出的数据集可作为问答的基准。
Apr, 2017
本篇论文提出了一种建立对话式问答系统的新数据集 CoQA,包含来自七个不同领域的 8,000 个对话中 127,000 个具有答案的问题,分析表明,这些问题比现有的阅读理解数据集具有更多挑战性和难点,需要针对性的解决方案,评测结果显示目前最好的系统 F1 得分为 65.4%,仍然有大量的改进空间。
Aug, 2018
本文提出了一种基于大型语言模型的自我点拨框架 (Self-Prompting framework),使得在开放域下的问答任务 (Open-Domain Question Answering) 可以在不需要训练数据和外部知识库的情况下实现,采用该方法在三个广泛使用的 ODQA 数据集上,实验结果优于之前的最先进方法,在 EM 指标上平均提高了 8.8 个百分点,并且能够实现与多种检索增强的微调模型相比较的性能。
Dec, 2022
基于自我监督方法的编码器 - 解码器模型在跨语言问答中表现出色,利用维基百科的跨语言链接结构,综合生成监督信号,提高了检索和回答生成的性能,相比于其他方法,包括机器翻译,CLASS 方法在监督和零资源语言适配等方面均取得更好的效果。
Feb, 2024
本研究通过对 52 个数据集和 20 种评估技术进行综述,详细研究了当前开放域问题回答领域的现状,提出了一种包含问题类型的多模态数据集新分类法,并对评估指标进行结构化整理和批判性分析,旨在为现代问答系统的强大评估提供框架,并指出了当前的挑战和未来研究发展的有希望的方向。
Jun, 2024
使用 Wizard of Oz 的方法结合众包技术,从三个 Stack Exchange 网站收集了 2437 组对话和 10917 个问答信息,构建了 DoQA 数据集,为 FAQ 站点中的大量领域特定信息构建了面向对话的问答(QA)界面,并介绍了更多的实际检索信息场景,取得了良好的性能。
May, 2020
介绍一个新数据集,用于在对话上下文中重新提问问题,提供了对问题改写、网页检索和阅读理解的指标。通过组合先进的问题重写模型和开放域 QA 的竞争模型,该方法显示出了 QReCC 数据集的效力,并证明了该设置的困难性和大量改进的空间。
Oct, 2020
本文介绍了一种使用维基百科引用构建大规模预训练语料库以满足开放域问答系统的需求的方法,并测试了改进后的 retriever 和 reader 在精确度和 top-20 准确率方面的表现。
Mar, 2022