实体驱动的答案集扩展用于问答评估
本研究提出了一个名为 BeamSearchQA 的新型问题回答管道,它通过使用大型语言模型迭代地生成关于原始问题的新问题,从而启用一个迭代推理过程,以便更好地捕捉和利用隐藏知识。实验结果表明,BeamSearchQA 明显优于其他零 - shot 基线,在处理开放性领域问题回答方面具有很强的有效性。
May, 2023
本研究以一组正确解决方案为基础,通过修改研究问题为离散潜在变量的学习问题,结合硬 EM 学习方案以及最可能的解决方案计算梯度,在 6 个 QA 任务中证明了该方法明显优于以往方法,并在其中 5 个任务中取得了最优结果。我们通过详细的定性分析表明,使用硬更新而不是最大化边际似然值是这些结果的关键,因为它鼓励模型找到一个正确的答案。
Sep, 2019
在多智体环境中,通过多个大型语言模型代理独立回答用户查询以产生鲁棒性答案,并使用中心答案模型进行聚合,结果显示比其他聚合方法(如投票方案和辩论)具有 50% 更高的准确率。此外,通过排列特征重要性方法进行关键特征分析,量化了中心答案模型对每个独立代理和查询上下文的依赖性。
Jun, 2024
本研究提供了一个基于微软产品和技术问题的产业特定 QA 知识的检测基准 MSQA,旨在评估旨在提高 LLM 领域特定能力的方法。此外,我们提出了一种新的模型交互范式,可以使 LLM 在不熟练的领域特定任务上实现更好的性能。实验表明,遵循我们的模型融合框架的方法优于常用的检索方法的 LLM。
May, 2023
在自然语言处理的问答任务中,本文的关键方向是提高表示质量和效率,通过挑战现有的问题 - 答案编码惯例,探索更精细的表示方法,并测试了不同池化方法和知识图谱的集成对于性能的影响,结果显示这些方法在提高内存效率的同时,性能上有较小牺牲,大大增加了吞吐量。
Mar, 2024
实体匹配是数据集成中的关键任务,本文探讨了将大型语言模型应用于实体匹配的优势、挑战和未来研究方向,同时回顾了关于弱监督和无监督方法在实体匹配中的应用以及大型语言模型如何增强这些方法。
May, 2024
本文提出了一种迭代的实体集扩展框架,利用自动生成的类名解决语义漂移问题,通过在预训练的语言模型中探测选择一个正类和若干负类,评分新的候选实体。实验表明,该框架可以生成高质量的类名,并显著优于以前的最新方法。
Apr, 2020
通过人工评估,我们发现使用 InstructGPT 在 NQ-open 取得了新的最优结果,且所有模型的真实性能均被显著低估,同时超过 50%的词汇匹配失败归因于意义相当的答案, 正则匹配排名与人类判断一致
May, 2023
我们提出研究答案的蕴含关系,以识别更具信息量和更一般化的系统答案,从而更接近人类判断,无需学习。我们提出的蕴含关系评估可通过量化答案之间的推断差距来分配奖励或部分分数,实现对答案正确性的细致排序,其 AUC 比目前的方法更高。
May, 2024
开放领域问答(ODQA)作为信息系统中的关键研究领域已经崛起。现有方法采用两种主要范式来收集证据:(1)“先检索然后阅读” 范式从外部语料库中检索相关文档;(2)“先生成然后阅读” 范式使用大型语言模型(LLMs)生成相关文档。然而,两者都无法完全满足证据的多方面需求。因此,本文提出了 LLMQA,一种通用框架,将 ODQA 过程分为三个基本步骤:查询扩展、文档选择和答案生成,结合了基于检索和基于生成的证据的优势。由于 LLMs 展示了在各种任务中表现出的出色能力,我们在框架中指导 LLMs 担任多个角色,作为生成器、重新排序器和评估器,集成它们在 ODQA 过程中的协作。此外,我们引入了一种新颖的提示优化算法,以改进角色扮演提示,引导 LLMs 生成更高质量的证据和答案。在广泛使用的基准测试(NQ、WebQ 和 TriviaQA)上进行的大量实验结果表明,LLMQA 在答案准确性和证据质量方面达到了最佳表现,展示了其推进 ODQA 研究和应用的潜力。
Mar, 2024