具有可扩展问答代理分类器的Transformer(TWEAC)
本研究提出了一种基于对话的问答数据集QuAC,其包含14K个信息寻求问答对话(共100K个问题),并且QuAC针对其他机器理解数据集中未发现的挑战进行了改进。我们在详细的定性评估中表明,QuAC的问题通常更具开放性、难以回答或仅在对话上下文中有意义,还报告了许多参考模型的结果,包括最近被扩展为对话上下文模型的最先进的阅读理解体系结构。但是我们最好的模型仍然比人类表现差了20个F1,这表明还有很大的未来工作空间。
Aug, 2018
通过引入几个新的挑战任务,探索了目前最先进的 QA 模型是否具有有关单词定义和词汇推理的通用知识,结果表明,基于 Transformer 的 QA 模型已经更容易识别某些结构词汇知识,但在分类结构的层次增加或更具挑战性的干扰先决条件问题涉及到的问题上存在较大的改进空间。
Dec, 2019
本文的主要研究领域是关于自动问答,重点介绍了知识图谱、非结构化文本和混合语料库等来源的家族算法,并讨论了每个子主题中涉及的复杂性问题和系统中介绍的可解释性和互动性程度,最后总结了QA领域的最具前景的新兴趋势。
Apr, 2020
本研究探讨了基于Transformer的QA模型中问题、答案和上下文的隐藏表示,并通过观察回答表示中的一致性模式来自动评估预测出的答案跨度是否正确,其方法不需要任何标记数据且优于强启发式基线,在两个数据集和七个领域上均能够达到较高准确率。
Oct, 2020
本文介绍了两种新方法实现Table QA任务,一种是利用独立分类来识别相关单元格的RCI interaction模型,一种是通过材料化嵌入现有表格来提高在线QA系统效率的RCI representation模型,实验证明这两种方法在表格上有效,并且交互模型在最近的基准测试中优于最新的基于Transformer的方法,获得了约3.4%和约18.86%的精度提高。
Apr, 2021
本研究提出了一种灵活和高效的架构,旨在通过考虑问题、回答预测和置信度得分来从候选答案中选出最佳答案,将专家代理与该架构相结合,从而在多域和多数据集方案中实现了先前的多代理和多数据集方法所不能达到的表现。
Dec, 2021
通过自动重匹配缺少正确答案所需信息的上下文与问题,我们提出了一种名为AGent的新型流水线,从而自动创建新的不可回答问题。本文中,我们通过从SQuAD和HotpotQA的可回答问题创建了两组不可回答问题,并展示了AGent流水线的实用性。这些创建的问题集表现出较低的错误率。此外,对这些问题进行微调的模型在多个EQA基准测试中表现出与在SQuAD 2.0数据集上进行微调的模型相当的性能。
Sep, 2023
为应对可扩展且智能的问答挑战,我们引入了一种创新解决方案,利用开源的大型语言模型(LLMs)来确保数据隐私。我们在一个入门计算机科学课程的 Piazza 数据集上进行了实验,并对一个小的子集进行了人工评估和自动 LLM 评估。我们初步发现通过多种建模技术能够将答案的质量提升33%,而 RAG 是一个有影响力的改进。这项工作为开发适用于在线问答平台的智能 QA 助手 ChaTA 打下了基础。
Nov, 2023
回答知识图谱上的问题(KGQA)是不同实际应用中实现良好性能的语言智能代理的关键。为了提高由大型语言模型(LLMs)驱动的语言智能代理在KGQA中的神经符号推理能力,我们提出了DecompositionAlignment-Reasoning Agent(DARA)框架。DARA通过高级迭代任务分解和低级任务基础形式将问题有效地解析为正式查询。重要的是,DARA可以通过少量高质量的推理轨迹进行高效训练。我们的实验结果表明,DARA在LLMs上进行微调(例如Llama-2-7B,Mistral)在零-shot评估的不同基准中优于基于上下文学习的代理(如GPT-4)和其他微调代理,从而使这样的模型在实际应用中更易访问。我们还显示出,DARA在KGQA方面达到了与最先进的枚举和排名方法相当的性能。
Jun, 2024
本研究解决了在问题回答中不同类型问题需要不同回答策略的难题,提出了一种动态选择最合适的问题回答策略的方法。通过将自适应问题回答建模为上下文多臂老虎机问题,并利用多个大语言模型的协作,实验表明该方法能够有效提高多模块QA系统的效率与性能。
Sep, 2024