UKP-SQuARE v3: 一个多智能体问答研究平台
本文提出了一个任务,即 Complex Sequential QA,它结合了回答简单事实性问题和通过一系列有逻辑的问答匹配进行会话来进行复杂推理,本文也介绍了关于这个任务所需数据集,以及目前现有的模型在处理实际场景中还存在的不足。
Jan, 2018
本文对2016至2021年所发表关于问答系统的各项研究进行了回顾与总结,发现多轮问答系统已取代了单轮问答系统的先前主导地位,这表明了其在提高人工智能对话系统方面的重要性,同时也描绘了开展更多进一步和有利的研究的未来研究方向。
Jun, 2021
本研究提出了一种灵活和高效的架构,旨在通过考虑问题、回答预测和置信度得分来从候选答案中选出最佳答案,将专家代理与该架构相结合,从而在多域和多数据集方案中实现了先前的多代理和多数据集方法所不能达到的表现。
Dec, 2021
本文通过探讨黑盒代理集成技术中的问题,提出了问题代理配对和问题响应配对两种技术,并利用这些技术设计出了可自动和准确集成多个商用 CAs 的可扩展系统 OFA,并介绍了用于问题响应配对的新编码器模型 MARS,在 BBAI 任务中获得了最高准确性。
Mar, 2022
UKP-SQUARE是一个可扩展的在线问答平台,支持用户通过用户友好的界面和集成的行为测试查询和分析现代技能的大量收集,同时支持研究人员开发、管理和分享他们的自定义技能。
Mar, 2022
本文介绍了 UKP-SQuARE 平台,该平台能够为问答教育提供一个互动环境,学生可以从不同的角度运行、比较和分析各种 QA 模型,通过互动探索、实验和实际作业,学生可以积极地学习理论概念和获取解决问题的技能。在一门研究生自然语言处理课程中应用 UKP-SQuARE 平台,学生的积极反馈表明该平台在课程中的有效性,并邀请更广泛的应用。
May, 2023
本研究介绍了一个新的长格式数据库问答数据集,旨在评估大型语言模型(LLMs)与SQL解释器的互动。研究发现即使对于最先进的GPT-4模型,这个任务也存在巨大挑战。我们提出并评估了两种互动策略,并对互动过程中的各个阶段进行了细致分析。一个重要发现是确定了两个主要瓶颈,即规划能力和生成多个SQL查询能力。为了解决准确评估答案质量的挑战,我们引入了一个多代理评估框架,模拟学术同行评审过程,增强了我们评估的精确性和可靠性。该框架使我们能够更加细致地了解当前LLMs在复杂检索和推理任务中的优点和局限性。
Nov, 2023
通过Triad框架,利用LLM-based agent的三个角色来解决KBQA任务,我们的框架在LC-QuAD和YAGO-QA基准测试中表现优于现有技术,分别达到11.8%和20.7%的F1得分。
Feb, 2024
本文研究了基于视觉问答(VQA)任务中基础模型的零-shot能力。我们提出了一种自适应多智能体系统,称为多智能体VQA,通过使用专门的智能体作为工具,克服了基础模型在目标检测和计数方面的局限性。与现有方法不同的是,我们的研究重点在于系统在特定VQA数据集上不进行微调的性能,使其在开放世界中更实用和稳健。我们呈现了零-shot场景下的初步实验结果,并突出了一些失败案例,为未来的研究提供了新的方向。
Mar, 2024
在问答领域中,将大型语言模型与外部数据库结合已经取得了巨大的成功。然而,这些方法在提供复杂问答任务所需的高级推理方面常常效果不佳。为了解决这些问题,我们改进了一种称为“知识图谱提示”的新方法,该方法结合了知识图谱和基于大型语言模型的代理以提高推理和搜索准确性。然而,原始的知识图谱提示框架需要在大型数据集上进行昂贵的微调,并且仍然存在着大型语言模型幻觉的问题。因此,我们提出了一种注入推理能力的大型语言模型代理来增强该框架。这种代理模仿人类的好奇心来提问后续问题,以更高效地导航搜索。这种简单的改进显著提升了大型语言模型在问答任务中的性能,而无需承担初始“知识图谱提示”框架的高成本和延迟。我们的最终目标是进一步发展这种方法,在问答领域提供更准确、更快速、更具成本效益的解决方案。
Apr, 2024