QDA-SQL:问题增强对话增强的多轮文本到 SQL
本文提出一种混合型框架,将文本和表格式证据作为输入,根据问题生成直接答案或 SQL 查询,并在几个开放领域问题回答(ODQA)数据集上表现出了明显优于基线模型的表现。在详细的分析中,证明生成结构化 SQL 查询将始终带来收益,尤其是对于那些需要复杂推理的问题。这是第一个将 Text2SQL 应用于 ODQA 任务的论文。
Aug, 2021
本研究提出了一种新的分离式多轮对话文本转 SQL 框架,使用话语重写模型和单轮 Text-to-SQL 解释器来解决对多轮对话历史建模和数据稀疏性问题,在无标注的情况下表现优异。
Jun, 2021
该论文通过设计一个简单而有效的数据增强框架,提出了一种层次化的 SQL 转自然语言问题生成模型,以及一种简单的采样策略来显著提高训练效率。在三个跨领域数据集上的实验表明,其方法可以一贯地改善表现,并且层次化生成组件是改善的关键。
Mar, 2021
提供数据增强给会话问答系统 (CQA) 可以有效提高模型性能。然而,由于单轮和多轮数据集之间的分布差异,单轮数据集在 CQA 中的改进较少。另一方面,尽管有大量的单轮数据集可用,但我们尚未有效利用它们。为解决这个问题,我们提出了一种将单轮数据集转换为多轮数据集的新方法。该方法包括三个部分,即 QA 对生成器、QA 对重装配器和问题重写器。给定包含上下文和单轮问答对的样本,生成器基于上下文获得候选 QA 对和基于知识图的知识图。重装配器利用知识图获得顺序问答对,重写器以会话角度重写问题以获得多轮数据集 S2M。我们的实验证明我们的方法可以合成用于 CQA 的有效训练资源。值得注意的是,在提交时 (Aug 24th, 2022),S2M 在 QuAC 排行榜上排名第一。
Dec, 2023
本文提出了一种通过自身游戏来增强训练集,再利用经过采样的目标查询生成新的交互来适应新的数据库的上下文依赖文本转 SQL 任务方法,并利用所得到的增强数据重新训练模型,实验表明,该方法在 SParC 和 CoSQL 两个广泛使用的跨领域文本转 SQL 数据集上显著提高了准确性。
Oct, 2022
开放领域问答(ODQA)作为信息系统中的关键研究领域已经崛起。现有方法采用两种主要范式来收集证据:(1)“先检索然后阅读” 范式从外部语料库中检索相关文档;(2)“先生成然后阅读” 范式使用大型语言模型(LLMs)生成相关文档。然而,两者都无法完全满足证据的多方面需求。因此,本文提出了 LLMQA,一种通用框架,将 ODQA 过程分为三个基本步骤:查询扩展、文档选择和答案生成,结合了基于检索和基于生成的证据的优势。由于 LLMs 展示了在各种任务中表现出的出色能力,我们在框架中指导 LLMs 担任多个角色,作为生成器、重新排序器和评估器,集成它们在 ODQA 过程中的协作。此外,我们引入了一种新颖的提示优化算法,以改进角色扮演提示,引导 LLMs 生成更高质量的证据和答案。在广泛使用的基准测试(NQ、WebQ 和 TriviaQA)上进行的大量实验结果表明,LLMQA 在答案准确性和证据质量方面达到了最佳表现,展示了其推进 ODQA 研究和应用的潜力。
Mar, 2024
该论文提出了一种名为 CQR-SQL 的方法,利用辅助对话问题改写(CQR)学习来显式地利用模式,并解耦文本 - SQL 语句的上下文依赖关系,从而增强 SQL 解析的能力。该方法在两个文本 - SQL 基准测试中取得了最新的最先进结果。
May, 2022
该论文介绍了一种自动生成基于搜索查询的对话数据的机器学习方法,通过使用大型语言模型生成问题回答数据集,学习如何与外部搜索 API 通信,以生成具有上下文的搜索查询,从而改善对话系统的回答效果。
Apr, 2023
我们提出了一种基于知识驱动的渐进性思维引导方法来生成多轮心理对话,该方法整合了渐进式思维生成器、心理知识生成器和多轮对话生成器,验证了在心理对话领域提升性能的有效性。
Jun, 2024