自动生成面向表格数据探索的对话界面
本文提出一种基于自然语言摘要的表格信息检索方法,并利用一个新的以对话为导向、面向开放领域的表格摘要数据集来构建 SOTA 基线系统,并指出了未来研究方向和挑战。
May, 2020
自然语言处理引起了用户与表格数据交互方式的革命,通过更直观、基于语言的界面,从传统的查询语言和手动绘图转变。大语言模型(LLMs)如 ChatGPT 及其后续模型进一步推进了这一领域,为自然语言处理技术开辟了新的途径。本研究综述了面向表格数据查询与可视化的自然语言界面,该界面允许用户使用自然语言查询与数据进行交互。我们介绍了这些界面背后的基本概念和技术,特别关注实现自然语言到 SQL 查询或数据可视化命令的语义解析技术。接着,我们从数据集、方法论、评估指标和系统设计等角度探讨了文本到 SQL 和文本到可视化问题的最新进展。这包括深入研究了 LLMs 的影响,突出了它们的优势、限制和未来改进的潜力。通过本综述,我们旨在为对开发和应用大语言模型时代的数据交互自然语言界面感兴趣的研究人员和实践者提供一条路线图。
Oct, 2023
该研究介绍了 StatCan Dialogue Dataset 数据集,并提出了基于该数据集的两个任务:(1)基于正在进行中的对话自动检索相关表格,(2)自动生成适当的代理响应。该研究发现基于该数据集的模型对未来的对话泛化能力不足,并且响应生成模型难以判断何时返回表格。由于任务对现有模型存在显著挑战,作者鼓励学术界开发特定于此任务的模型,以帮助知识工作者为在线用户找到相关图表。
Apr, 2023
该论文提出了一种由系统 Chatin 实现的对话式方法,旨在为直观的数据探索体验提供驱动。Chatin 是一种先进的工具,通过解锁数据科学解决方案的全部潜力,赋予来自各个学科的非技术用户探索数据并从中提取知识的能力。
Nov, 2023
本篇论文提出一个基于维基百科文本和表格的 HybriDialogue 数据集,通过将复杂的多跳问题分解为简单的、现实的多轮对话,创建了众包自然语言对话。针对该数据集,我们提出了检索、系统状态跟踪和对话响应生成任务,并进行了基线实验。实验结果表明,还有很大的改进空间,展示了构建可以在表格和文本上进行基于信息检索的复杂对话的更强大的对话系统的重要性。
Apr, 2022
我们提供了一个生成符合用户偏好的流畅且逻辑一致的科学表格数据描述的新任务,并通过构建一个具有高亮单元格和相应专业知识库的数据集,为这个方向的研究提供了基准,并提出了一种优于竞争方法的新架构。结果显示,大型模型在生成与用户偏好一致的准确内容方面存在困难。作为首创,我们的工作有望推动科学领域的进一步研究。
Dec, 2023
对多轮对话数据生成进行了系统综述,包括开放领域对话系统、任务导向对话系统和信息搜索对话系统,提出了一个概括对话数据生成系统主要原则的通用框架,并探讨了合成对话数据的评估指标和方法、当前领域的挑战以及未来研究的潜在方向。
May, 2024
TableQuery 是一种使用深度学习模型进行自然语言查询转化为结构化查询的工具,解决了传统深度学习方法在表格数据上存在的内存和实时更新的问题。
Jan, 2022
通过创新自动生成系统,本文提出了两种新方法:一种基于强化学习的算法用于识别和排序与任务相关的列,另一种基于单元格相似性的方法用于增强少样例选择,该方法在 66 个数据集上经过了广泛测试,并使用两个不同的大型语言模型(Google flan-t5-xxl 和 Mixtral 8x7B)在数据填充、错误检测和实体匹配三个下游任务中展现出改进的性能。
May, 2024