为了解决金融领域中财务报表分析的难题,本文提出了一个新的数据集 FinQA,并进行了广泛的实验。实验结果显示预训练模型在金融知识和复杂多步骤的数值推理方面远远不及专家人类。这个新的数据集应该为复杂应用领域的深入研究提供了可能性。
Sep, 2021
本文提出了一个新的任务,NR-KBQA,它需要进行多跳推理和数值推理。我们使用 Python 格式的逻辑形式 PyQL 设计了数值推理问题的推理过程,并提供了一个名为 MarkQA 的大型数据集,用于促进 NR-KBQA 的开发。实验结果表明,在 MarkQA 上进行复杂的数值推理在 KBQA 中面临巨大挑战。
Oct, 2023
介绍一个双语问答数据集 NOAHQA,旨在解决目前数值推理问题缺乏复杂问题以及提供推理过程的可解释性问题,通过使用 NOAHQA 数据集,开发了一个可解释的推理图,并提出了适当的评估指标来衡量答案质量。在 NOAHQA 上对现有 QA 模型进行评估,表明人类表现为 89.7,最好的 QA 模型只能达到 55.5 的准确匹配分数。
本研究旨在探讨大规模预训练语言模型在金融领域中实现数值推理的挑战,提出了一个新的大规模数据集 ConvFinQA,对其进行了综合性实验和分析,为研究实际世界中复杂推理任务提供新的资源。
Oct, 2022
本篇论文介绍了 FeTaQA 数据集,该数据集包含 10K 个基于维基百科的 {表格,问题,自由形式答案,支持表格单元格} 对,可以用于进行表格问答系统的复杂推理和信息集成;并提出了一个基于语义解析的 QA 系统和一个基于大型预训练文本生成模型的端到端方法来处理该任务。
Apr, 2021
我们提出了一种基于 Ask Platypus 的开源数学感知问答系统,它能够针对英语或印地语的自然语言问题返回单一的数学公式。这些公式来源于知识库 Wikidata,并通过 sympy 计算引擎将其转换为可计算的数据,用户可以为公式中出现的变量输入数值。在用户研究中,我们的系统性能优于商用计算数学知识引擎 13%。
Jun, 2019
基于大型语言模型,通过使用常见的金融公式生成金融问题回答数据,FinLLMs 方法提供一种解决数据资源有限和注释成本高昂问题的方法。实验结果表明,由 FinLLMs 生成的合成数据有效地提升了金融领域几个大规模数值推理模型的性能,超过了两个常用基准金融问题回答数据集。
Jan, 2024
本文介绍了一个以定理驱动的问答数据集 TheoremQA,用于评估人工智能模型应用定理解决具有挑战性的科学问题的能力。研究人员使用 16 个大型语言和代码模型评估 TheoremQA,并发现 GPT-4 在 Program-of-Thoughts Prompting 的帮助下解决这些问题的能力是无与伦比的,达到了 51%,而现有的所有开放源代码模型都低于 15%,仅仅超过了随机猜测的基线。
May, 2023
GQA 是一个旨在解决以往 VQA 数据集的缺陷问题的实际可视化推理和组成问题回答数据集,它使用场景图结构创建了 2200 万个不同的推理问题,伴随着功能程序共同表示它们的语义,其中包括新的可调平滑技术来缓解问题偏差。贯穿数据集的还有一套新的度量标准,可以评估基本的质量,例如一致性、基础和可信性。
Feb, 2019
通过引入案例推理和扩展案例库,我们提出了一种用于解决金融文档中的数字推理问题的新方法,该方法在 FinQA 数据集上表现出竞争性能,并显示出了复杂多步骤程序的解决能力。
May, 2024