FinTextQA:长文本金融问答数据集
在金融领域的定量推理研究中,由于商业和金融决策的重大影响,确实需要使用现实任务和数据。我们引入了一项长文档金融问答任务,通过在现有的 FinQA 数据集中添加完整文档的背景,将每个问题的平均上下文长度从 FinQA 的 700 个单词扩展到 DocFinQA 的 123k 个单词。我们对增强数据进行了广泛的基于检索的问答流程和长上下文语言模型的实验。结果表明,对于最强大的最先进系统来说,DocFinQA 提供了挑战。
Jan, 2024
金融数据分析中普遍面临的挑战是找到能准确反映实际任务用于模型评估的数据集,作者提出了一种连续的数据集生成框架 SEC-QA,在这个框架中,提供了两个重要功能,分别是跨多个长文本金融文件生成问题 - 答案 (QA) 对,以更好地代表真实世界金融场景,并且能够利用最新的公共文件集刷新数据集,这些文件集 LLMs 尚未接触到。实验证明,当前的检索增强型生成方法不能够有效回答这些复杂的多文档问题,为此,作者引入了一种基于思维程序的 QA 系统,提高了复杂信息检索和定量推理流程的能力,从而提高了 QA 准确性。
Jun, 2024
为了解决金融领域中财务报表分析的难题,本文提出了一个新的数据集 FinQA,并进行了广泛的实验。实验结果显示预训练模型在金融知识和复杂多步骤的数值推理方面远远不及专家人类。这个新的数据集应该为复杂应用领域的深入研究提供了可能性。
Sep, 2021
该论文探讨了长篇问答任务中关于评估和数据集构建所面临的挑战,在提出新模型的同时指出该任务中 ROUGE-L 评估不具信息性,且训练集和验证集存在显著重复。给出了缓解这些问题的建议。
Mar, 2021
该文介绍了基于 DeBERTa 预训练语言模型的金融问答系统在 FinQA 挑战赛中的应用,通过多模型融合和训练集组合等优化方法,输出准确度达到 68.99,程序准确度达到 64.53,排名第四。
Jul, 2022
建立了一个名为 FinTruthQA 的基准,用于自动评估金融问答数据中信息披露质量,为会计和金融领域的技术研究和数据驱动的决策提供了坚实的基础。
Jun, 2024
本篇论文介绍了 FeTaQA 数据集,该数据集包含 10K 个基于维基百科的 {表格,问题,自由形式答案,支持表格单元格} 对,可以用于进行表格问答系统的复杂推理和信息集成;并提出了一个基于语义解析的 QA 系统和一个基于大型预训练文本生成模型的端到端方法来处理该任务。
Apr, 2021
FinanceBench 是一个对 LLMs 在开放式财务问答(QA)中性能评估的首个测试套件,通过对公开交易公司的 10,231 个问题进行测试,发现现有的 LLMs 在财务 QA 方面存在明显的局限性。
Nov, 2023
基于大型语言模型,通过使用常见的金融公式生成金融问题回答数据,FinLLMs 方法提供一种解决数据资源有限和注释成本高昂问题的方法。实验结果表明,由 FinLLMs 生成的合成数据有效地提升了金融领域几个大规模数值推理模型的性能,超过了两个常用基准金融问题回答数据集。
Jan, 2024
本文提出了一个新的 QA 数据集 TAT-QA,并提出了一个新的 QA 模型 TAGOP,该模型可以同时推理表格和文本的含义,但该模型的 F1 值达到了 58.0%,距离专家水平还有较大的差距(90.8%),本文提供的 TAT-QA 可以作为处理混合形式数据的 QA 模型的基准。
May, 2021