针对 FinQA 的数值推理的鲁棒优化长文本到数学模型
本研究旨在探讨大规模预训练语言模型在金融领域中实现数值推理的挑战,提出了一个新的大规模数据集 ConvFinQA,对其进行了综合性实验和分析,为研究实际世界中复杂推理任务提供新的资源。
Oct, 2022
为了解决金融领域中财务报表分析的难题,本文提出了一个新的数据集 FinQA,并进行了广泛的实验。实验结果显示预训练模型在金融知识和复杂多步骤的数值推理方面远远不及专家人类。这个新的数据集应该为复杂应用领域的深入研究提供了可能性。
Sep, 2021
本研究提出了一种针对金融文本和表格数据的数字推理问题回答系统,该系统包括检索器模块、生成器模块和集成模块。在私人测试集上的表现可达 69.79 个执行精度。
Jun, 2022
财务报告通过分析公司的运营情况提供重要见解,但通常长度过长,约 30 至 40 页,对于动态市场的快速决策提出了挑战。为解决这个问题,我们利用经过微调的大型语言模型(LLM)从用户提出的问题中提炼关键指标和运营指标。我们设计了一种定位关键数据的方法,并利用 FinQA 数据集对 Llama-2 7B 和 T5 模型进行微调,以进行定制化问答。在最终的数值回答上取得了与基准相当的结果,在数值推理和计算上具有竞争力的准确性。
Dec, 2023
提出了 APOLLO 来改进长格式数字推理框架,采用数值感知负采样策略来使检索器对关键数字事实更具有区分度,并基于程序执行结果的一致性设计了一致性强化学习和目标程序增强策略,实验结果验证了其有效性。
Dec, 2022
通过引入案例推理和扩展案例库,我们提出了一种用于解决金融文档中的数字推理问题的新方法,该方法在 FinQA 数据集上表现出竞争性能,并显示出了复杂多步骤程序的解决能力。
May, 2024
该文介绍了基于 DeBERTa 预训练语言模型的金融问答系统在 FinQA 挑战赛中的应用,通过多模型融合和训练集组合等优化方法,输出准确度达到 68.99,程序准确度达到 64.53,排名第四。
Jul, 2022
这篇论文提出了一个层次化的数值推理技能分类法,涵盖四个级别的十多种推理类型。通过对先进模型进行全面评估,并开发了一组多样化的数值探针,论文发现在所有数值推理类型中,FlanT5(无 / 少数据)和 GPT-3.5(少数据)相对其他模型表现出强大的整体数值推理技能。标签颠倒探针表明模型经常利用数据集的特征来预测正确的标签。
Nov, 2023
在金融领域的定量推理研究中,由于商业和金融决策的重大影响,确实需要使用现实任务和数据。我们引入了一项长文档金融问答任务,通过在现有的 FinQA 数据集中添加完整文档的背景,将每个问题的平均上下文长度从 FinQA 的 700 个单词扩展到 DocFinQA 的 123k 个单词。我们对增强数据进行了广泛的基于检索的问答流程和长上下文语言模型的实验。结果表明,对于最强大的最先进系统来说,DocFinQA 提供了挑战。
Jan, 2024
通过对四个金融表问答数据集进行广泛实验,这项研究探讨了大型语言模型在数学推理、结构化表格和非结构化文本融合方面的能力。研究集中分析了模型对表格复杂度的敏感性以及随着算术推理步骤增加的性能变化。结果揭示了大型语言模型在处理半结构化表格中复杂数学场景时的能力和限制,并提出了一种针对半结构化文档的新型提示技术,其性能与其它基准线相媲美或超越,同时提供对大型语言模型在此任务中的细致理解。
Feb, 2024