实现金融报告中数值一致性检查自动化
KPI-EDGAR 是一个基于文件上传到 EDGAR 系统的财务报告的联合命名实体识别和关系提取的数据集,该数据集的主要目标是从财务文件中提取关键绩效指标,并将它们链接到他们的数值和其他属性。我们还提供了四个附带的基准测试,用于衡量未来潜在的研究成果。此外,我们提出了一种新的成功度量方式,通过将单词级加权方案纳入传统的 F1 分数来更好地模拟该领域实体对的本质模糊边界。
Oct, 2022
该研究旨在利用自然语言处理技术,设计并提供一种基于逻辑一致性的财务文本评估工具 ——FinTrust,分析现有的 NLP 模型对于历史市场信息的预测一致性较差,表明目前的基于文本的方式无法可靠地进行金融预测。
May, 2023
财务报告通过分析公司的运营情况提供重要见解,但通常长度过长,约 30 至 40 页,对于动态市场的快速决策提出了挑战。为解决这个问题,我们利用经过微调的大型语言模型(LLM)从用户提出的问题中提炼关键指标和运营指标。我们设计了一种定位关键数据的方法,并利用 FinQA 数据集对 Llama-2 7B 和 T5 模型进行微调,以进行定制化问答。在最终的数值回答上取得了与基准相当的结果,在数值推理和计算上具有竞争力的准确性。
Dec, 2023
通过综合六个关键维度的语义指标设计了一个全面的关键词提取系统评估框架,发现预训练语言模型在大多数维度上表现最好,而且在无参考评估中表现出色。
Mar, 2023
本文主要介绍了如何利用多种数据挖掘技术和深度学习应用于金融文本处理场景,并且展示了如何使用自然语言处理(NLP)和知识图谱(KG)技术来从异构数据中识别金融风险和机会。
Apr, 2022
通过协调不同的度量标准,本论文将展示两种度量标准事实上在某些情况下相同,并解释第三种度量标准的差异。此外,引入 “Spot Check Equivalence” 以统一这些不同的上下文,并提出了计算其效果的两种方法。模拟结果验证了我们提出度量标准的有效性。
Feb, 2024
KGCleaner 是一个用于识别和纠正信息抽取系统生成和交付的数据中的错误的框架,引入了一个联合学习预测抽取关系的可信度和修复方法,并通过两个数据集的评估验证了该方法的有效性,其中参数简单的浅层神经网络可以在可信度分类方面实现绝对性能增益,并且在修复任务上可以根据数据集和模型的性质获得显著的性能提升。
Aug, 2018
本文介绍了 SPot,一种自动化工具,可以从收益报告中检测运营部门及其相关的绩效指标。通过训练双向 RNN 分类器,SPot 可以区分常见指标(如 “收入”)和公司特定指标(如 “iPhone” 或 “云服务”),从而发现公司特定的运营部门。该工具提供了交互式网络界面,让用户跟踪和调整每个运营部门的绩效指标,可用于信用监控、竞争基准设定和公司和行业的趋势分析。
May, 2020
RealKIE 是一个具有五个具有挑战性数据集的基准测试,旨在推进关键信息提取方法,重点关注企业应用。这些数据集包括一系列不同类型的文档,包括 SEC S1 文件,美国保密协议,英国慈善报告,FCC 发票和资源合同。除了介绍这些数据集外,我们还提供了详细的注释过程、文档处理技术和基准建模方法的描述,以促进开发能处理实际挑战并支持研究产业特定问题的信息提取技术的进一步研究。
Mar, 2024