实现金融报告中数值一致性检查自动化

Nov, 2022

实现金融报告中数值一致性检查自动化

Towards automating Numerical Consistency Checks in Financial Reports

Lars Hillebrand, Tobias Deußer, Tim Dilmaghani, Bernd Kliem, Rüdiger Loitz...

TL;DRKPI-Check 使用 BERT 过滤和文本分类技术，自动识别纠正金融报告中的同义词关键绩效指标，实现了高匹配性能。目前，这个工具正在为一家全球性审计公司的资产负债表和损益表审核工作提供帮助。

Abstract

We introduce kpi-check, a novel system that automatically identifies and cross-checks semantically equivalent key performance indicators (KPIs), e.g. "revenue" or "total costs", in real-world German →

kpi-check key performance indicators financial reports bert-based filtering auditing procedure

发现论文，激发创造

KPI-EDGAR：一个新型财务文档关系抽取数据集及其度量标准

KPI-EDGAR 是一个基于文件上传到 EDGAR 系统的财务报告的联合命名实体识别和关系提取的数据集，该数据集的主要目标是从财务文件中提取关键绩效指标，并将它们链接到他们的数值和其他属性。我们还提供了四个附带的基准测试，用于衡量未来潜在的研究成果。此外，我们提出了一种新的成功度量方式，通过将单词级加权方案纳入传统的 F1 分数来更好地模拟该领域实体对的本质模糊边界。

Oct, 2022

基于文本的金融预测模型一致性测量

该研究旨在利用自然语言处理技术，设计并提供一种基于逻辑一致性的财务文本评估工具 ——FinTrust，分析现有的 NLP 模型对于历史市场信息的预测一致性较差，表明目前的基于文本的方式无法可靠地进行金融预测。

May, 2023

财务报表的数值推理

财务报告通过分析公司的运营情况提供重要见解，但通常长度过长，约 30 至 40 页，对于动态市场的快速决策提出了挑战。为解决这个问题，我们利用经过微调的大型语言模型（LLM）从用户提出的问题中提炼关键指标和运营指标。我们设计了一种定位关键数据的方法，并利用 FinQA 数据集对 Llama-2 7B 和 T5 模型进行微调，以进行定制化问答。在最终的数值回答上取得了与基准相当的结果，在数值推理和计算上具有竞争力的准确性。

Dec, 2023

MTAD：多元时间序列异常检测工具与基准

通过综述与评估 12 种最先进的 KPI 异常检测方法并提出了一种新的评估指标 “显著性”，该研究为未来的学术研究与工业应用提供了基础。

Jan, 2024

KPEval：基于细粒度语义的关键词抽取和生成系统评价

通过综合六个关键维度的语义指标设计了一个全面的关键词提取系统评估框架，发现预训练语言模型在大多数维度上表现最好，而且在无参考评估中表现出色。

Mar, 2023

多策略文本处理在金融数据分析应用中的应用

本文主要介绍了如何利用多种数据挖掘技术和深度学习应用于金融文本处理场景，并且展示了如何使用自然语言处理（NLP）和知识图谱（KG）技术来从异构数据中识别金融风险和机会。

Apr, 2022

快速检查等效性：信息引导机制的可解释度度量

通过协调不同的度量标准，本论文将展示两种度量标准事实上在某些情况下相同，并解释第三种度量标准的差异。此外，引入 “Spot Check Equivalence” 以统一这些不同的上下文，并提出了计算其效果的两种方法。模拟结果验证了我们提出度量标准的有效性。

Feb, 2024

联合识别和修复信息抽取系统不一致的读取结果

KGCleaner 是一个用于识别和纠正信息抽取系统生成和交付的数据中的错误的框架，引入了一个联合学习预测抽取关系的可信度和修复方法，并通过两个数据集的评估验证了该方法的有效性，其中参数简单的浅层神经网络可以在可信度分类方面实现绝对性能增益，并且在修复任务上可以根据数据集和模型的性质获得显著的性能提升。

Aug, 2018

SPot：一种用于识别财务表格中营运部门的工具

本文介绍了 SPot，一种自动化工具，可以从收益报告中检测运营部门及其相关的绩效指标。通过训练双向 RNN 分类器，SPot 可以区分常见指标（如 “收入”）和公司特定指标（如 “iPhone” 或 “云服务”），从而发现公司特定的运营部门。该工具提供了交互式网络界面，让用户跟踪和调整每个运营部门的绩效指标，可用于信用监控、竞争基准设定和公司和行业的趋势分析。

May, 2020

RealKIE: 为企业关键信息提取设计的五个新数据集

RealKIE 是一个具有五个具有挑战性数据集的基准测试，旨在推进关键信息提取方法，重点关注企业应用。这些数据集包括一系列不同类型的文档，包括 SEC S1 文件，美国保密协议，英国慈善报告，FCC 发票和资源合同。除了介绍这些数据集外，我们还提供了详细的注释过程、文档处理技术和基准建模方法的描述，以促进开发能处理实际挑战并支持研究产业特定问题的信息提取技术的进一步研究。

Mar, 2024