FiNCAT:金融数字赔付分析工具
进行标记是费时且昂贵的,因此该研究引入了 XBRL 标记作为金融领域新的实体提取任务,并发布了 FiNER-139 数据集,其中包含 110 万句子和黄金 XBRL 标记。该研究表明,采用字母级别的词元分割会损害 BERT 的性能,而采用单词级别的 BILSTMs 的性能更佳。此外,该研究还提出了两种简单而有效的解决方案,以改善 BERT 的性能。最终,该研究通过数据和错误分析确定了潜在的限制,为未来的 XBRL 标记工作提供了启示。
Mar, 2022
本研究旨在探讨大规模预训练语言模型在金融领域中实现数值推理的挑战,提出了一个新的大规模数据集 ConvFinQA,对其进行了综合性实验和分析,为研究实际世界中复杂推理任务提供新的资源。
Oct, 2022
我们通过使用大型语言模型(LLMs)的指导调优,研究了用 XBRL 标签自动注释在财务文件中出现的相关数值(GAAP 指标)的问题,提出了一种参数高效的解决方案(FLAN-FinXC),并在两个最近发布的财务数字标签数据集上取得了最新的最佳表现。
May, 2024
该篇论文研究如何自动给财务报表中的数字赋予特定标签,提出了一个多标签分类的数据集和两种解决方案,并发现第二种方法比第一种略优。
Jun, 2023
为了解决金融领域中财务报表分析的难题,本文提出了一个新的数据集 FinQA,并进行了广泛的实验。实验结果显示预训练模型在金融知识和复杂多步骤的数值推理方面远远不及专家人类。这个新的数据集应该为复杂应用领域的深入研究提供了可能性。
Sep, 2021
该研究旨在对从医疗文件中提取的数值进行分类,涵盖了七个不同的生理类别,采用了 CamemBERT-bio 模型。为了提升 CamemBERT-bio 的性能,我们引入了两个主要创新:将关键词嵌入到模型中,并采用了一种排除所有数值数据的无数值策略。此外,我们还使用一种简单的方法来确定提取的数值数据的重要性,这涉及验证数值是否落在既定标准范围内。鼓舞人心的发现表明,CamemBERT-bio 的效果得到了显著改善,F1 得分达到了 0.89,超过传统方法的 0.73 F1 得分的 20%以上,并且超过现有方法的 0.82 F1 得分的 9%以上。尽管使用的是小规模和不平衡的训练数据集,我们也取得了这些成果。
May, 2024
本文提出了一种使用不同专业能力的模型进行融合的方法,以解决财务问题的数字推理任务,并在 FinQA 挑战赛中获得了第一名,执行准确率为 71.93%,程序准确率为 67.03%。
Jun, 2022
本研究提出了一种针对金融文本和表格数据的数字推理问题回答系统,该系统包括检索器模块、生成器模块和集成模块。在私人测试集上的表现可达 69.79 个执行精度。
Jun, 2022
该研究提出了一种方法来研究 Transformer 语言模型内部如何表示数字数据,并使用该方法分析了 ALBERT 语言模型系列。通过主成分分析(PCA),我们提取这些模型用于表示数字和序数的令牌的学习嵌入,PCA 结果显示不同大小、训练和初始化分开的 ALBERT 模型一致地学习使用变化最大的轴来表示各种数值概念的近似排序,数字及其文本对应部分分别在不同的簇中表示,但在 2D 空间中沿着相同的方向增长。我们的发现表明,纯粹用于建模文本的语言模型可以理解基本的数学概念,为与定量推理交叉的 NLP 应用开辟了新的发展路径。
Apr, 2024
本文旨在满足金融领域中对预训练语言模型的需求,提出了一种基于大量金融通信语料库的金融领域特定 BERT 模型(FinBERT),在三个金融情感分类任务上的实验结果证明了 FinBERT 相比于一般领域的 BERT 模型具有优势。
Jun, 2020