FinTruthQA：评估金融信息披露质量的基准数据集

Jun, 2024

FinTruthQA：评估金融信息披露质量的基准数据集

FinTruthQA: A Benchmark Dataset for Evaluating the Quality of Financial Information Disclosure

Ziyue Xu, Peilin Zhou, Xinyu Shi, Jiageng Wu, Yikang Jiang...

TL;DR建立了一个名为 FinTruthQA 的基准，用于自动评估金融问答数据中信息披露质量，为会计和金融领域的技术研究和数据驱动的决策提供了坚实的基础。

Abstract

Accurate and transparent financial information disclosure is crucial in the fields of accounting and finance, ensuring market efficiency and investor confidence. Among many information disclosure platforms, the Chinese stock exchanges' →

financial information disclosure investor interactive platform natural language processing benchmark fintruthqa automatic evaluation

发现论文，激发创造

FinTextQA：长文本金融问答数据集

该研究介绍了 FinTextQA，这是一个用于金融领域长篇问答的创新数据集，并开发了一个基于 RAG 的 LFQA 系统，通过多角度评估方法得出了在噪声环境下不同配置的 LFQA 系统的性能表现和模型对噪声的容忍度。

May, 2024

FinanceBench: 金融问题回答的新基准

FinanceBench 是一个对 LLMs 在开放式财务问答（QA）中性能评估的首个测试套件，通过对公开交易公司的 10,231 个问题进行测试，发现现有的 LLMs 在财务 QA 方面存在明显的局限性。

Nov, 2023

一种基于 DeBERTa 的新型金融问答模型

该文介绍了基于 DeBERTa 预训练语言模型的金融问答系统在 FinQA 挑战赛中的应用，通过多模型融合和训练集组合等优化方法，输出准确度达到 68.99，程序准确度达到 64.53，排名第四。

Jul, 2022

SEC-QA: 金融问答的系统评估语料库

金融数据分析中普遍面临的挑战是找到能准确反映实际任务用于模型评估的数据集，作者提出了一种连续的数据集生成框架 SEC-QA，在这个框架中，提供了两个重要功能，分别是跨多个长文本金融文件生成问题 - 答案 (QA) 对，以更好地代表真实世界金融场景，并且能够利用最新的公共文件集刷新数据集，这些文件集 LLMs 尚未接触到。实验证明，当前的检索增强型生成方法不能够有效回答这些复杂的多文档问题，为此，作者引入了一种基于思维程序的 QA 系统，提高了复杂信息检索和定量推理流程的能力，从而提高了 QA 准确性。

Jun, 2024

FinQA: 金融数据上的数值推理数据集

为了解决金融领域中财务报表分析的难题，本文提出了一个新的数据集 FinQA，并进行了广泛的实验。实验结果显示预训练模型在金融知识和复杂多步骤的数值推理方面远远不及专家人类。这个新的数据集应该为复杂应用领域的深入研究提供了可能性。

Sep, 2021

多策略文本处理在金融数据分析应用中的应用

本文主要介绍了如何利用多种数据挖掘技术和深度学习应用于金融文本处理场景，并且展示了如何使用自然语言处理（NLP）和知识图谱（KG）技术来从异构数据中识别金融风险和机会。

Apr, 2022

Fin-Fact：一个用于多模态金融事实核查和解释生成的基准数据集

本文提出了 Fin-Fact，这是一个在金融领域内进行多模态事实检查的基准数据集，它包含专业事实检查员的注释和证明，旨在对抗金融领域的错误信息，增强事实性分析，提高金融报告和新闻传播的透明度和信任，并通过提供深入的解释和见解，使用户能够理解事实检查决策背后的推理，验证主张的可信度，以及促进对事实检查过程的信任。

Sep, 2023

FinEval：适用于大型语言模型的中文金融领域知识评估基准

使用 FinEval 基准测试，评估了当前中文和英文大型语言模型在金融领域知识方面的表现，结果显示只有 GPT-4 在不同提示设置下实现了接近 70% 的准确度，表明大型语言模型在金融领域知识方面具有显著的增长潜力。

Aug, 2023

文档理财问答：一个长文本金融推理数据集

在金融领域的定量推理研究中，由于商业和金融决策的重大影响，确实需要使用现实任务和数据。我们引入了一项长文档金融问答任务，通过在现有的 FinQA 数据集中添加完整文档的背景，将每个问题的平均上下文长度从 FinQA 的 700 个单词扩展到 DocFinQA 的 123k 个单词。我们对增强数据进行了广泛的基于检索的问答流程和长上下文语言模型的实验。结果表明，对于最强大的最先进系统来说，DocFinQA 提供了挑战。

Jan, 2024

FEQA: 抽象摘要中忠实度评估的问答评估框架

该研究提出了一种基于自动问答的 faithfulness 评估度量方式（FEQA），并发现当前的神经抽象概括模型存在抽象度和忠实度的权衡关系。

May, 2020