使用 Fine-Tuned BERT 和 LSTM 模型从 10-K 报告中找到利益相关者相关信息

Aug, 2023

使用 Fine-Tuned BERT 和 LSTM 模型从 10-K 报告中找到利益相关者相关信息

Finding Stakeholder-Material Information from 10-K Reports using Fine-Tuned BERT and LSTM Models

Victor Zitian Chen

TL;DR利用 BERT 模型和 RNN 模型对关键信息进行提取和识别，并通过使用标记的训练数据进行训练，取得了较高的准确度和 F1 分数，这对于现有的基准模型是一次显著改进。

Abstract

All public companies are required by federal securities law to disclose their business and financial activities in their annual 10-k reports. Each report typically spans hundreds of pages, making it difficult for human readers to identify and extract the material information efficientl

bert models rnn models stakeholder-material information 10-k reports business expert-labeled training data

发现论文，激发创造

GPT-InvestAR: 通过大型语言模型对年度报告分析增强股票投资策略

年度报告包含了上市公司的财务状况，有助于评估其对股票价格的潜在影响。本文利用大型语言模型的能力简化了所有公司年度报告的评估过程，并通过历史股价数据编制了量化模型数据集，使用机器学习模型进行训练，结果显示出对标普 500 指数的良好超额收益。该研究为未来相关工作提供了一个框架，同时开源了相关代码。

Sep, 2023

FETILDA：长篇财经文本嵌入的有效调优框架

我们提出并实现了一个利用预训练语言模型处理长文本文档的深度学习框架，将长文档分成块，并利用自注意力机制提取有价值的文档级特征，该框架在美国银行的 10-K 公开披露报告和其他美国公司提交的报告数据集上表现出色，是文本建模和回归模型的更好选择，利用预训练的领域特定和微调的模型在表示文本数据方面的效果较好，从而有助于提高预测分析的质量。

Jun, 2022

StonkBERT：语言模型能否预测中期股票价格波动？

本文使用 BERT 等基于变换器的语言模型对不同公司相关文本数据进行分类，以预测一年的股票表现，并使用新闻文章、博客和年报三种不同类型的文本数据进行分析。研究发现，使用新闻文章源的 StonkBERT 在股票表现分类方面比传统语言模型表现出更好的预测精度，该研究还表明这种精度提升也会转化为股票市场上超出平均的回报率。

Feb, 2022

领域适应 BERT 预测企业破产

本研究通过基于 BERT 的分析，预测濒临破产的公司披露数据。我们使用 BERT 模型对 MD&A 披露进行情感分析，结果表明 BERT 在逻辑回归、k 最近邻分类器和线性核支持向量机的调整 R 平方方面优于基于词典和 Word2Vec 的预测方法。通过对企业披露数据（10-K）进行自学习和置信度过滤而非从头开始预训练 BERT 模型，我们实现了 91.56% 的准确率，并证明了域自适应过程对预测准确性的显著改进。

Dec, 2023

通过大型语言模型从可持续性报告中推导结构化洞见

近十年来，随着投资者对环境、社会和公司治理（ESG）问题日益关注，一些监管机构开始要求上市公司披露非财务信息。本文利用大型语言模型和信息提取技术，从非结构化的多模态文档中提取语义结构化信息，并采用基于图的表示方法进行相关分析，揭示不同行业间的突出可持续行动和公司、部门以及区域层面的相似性和披露模式，最终通过研究发现和其他公司信息，探讨影响公司 ESG 评分最显著的实际因素。

Oct, 2023

基于 BERT 的金融情感指数和基于 LSTM 的股票收益可预测性

通过使用 Google 开发的预训练模型 BERT 以及 LSTM，结合期权和市场隐含方法，构建了一个更通用和综合的金融情感分析框架，证明了在金融情感分析中应用 BERT 相较于现有模型的显著改进，并进一步提供了对个股收益率可预测性的令人信服的结果。

Jun, 2019

金融文本数据的多标签主题模型

本研究提出了一种适用于金融文本的多标签主题模型，使用新的金融多标签数据库进行训练，并通过分析股市反应来研究不同主题之间的差异以及协同出现主题对股市反应的影响，模型的最佳表现可达到超过 85% 的宏观 F1 得分。

Nov, 2023

金融年报特征提取的多任务学习

通过使用多任务学习方法，结合不同任务上的信息，我们提出了多种金融文本分类方法，重点关注金融情绪、客观性、前瞻性句子预测和 ESG 内容检测。然后，我们使用这些分类器从 FTSE350 公司的年度报告中提取文本特征，并研究 ESG 定量分数与这些特征之间的关联。

Apr, 2024

利用 BERT 语言模型进行多语言 ESG 问题识别

本研究利用 BERT 语言模型探索了多种策略，用于准确分类新闻文档至 35 个不同的 ESG 问题类别，结果显示 RoBERTa 分类器在英文测试数据集中位居第二，并在法语测试数据集中与其他模型并列第五，此外，我们针对中文设计的基于 SVM 的二元模型在测试数据集中展现了优异的性能，位居第二。

Sep, 2023

大型语言模型用于企业披露的语义监控：韩国前 50 家 KOSPI 公司的案例研究

OpenAI 的 GPT-3.5-turbo 和 GPT-4 等最先进的语言模型在人工智能领域提供了自动化复杂任务的前所未有的机会。本研究将这些模型的能力应用于韩国背景下企业信息披露的语义分析，尤其关注韩国 KOSPI 上市的市值前 50 家公司的月度披露摘要。通过将每个摘要分配到 1（非常负面）到 5（非常正面）的情感评分，以人工专家所生成的评分与语言模型生成的评分进行对比，研究发现了 GPT-3.5-turbo 和 GPT-4 之间明显的性能差异，后者在人工评价测试中表现出了显著的准确性。Spearman 相关系数为 0.61，简单一致性率为 0.82。该研究为 GPT 模型的评估特性提供了宝贵的见解，为自动语义监控领域的未来创新奠定了基础。

Sep, 2023