使用 Fine-Tuned BERT 和 LSTM 模型从 10-K 报告中找到利益相关者相关信息
年度报告包含了上市公司的财务状况,有助于评估其对股票价格的潜在影响。本文利用大型语言模型的能力简化了所有公司年度报告的评估过程,并通过历史股价数据编制了量化模型数据集,使用机器学习模型进行训练,结果显示出对标普 500 指数的良好超额收益。该研究为未来相关工作提供了一个框架,同时开源了相关代码。
Sep, 2023
我们提出并实现了一个利用预训练语言模型处理长文本文档的深度学习框架,将长文档分成块,并利用自注意力机制提取有价值的文档级特征,该框架在美国银行的 10-K 公开披露报告和其他美国公司提交的报告数据集上表现出色,是文本建模和回归模型的更好选择,利用预训练的领域特定和微调的模型在表示文本数据方面的效果较好,从而有助于提高预测分析的质量。
Jun, 2022
本文使用 BERT 等基于变换器的语言模型对不同公司相关文本数据进行分类,以预测一年的股票表现,并使用新闻文章、博客和年报三种不同类型的文本数据进行分析。研究发现,使用新闻文章源的 StonkBERT 在股票表现分类方面比传统语言模型表现出更好的预测精度,该研究还表明这种精度提升也会转化为股票市场上超出平均的回报率。
Feb, 2022
本研究通过基于 BERT 的分析,预测濒临破产的公司披露数据。我们使用 BERT 模型对 MD&A 披露进行情感分析,结果表明 BERT 在逻辑回归、k 最近邻分类器和线性核支持向量机的调整 R 平方方面优于基于词典和 Word2Vec 的预测方法。通过对企业披露数据(10-K)进行自学习和置信度过滤而非从头开始预训练 BERT 模型,我们实现了 91.56% 的准确率,并证明了域自适应过程对预测准确性的显著改进。
Dec, 2023
近十年来,随着投资者对环境、社会和公司治理(ESG)问题日益关注,一些监管机构开始要求上市公司披露非财务信息。本文利用大型语言模型和信息提取技术,从非结构化的多模态文档中提取语义结构化信息,并采用基于图的表示方法进行相关分析,揭示不同行业间的突出可持续行动和公司、部门以及区域层面的相似性和披露模式,最终通过研究发现和其他公司信息,探讨影响公司 ESG 评分最显著的实际因素。
Oct, 2023
通过使用 Google 开发的预训练模型 BERT 以及 LSTM,结合期权和市场隐含方法,构建了一个更通用和综合的金融情感分析框架,证明了在金融情感分析中应用 BERT 相较于现有模型的显著改进,并进一步提供了对个股收益率可预测性的令人信服的结果。
Jun, 2019
本研究提出了一种适用于金融文本的多标签主题模型,使用新的金融多标签数据库进行训练,并通过分析股市反应来研究不同主题之间的差异以及协同出现主题对股市反应的影响,模型的最佳表现可达到超过 85% 的宏观 F1 得分。
Nov, 2023
通过使用多任务学习方法,结合不同任务上的信息,我们提出了多种金融文本分类方法,重点关注金融情绪、客观性、前瞻性句子预测和 ESG 内容检测。然后,我们使用这些分类器从 FTSE350 公司的年度报告中提取文本特征,并研究 ESG 定量分数与这些特征之间的关联。
Apr, 2024
本研究利用 BERT 语言模型探索了多种策略,用于准确分类新闻文档至 35 个不同的 ESG 问题类别,结果显示 RoBERTa 分类器在英文测试数据集中位居第二,并在法语测试数据集中与其他模型并列第五,此外,我们针对中文设计的基于 SVM 的二元模型在测试数据集中展现了优异的性能,位居第二。
Sep, 2023
OpenAI 的 GPT-3.5-turbo 和 GPT-4 等最先进的语言模型在人工智能领域提供了自动化复杂任务的前所未有的机会。本研究将这些模型的能力应用于韩国背景下企业信息披露的语义分析,尤其关注韩国 KOSPI 上市的市值前 50 家公司的月度披露摘要。通过将每个摘要分配到 1(非常负面)到 5(非常正面)的情感评分,以人工专家所生成的评分与语言模型生成的评分进行对比,研究发现了 GPT-3.5-turbo 和 GPT-4 之间明显的性能差异,后者在人工评价测试中表现出了显著的准确性。Spearman 相关系数为 0.61,简单一致性率为 0.82。该研究为 GPT 模型的评估特性提供了宝贵的见解,为自动语义监控领域的未来创新奠定了基础。
Sep, 2023