ESG 报告的高级非结构化数据处理:结构化转换和增强分析方法论
近十年来,随着投资者对环境、社会和公司治理(ESG)问题日益关注,一些监管机构开始要求上市公司披露非财务信息。本文利用大型语言模型和信息提取技术,从非结构化的多模态文档中提取语义结构化信息,并采用基于图的表示方法进行相关分析,揭示不同行业间的突出可持续行动和公司、部门以及区域层面的相似性和披露模式,最终通过研究发现和其他公司信息,探讨影响公司 ESG 评分最显著的实际因素。
Oct, 2023
该研究旨在通过分析关键词的变化,揭示全球市场中企业 ESG 主题的变化,并基于这些分析结果构建一个 ESG 战略模型。通过分析技术公司的 21 世纪 ESG 报告,研究发现 ESG 主题近年来在不断演变。
Sep, 2023
ESGReveal 是一种创新方法,利用大型语言模型(LLM)结合检索增强生成(RAG)技术高效提取和分析企业报告中的环境、社会和治理(ESG)数据,满足可靠的 ESG 信息检索的紧迫需求。它能够精确提取数据并分析披露,为企业可持续发展提供透明度和准确性,表明在 ESG 数据处理方面有促进透明度和实现可持续发展目标的潜力。
Dec, 2023
该研究论文通过使用社会情感考量,旨在创建一个数据驱动的 ESG 评估体系,该体系可以通过提供更加平衡的观点和更系统化的评分来为公司提供更好的指导,从而帮助公司创建更具针对性和有影响力的倡议。使用基于 Python 的网络爬虫从维基百科、推特、领英和谷歌新闻中收集数据,然后通过自然语言处理算法对 ESG 子类别进行情感评分。然后使用这些特征,训练和校准机器学习算法以测试其预测能力,其中最强大的模型是随机森林模型,其平均绝对误差为 13.4%,相关性为 26.1%(p 值为 0.0372),显示出令人鼓舞的结果。总的来说,跨子类别测量 ESG 社会情感可以帮助高管将努力集中在人们最关注的领域。此外,这种数据驱动方法可以为没有覆盖范围的公司提供评级,从而使更多具有社会责任感的公司得以发展。
Sep, 2023
我们创建了 ESG-FTSE 语料库,其中包含了带有 ESG 相关标注的新闻文章。我们开创了 ESG 标注方案,并进行了相关实验,证明该语料库可以用于准确的 ESG 预测。
May, 2024
本文研究了基于自然语言处理技术对 ESG 文本进行分类的方法,通过对 BERT 模型进行细调,建立了一个 ESG 领域专用的预训练模型,并在环境类别的分类任务中取得了优于原 BERT 模型和基准模型的准确率。
Mar, 2022
通过将表格转化为语句,我们提出了一种新颖的无特定领域数据结构,用于提取定量事实和相关信息,通过研究基于 T5 的语句提取模型,我们的最佳模型与基准模型相比,生成的语句与实际数据相似度达到了 82%,通过将模型应用于 ESG 报告中的超过 2700 个表格,我们展示了语句的优势,允许对大量 ESG 报告中的丰富信息进行探索性数据分析。
Jun, 2024
Trading Central Labs 和 La Rochelle 大学的 L3i 实验室在 ESG 领域上的合作中,基于预训练的 BERT 和 RoBERTa 模型,提出了对 Fortia ESG 分类体系的新条目和 ESG 相关句子的分类方法。该方法在两个子任务中均取得了显著的性能提升,并跻身最佳系统之一。
Jul, 2022
本文介绍了利用自然语言处理技术构建的问答型模型 ClimateQA,该模型可用于分析财务报告以确定与气候相关的内容,以应对气候变化对全球股市等投资领域的巨大影响。
Nov, 2020
快速发展的分布式账本技术 (DLTs) 需要深入了解其各个组成部分,然而,目前尚缺乏一个着重于 DLT 的环境可持续性和治理 (ESG) 组成部分的系统文献综述。为弥补这一空白,我们选择了 107 篇种子论文,构建了一个由 63,083 个参考文献组成的引用网络,并将其精简为 24,539 篇出版物进行分析。然后,我们根据已建立的技术分类体系,用 12 个顶级类别对 46 篇论文中的命名实体进行了标记,并通过指出 DLT 的 ESG 元素来完善该分类体系。利用基于转换器的语言模型,我们对预训练语言模型进行微调,用于命名实体识别 (NER) 任务。我们使用微调后的语言模型从整个语料库中提炼出 505 篇关键论文,通过命名实体和时序图分析在 ESG 背景下的 DLT 演进进行文献综述。我们的贡献是一种用于在 DLT 领域进行机器学习驱动的系统文献综述的方法,在其中特别强调 ESG 方面。此外,我们还提供了一个专为 DLT 和 ESG 相关研究设计的首个命名实体识别数据集,其中包含 54,808 个命名实体。
Aug, 2023