通过文本分析提升创业成功率

Dec, 2023

Improving Startup Success with Text Analysis

Emily Gavrilenko, Foaad Khosmood, Mahdi Rastad, Sadra Amiri Moghaddam

TL;DR通过扩大和丰富数据源以及特征数量，利用机器学习模型对创业公司的公开数据进行预测，可较准确地预测公司是否能在未来一定时间内筹集到资金。

Abstract

Investors are interested in predicting future success of startup companies, preferably using publicly available data which can be gathered using free online sources. Using public-only data has been shown to work,

startup companies prediction publicly available data machine learning models funding

发现论文，激发创造

使用 CrunchBase 数据进行创业成功预测和风投组合模拟

利用机器学习和深度学习模型，结合资金指标、创始人特征和行业分类等多个因素，预测初创企业成功的目标里程碑，如首次公开募股 (IPO)、独角兽地位、并购成功。通过使用 Crunchbase 的历史数据进行模型回测，并评估模型在真实投资环境中的实用性，研究结果显示了这种深度学习模型和非结构化数据在预测初创企业成功方面的巨大潜力，并为未来的研究进展提供了奠基。

Sep, 2023

从新闻中学习：在 Twitter 上预测实体的热度

本文使用监督学习方法，基于新闻周期预测 Twitter 上实体的受欢迎程度，并提取四类特征进行预测，结果表明新闻是预测 Twitter 实体受欢迎程度的良好信息源。

Jul, 2016

基于情感驱动的金融收益预测：一种贝叶斯增强的 FinBERT 方法

通过从推特中提取的情感信息，使用 FinBERT 大型语言模型的研究表明通过关联分析筛选特征集并采用贝叶斯优化的递归特征消除实现了超过 70% 的 F1 分数，从而在回测交易中获得了更高的累积利润。

Mar, 2024

使用 Stocktwits 数据进行文本挖掘以预测股票价格

介绍一个基于 ALBERT 算法的 FinALBERT 模型，训练数据为标记为股票价格变化的 25 个公司的 10 年的 Stocktwits 数据集，通过对传统机器学习、BERT 和 FinBERT 模型训练数据集的实验，得出该标记方法有竞争力优势，可以有效分析历史数据，预测股票走势。

Mar, 2021

利用特征研究从推特数据中归类抑郁症状以促进人群健康

通过特征消融实验和特征消除方法确定最佳分类性能，我们发现，词汇特征对于识别抑郁症状至关重要，简单的词汇特征和减少的特征集可以产生与更大的特征集相媲美的结果。

Jan, 2017

电影成功的早期预测：盈利的人、事、时

这篇论文提出了一个决策支持系统，利用从各种来源获得的历史数据、社交网络分析和文本挖掘技术，自动提取多组数据特征，包括 “谁” 在演员阵容中，“电影” 讲述的内容，“何时” 上映以及匹配 “谁” 和 “何时” 与 “电影” 相关的特征，从而预测电影的利润，实验证明此系统在预测电影利润方面的性能大大优于基准方法，同时其所提出的新特征也对电影利润预测做出了重要贡献。此外，对于电影利润的关键因素的分析也可能对团队绩效和创意工作的成功的理论研究产生影响。

Jun, 2015

利用时间序列分析和自然语言处理预测金融市场趋势

本研究通过时间序列分析和自然语言处理，评估了利用 Twitter 情感进行预测特斯拉、苹果等主要公司股票价格的可行性，结果表明积极性、消极性和主观性是股票价格波动的主要决定因素。该研究强调了将公众意见纳入股票价格预测的重要性，同时指出利用 Twitter 情感可以作为预测股票价格的有效工具，应纳入投资策略制定。

Aug, 2023

多策略文本处理在金融数据分析应用中的应用

本文主要介绍了如何利用多种数据挖掘技术和深度学习应用于金融文本处理场景，并且展示了如何使用自然语言处理（NLP）和知识图谱（KG）技术来从异构数据中识别金融风险和机会。

Apr, 2022

基于文本数据的次年破产预测：基准和基线模型

该论文基于新型和经典数据集引入了一个无结构数据情况下的基准测试，评估了几种经典和神经基础模型，并发现基于静态领域词汇表示的轻量级词袋模型在多年的文本数据中获得了出人意料的良好结果。

Aug, 2022

为决策支持形成推特的预测特征

本篇文章阐述了使用图论、频繁项集和关联规则理论，构建和检索不同特征来进行推测性分析，揭示与指定实体相关的推文的语义结构。并且证明了语义频繁项集的定量特征可以用于具有指定目标变量的预测回归模型。

Jan, 2022