Jun, 2024

基于RNN、随机森林和XGBoost的分类建模用于非平衡数据: 东盟5国股市早期崩盘检测案例

TL;DR该研究通过使用简单的RNN等多种循环神经网络(RNN)结构与经典算法进行比较,评估其在构建ASEAN-5股票市场中用于早期崩盘检测的分类模型方面的性能。研究使用不平衡数据进行分析,该类数据很常见,因为市场崩盘的发生是罕见的。研究分析了2010年至2023年期间东盟五国主要股票市场的日常数据,包括印度尼西亚、马来西亚、新加坡、泰国和菲律宾。以股票价格指数低于5%、2.5%和1%的风险值为阈值时,将其定义为市场崩盘的目标变量。预测变量包括主要本地和全球市场以及大宗商品市场的技术指标。本研究包括213个具有各自滞后期(5、10、15、22、50、200)的预测变量,并使用时间步长7,将预测变量的总数扩大到1491。通过SMOTE-ENN解决了数据不平衡的挑战。结果表明,所有基于RNN的结构均优于随机森林和XGBoost。在各种RNN结构中,由于数据特征不过于复杂且更关注短期信息,简单的RNN表现出色。该研究通过包含不同地理区域和时间段以及方法上的调整,增强了和扩展了以往研究观察到的现象范围。