Dec, 2023

时代中的涟漪:美国历史的不连续性

TL;DR使用向量嵌入技术(如 BERT 和 GPT-2)以及非线性降维方法(如 UMAP),对国情咨文数据集进行分析,发现 GPT-2 + UMAP 作为替代方案能够提供更好的分离和聚类效果,并使用 DistilBERT 模型进行分类,取得了很好的结果(准确率 93% - 95%)。