Dec, 2019

亚洲宗教有何共同之处?一次无监督文本分析探索

TL;DR本文试图通过文本挖掘技术,探索亚洲和非亚洲的宗教经典之间的相似性,并使用监督学习算法,测量其正确预测各种经文的准确性。利用欧几里得、曼哈顿、Jaccard 和 Cosine 等相似性度量方法以及基于文档单词出现频率和规范化文档单词出现频率等相似性度量方法,得到了一些发现。K-means 聚类可视化揭示了宗教经典之间的相似性模式,其中乌梅尼西亚和道德经是语料库中最相似的文本。