十个预测因子准确分类你是内向还是外向?
通过分析个人的在线数字足迹,我们比较和研究了逻辑回归、朴素贝叶斯、支持向量机和随机森林等四个模型在预测人们完整性格类型方面的准确性和多样性,结果显示 SVM 模型以 20.95% 的准确性表现最优,尽管逻辑回归模型稍有劣势,但培训速度和预测性能明显更快,我们发现社交媒体上的个人特征标记数据集以及其他数据集都存在较大的类别不平衡问题,因此强调了在这些数据集上报告模型性能时需予以谨慎,同时我们比较了几种解决类别不平衡问题的方法,并开发了一个统计框架来评估模型中不同特征集的重要性,研究发现,对于直觉 / 感知模型(p = 0.032)和思维 / 情感模型(p = 0.019),某些特征相对于其他特征更具信息量,尽管我们将这些方法应用于 Myers-Briggs 性格分类中,但它们也可以更广泛地用于社交媒体上对个体的标记。
Sep, 2023
通过对用户的谷歌搜索历史进行分析,我们研究了个体的开放性经验维度是否可以进行预测。使用网络爬虫技术,我们从 214 名参与者生成了个体文本语料库 (ICs),平均包含 500 万个词元。我们训练了 word2vec 模型,并使用 IC 标签词的相似性进行标注,这些标签词是从人格词汇的词法方法中得出的。这些 IC - 标签词的相似性被用作神经模型的预测特征。我们使用 179 名参与者进行训练和验证,并保留了 35 个参与者的测试样本。我们进行了一系列的网格搜索,包括不同数量的预测特征、隐藏单元和提升因子。我们使用在验证样本上的 R2 值作为模型选择准则,同时还考虑了训练和验证之间的 R2 差异。选择的神经模型在测试样本中解释了 35% 的开放性方差,具有相同架构的集成模型对知识人文学科的兴趣和教育水平提供了稍微更稳定的预测。最后,学习曲线分析表明大约需要 500 名训练参与者来进行具有普遍适用性的预测。我们讨论了个体文本语料库作为问卷调查心理诊断的补充或替代品。
Mar, 2024
本文讨论了自然语言处理中预训练语言模型在个性化分类方面的应用,并使用 BERT 模型在 MBTI 人格模型上进行了实验,发现该方法在多个评估场景下显著优于基于词袋和静态词嵌入的文本分类模型,并且通常优于前人在该领域的工作。
Jul, 2022
该研究论文在社交媒体上对作者进行个性化分析,比较了从自我报告的心理测验和已有标签中获取数据的方法和使用经过验证的心理测验数据的方法。使用 T5 数据增强的 BERT 分类器在大五个性特征的小数据集上表现可比附近领域训练的模型。
Feb, 2022
本文使用预训练的语言模型来预测基于标记文本的 MBTI 人格类型,并探讨了使用经过微调的 BERT 模型进行人格特定语言生成的可能性。
Jul, 2019
本文旨在确定最有效的机器学习模型,以准确地从 Reddit 帖子和 Kaggle 数据集中对 Myers-Briggs 类型指标(MBTI)进行分类。我们应用多标签分类和二元关联方法,并使用可解释的人工智能(XAI)方法突出流程和结果的透明度和可理解性。为了实现这一目标,我们试验了针对简单性、透明度和可解释性而设计的玻璃盒学习模型。我们选取了 k-Nearest Neighbour、Multinomial Naive Bayes 和 Logistic Regression 作为玻璃盒模型。我们表明,如果排除观察者(S)特质类别,Multinomial Naive Bayes 和 k-Nearest Neighbour 表现更好,而当所有类别都有超过 550 条记录时,Logistic Regression 获得最佳结果。
May, 2024
本研究运用朴素贝叶斯、支持向量机和循环神经网络等机器学习技术,基于 Myers-Briggs 类型指标(MBTI)的文本预测人格,并应用 CRISP-DM 和敏捷方法来指导学习过程。
Jan, 2022
本研究使用《权力的游戏》作为研究对象,通过调查收集数据,分别从候选人好感度和候选人人格评分两个角度,比较了不同心理预测因素的效果,结果表明,情感价值和基本情感特征比候选人好感度更能准确预测获胜者。
Feb, 2020
利用预训练语言模型的提示学习方法,采用数据增强和模型组合,实现了计算机对主观性、情感和社交媒体分析领域的个性预测任务,同时提供了在线软件演示和代码的方便研究。
Mar, 2022
通过自然语言处理和机器学习工具,本研究使用语言特征自动推断患者的人格类型,并验证了基于语言特征的自动分类模型在个性分类中的优越性。
Nov, 2023