利用传统与深度学习结合 Myers-Briggs 类型指标和文本发布风格辨别人格类型
本文讨论了自然语言处理中预训练语言模型在个性化分类方面的应用,并使用 BERT 模型在 MBTI 人格模型上进行了实验,发现该方法在多个评估场景下显著优于基于词袋和静态词嵌入的文本分类模型,并且通常优于前人在该领域的工作。
Jul, 2022
本文使用预训练的语言模型来预测基于标记文本的 MBTI 人格类型,并探讨了使用经过微调的 BERT 模型进行人格特定语言生成的可能性。
Jul, 2019
自动检测个性特征的研究方法已引起计算语言学领域的广泛关注,本文针对此领域中数据集有限的问题,收集和发布了一个包含 1.52 亿推文和 5.6 万份数据点的研究社区最大的自动整理数据集,以用于预测迈尔斯 - 布里格斯(MBTI)人格类型,通过对数据进行定性和定量研究,分析了数据的模式,并得出了相应的结论。
Sep, 2023
本文旨在确定最有效的机器学习模型,以准确地从 Reddit 帖子和 Kaggle 数据集中对 Myers-Briggs 类型指标(MBTI)进行分类。我们应用多标签分类和二元关联方法,并使用可解释的人工智能(XAI)方法突出流程和结果的透明度和可理解性。为了实现这一目标,我们试验了针对简单性、透明度和可解释性而设计的玻璃盒学习模型。我们选取了 k-Nearest Neighbour、Multinomial Naive Bayes 和 Logistic Regression 作为玻璃盒模型。我们表明,如果排除观察者(S)特质类别,Multinomial Naive Bayes 和 k-Nearest Neighbour 表现更好,而当所有类别都有超过 550 条记录时,Logistic Regression 获得最佳结果。
May, 2024
提出了 Story2Personality 数据集,该数据集主要用于预测电影角色的人格特质。实验证明,使用多视角模型可以比仅使用语言描述获得更高的人格预测准确率。
Oct, 2022
我们提出了一种将 Myers-Briggs Type Indicator (MBTI) 个性特征整合到大型语言模型 (LLMs) 中的新方法,解决了个性一致性在个性化人工智能中的挑战。我们的方法,称为 “Machine Mindset”,通过两阶段的微调和直接偏好优化 (DPO) 将 MBTI 特征嵌入 LLMs 中。这种方法确保模型内化这些特征,提供了稳定和一致的个性配置文件。我们通过在不同领域展示模型表现与其对应的 MBTI 特征之间的对齐,证明了我们模型的有效性。该论文在个性数据集的开发和个性整合在 LLMs 的新训练方法方面做出了重大贡献,增强了个性化人工智能应用的潜力。我们还在 https://github.com/PKU-YuanGroup/Machine-Mindset 上开源了我们的模型和部分数据。
Dec, 2023
通过分析个人的在线数字足迹,我们比较和研究了逻辑回归、朴素贝叶斯、支持向量机和随机森林等四个模型在预测人们完整性格类型方面的准确性和多样性,结果显示 SVM 模型以 20.95% 的准确性表现最优,尽管逻辑回归模型稍有劣势,但培训速度和预测性能明显更快,我们发现社交媒体上的个人特征标记数据集以及其他数据集都存在较大的类别不平衡问题,因此强调了在这些数据集上报告模型性能时需予以谨慎,同时我们比较了几种解决类别不平衡问题的方法,并开发了一个统计框架来评估模型中不同特征集的重要性,研究发现,对于直觉 / 感知模型(p = 0.032)和思维 / 情感模型(p = 0.019),某些特征相对于其他特征更具信息量,尽管我们将这些方法应用于 Myers-Briggs 性格分类中,但它们也可以更广泛地用于社交媒体上对个体的标记。
Sep, 2023
本研究使用神经网络和分布式算法来提取文本的隐藏性信息,研究人员从心理学文献定义的五大人格特征(Big Five)的形容词词典开始,并构造了包含文本语义信息的嵌入,证明了个人写作风格与其人格特征密切相关。
Feb, 2023
本文提出一种基于深度学习的方法,结合了卷积神经网络和 AdaBoost 算法对人格进行自动识别,并在 Essay 数据集上得到了比机器学习和深度学习方法更优的实验结果。
Jan, 2022
通过深度学习方法和文本的原子特征 —— 字符,建立层次化的句向量表示,应用于推文语料库中,有效识别出作者人格特质,与先前基于浅层学习模型的工作相比,在五个特质和三种语言(英语、西班牙语和意大利语)中表现最优,结果鼓舞人心,揭示了检测复杂人类特质的可能性。
Oct, 2016