个体文本语料预测开放性、兴趣、知识和教育水平

Mar, 2024

个体文本语料预测开放性、兴趣、知识和教育水平

Individual Text Corpora Predict Openness, Interests, Knowledge and Level of Education

Markus J. Hofmann, Markus T. Jansen, Christoph Wigbels, Benny Briesemeister, Arthur M. Jacobs

TL;DR通过对用户的谷歌搜索历史进行分析，我们研究了个体的开放性经验维度是否可以进行预测。使用网络爬虫技术，我们从214名参与者生成了个体文本语料库(ICs)，平均包含500万个词元。我们训练了word2vec模型，并使用IC标签词的相似性进行标注，这些标签词是从人格词汇的词法方法中得出的。这些IC-标签词的相似性被用作神经模型的预测特征。我们使用179名参与者进行训练和验证，并保留了35个参与者的测试样本。我们进行了一系列的网格搜索，包括不同数量的预测特征、隐藏单元和提升因子。我们使用在验证样本上的R2值作为模型选择准则，同时还考虑了训练和验证之间的R2差异。选择的神经模型在测试样本中解释了35%的开放性方差，具有相同架构的集成模型对知识人文学科的兴趣和教育水平提供了稍微更稳定的预测。最后，学习曲线分析表明大约需要500名训练参与者来进行具有普遍适用性的预测。我们讨论了个体文本语料库作为问卷调查心理诊断的补充或替代品。

Abstract

Here we examine whether the personality dimension of openness to experience can be predicted from the individual google search history. By