Oct, 2023
ChiSCor:荷兰儿童自由叙述的奇幻故事语料库,供计算语言学和认知科学使用
ChiSCor: A Corpus of Freely Told Fantasy Stories by Dutch Children for Computational Linguistics and Cognitive Science
Bram M.A. van Dijk, Max J. van Duijn, Suzan Verberne, Marco R. Spruit
TL;DR本研究详细介绍了 ChiSCor 的构建过程,并展示了其在三个简短的案例研究中的潜力:首先,展示了故事的句法复杂度在儿童年龄段之间相对稳定;其次,扩展了关于自由言论中 Zipf 分布的研究并展示了 ChiSCor 与社会环境反映了 Zipf 定律的密切相关性;第三,展示了即使 ChiSCor 规模相对较小,该语料库仍足够丰富,可以训练信息丰富的词形向量,用于分析儿童的语言使用。最后,我们对叙事数据集在计算语言学中的价值进行了思考。