结合荷兰调查和登记数据的数据挑战，预测生育率（PreFer）

Feb, 2024

结合荷兰调查和登记数据的数据挑战，预测生育率（PreFer）

Combining the Strengths of Dutch Survey and Register Data in a Data Challenge to Predict Fertility (PreFer)

Elizaveta Sivak, Paulina Pankowska, Adrienne Mendrik, Tom Emery, Javier Garcia-Bernardo...

TL;DR本文介绍了两个数据集，用于研究荷兰的生育结果的可预测性，并提出了基于这些数据集的生育预测数据挑战，旨在推动我们对生育行为和计算社会科学的理解。

Abstract

The social sciences have produced an impressive body of research on determinants of fertility outcomes, or whether and when people have children. However, the strength of these determinants and underlying theories are rarely evaluated on their →

fertility outcomes predictive ability datasets netherlands data challenge

发现论文，激发创造

关于全球各国总生育率的概率预测中对过去数值不确定性的计算

本研究利用贝叶斯分层模型考虑数据源不确定性对总生育率的未来预测，通过额外的分层模型估计其偏差和测量误差方差，最终通过预测验证得出建议方法提高预测准确性。

Jun, 2018

使用多磨坊主题分析方法的生育建议的实证研究

通过共现语义分析、主题分析和情感分析对微博评论进行多层次语义分析，发现关于＂取消出生登记的婚姻限制＂的讨论涉及个人、社会和国家三个层面，细分为个人行为、社会伦理和法律以及国家政策等社会问题，大多数话题中人们的情感倾向消极。基于此，提出了八项建议，为政府决策提供参考，并形成研究政治问题公众舆论的参考方法。

Jul, 2023

预测建模的预登记

通过研究预测建模中出现的再现性和泛化性的担忧，我们探讨引入先注册的可能性和潜在好处。虽然预测建模取得了显著进展，涵盖了核心机器学习任务和各种科学应用，但是忽视的背景因素、基于数据的决策和意外重复使用测试数据等挑战引发了对结果完整性的质疑。为解决这些问题，我们建议从解释性建模中借鉴先注册实践到预测建模中。我们讨论了预测建模的当前最佳实践及其局限性，引入了一个轻量级的先注册模板，并进行了一项定性研究，以了解先注册在预防有偏估计和促进更可靠的研究结果方面的有效性。最后，我们探讨了先注册可以解决的预测建模问题的范围，并在此背景下承认其局限性。

Nov, 2023

利用女性健康跟踪移动应用的大规模数据预测妊娠

通过使用 Clue by BioWink GmbH 的数据集，研究人员开发了 4 种模型来预测女性怀孕的概率，在对 79 百万日志和 65,276 名女性进行测试后，模型预测的怀孕概率分层明显，结果与之前的生育研究趋势一致，显示了妇女健康跟踪数据对广泛人群怀孕的潜力。

Dec, 2018

孩子是男人之父：从早期阶段预测成功

本研究提出一种包含学术特征设计、非线性、领域异质性和动态性等多个方面的考虑的预测模型，采用数据挖掘技术，在大规模真实学术数据集上进行实证研究。

Apr, 2015

Europepolls: 欧盟和英国的国家级民调数据集

构建一个开放的国家级历史民意调查数据集，以填补现有欧盟民意调查数据的不足，并为研究人员提供解析多模态数据（新闻文章、经济指标、社交媒体）和选民行为之间复杂交互的机会。

Jul, 2023

机器学习算法在人口统计学上的公正性

研究俄罗斯人口数据的分类器的公平性问题，提出了使用 “特征丢弃” 来解决过程公平性，同时使用 “LIME 解释” 来评估分类器的公平性和决定敏感特征的消除，结果表明所有的模型都变得不再依赖于敏感特征，并表现出更好或没有影响的准确性。

Feb, 2022

从多语种社交媒体数据中推断人口统计和代表性人口估计

本研究使用多语言人口统计学推断方法和后统计方法来纠正社交媒体数据的样本偏差，并减少算法偏差，在欧洲的跨语言环境下，并取得了显著的改进。

May, 2019

城市宜居性的时间序列分析

通过深度学习模型，我们对荷兰城市邻里层面的长期宜居性变化进行监测。通过将年度可用的高分辨率航拍图像与宜居度量标准 (Leefbaarometer) 相结合，我们训练了一个卷积神经网络，用于预测新的时间步长中的宜居性。研究结果显示，对于训练过程中未见过的城市 (Eindhoven)，宜居性的趋势难以解释，这也体现了在不同时间段内监测宜居性的复杂性以及需要更复杂的方法来补偿与宜居性动态无关的变化。

Sep, 2023

GLOBEM 数据集：用于纵向人类行为建模泛化的多年数据集

本文介绍了一份多年的被动监测数据集，用于支持进行跨数据集评估行为建模算法的泛化性能，并提供 18 种算法在抑郁症检测任务上的基准结果。结果表明，先前的抑郁症检测算法和领域泛化技术都有潜力但需要进一步研究才能实现充分的跨数据集泛化能力。

Nov, 2022