结合荷兰调查和登记数据的数据挑战,预测生育率(PreFer)
本研究利用贝叶斯分层模型考虑数据源不确定性对总生育率的未来预测,通过额外的分层模型估计其偏差和测量误差方差,最终通过预测验证得出建议方法提高预测准确性。
Jun, 2018
通过共现语义分析、主题分析和情感分析对微博评论进行多层次语义分析,发现关于"取消出生登记的婚姻限制"的讨论涉及个人、社会和国家三个层面,细分为个人行为、社会伦理和法律以及国家政策等社会问题,大多数话题中人们的情感倾向消极。基于此,提出了八项建议,为政府决策提供参考,并形成研究政治问题公众舆论的参考方法。
Jul, 2023
通过研究预测建模中出现的再现性和泛化性的担忧,我们探讨引入先注册的可能性和潜在好处。虽然预测建模取得了显著进展,涵盖了核心机器学习任务和各种科学应用,但是忽视的背景因素、基于数据的决策和意外重复使用测试数据等挑战引发了对结果完整性的质疑。为解决这些问题,我们建议从解释性建模中借鉴先注册实践到预测建模中。我们讨论了预测建模的当前最佳实践及其局限性,引入了一个轻量级的先注册模板,并进行了一项定性研究,以了解先注册在预防有偏估计和促进更可靠的研究结果方面的有效性。最后,我们探讨了先注册可以解决的预测建模问题的范围,并在此背景下承认其局限性。
Nov, 2023
通过使用 Clue by BioWink GmbH 的数据集,研究人员开发了 4 种模型来预测女性怀孕的概率,在对 79 百万日志和 65,276 名女性进行测试后,模型预测的怀孕概率分层明显,结果与之前的生育研究趋势一致,显示了妇女健康跟踪数据对广泛人群怀孕的潜力。
Dec, 2018
构建一个开放的国家级历史民意调查数据集,以填补现有欧盟民意调查数据的不足,并为研究人员提供解析多模态数据(新闻文章、经济指标、社交媒体)和选民行为之间复杂交互的机会。
Jul, 2023
研究俄罗斯人口数据的分类器的公平性问题,提出了使用 “特征丢弃” 来解决过程公平性,同时使用 “LIME 解释” 来评估分类器的公平性和决定敏感特征的消除,结果表明所有的模型都变得不再依赖于敏感特征,并表现出更好或没有影响的准确性。
Feb, 2022
本研究使用多语言人口统计学推断方法和后统计方法来纠正社交媒体数据的样本偏差,并减少算法偏差,在欧洲的跨语言环境下,并取得了显著的改进。
May, 2019
通过深度学习模型,我们对荷兰城市邻里层面的长期宜居性变化进行监测。通过将年度可用的高分辨率航拍图像与宜居度量标准 (Leefbaarometer) 相结合,我们训练了一个卷积神经网络,用于预测新的时间步长中的宜居性。研究结果显示,对于训练过程中未见过的城市 (Eindhoven),宜居性的趋势难以解释,这也体现了在不同时间段内监测宜居性的复杂性以及需要更复杂的方法来补偿与宜居性动态无关的变化。
Sep, 2023
本文介绍了一份多年的被动监测数据集,用于支持进行跨数据集评估行为建模算法的泛化性能,并提供 18 种算法在抑郁症检测任务上的基准结果。结果表明,先前的抑郁症检测算法和领域泛化技术都有潜力但需要进一步研究才能实现充分的跨数据集泛化能力。
Nov, 2022