Jun, 2024

使用部分信息分解量化偏倚数据的虚假性

TL;DR本文首次提出使用部分信息分解 (PID) 数学框架对数据集中的伪关联进行信息论的形式化定义,并通过计算独特信息来量化数据集的伪关联,研究了伪关联对模型的影响以及针对伪关联的数据处理技术的效果。