ACLApr, 2022

信息量和不变性:自然语言中伪相关性的两个观点

TL;DR该论文分析了 Gardner 等人提出的语言的组合性质意味着标签和各自的‘输入特征’之间的所有相关性都是虚假相关性这一提议,在简单的 PCFG 中演示出三种明显的条件可以导致特征 - 标签相关性的产生,论文指出在所有但极少数情况下,输入特征将与标签各自相关,因此需应用领域知识识别可能对鲁棒性构成真正威胁的虚假相关。