May, 2016

监督学习中贝叶斯风险的速率失真界限

TL;DR本文提出了一个信息理论框架,用于评估在参数化贝叶斯设置下训练分类器所需的标记样本数量,并使用 $L_p$ 距离导出分类器和真实后验概率分类器之间的平均距离的上下界,并利用 $ L_p $ 丢失作为畸变度量,以后验分布的微分熵和插值维度的数量为最大先验分类器提供了下界和上界,这表征了参数分布族的复杂性,同时提供了计算贝叶斯 $L_p$ 风险的下界,是可能近似正确(PAC)框架的补充,该框架提供了涉及 Vapnik-Chervonenkis 维度或 Rademacher 复杂性的最小极大风险界,而所提出的速率 - 失真框架则为数据分布平均的风险提供了下界。