Feb, 2024

表示学习的最小描述长度和泛化保证

TL;DR设计高效的统计监督学习算法的一大挑战是找到不仅在可用训练样本上表现良好,也在未知数据上表现良好的表示方法。本文建立了一个压缩性框架,通过标签或潜在变量(表示)的 “最小描述长度”(MDL)来推导表示学习算法的泛化误差的上界。通过与固定先验的训练集和测试集的表示(或标签)分布之间的 “多字母” 相对熵,而不是通常认为反映算法泛化能力的编码器输入和表示之间的互信息,建立了新的界限。本文的压缩性方法是信息论的,基于 Blum-Langford 的 PAC-MDL 界限,并引入了两个关键因素:块编码和有损压缩。最后,本文通过引入新的数据依赖性先验,部分利用了理论结果。数值模拟展示了选择良好的先验与 IB 中使用的经典先验相比的优势。