Mar, 2021
利萨宁数据分析:通过描述长度检查数据集特征
Rissanen Data Analysis: Examining Dataset Characteristics via Description Length
Ethan Perez, Douwe Kiela, Kyunghyun Cho
TL;DR本文提出了利用所谓的最小程序长度为依据,实现数据准确建模的方法,称为 Rissanen 数据分析(RDA)。该分析在自然语言处理等领域有着广泛的应用,能在不可计算的前提下,估计数据的最小描述长度,以研究数据特性。