我们研究数据选择问题,将利用 $k$-means 聚类和敏感性抽样方法,基于模型损失的嵌入表示,可选择一组典型样本,其平均损失与整个数据集的平均损失相对应,具有可证明的性质,并且在微调基础模型上表现优于最先进的方法,同时展示了它如何应用于线性回归,提供了一个更简单且可扩展性更强的抽样策略。
Feb, 2024
本文回顾了无监督特征学习和深度学习领域中的最新进展,讨论了学习良好的数据表示的适当目标,以及表示学习、密度估计和流形学习之间的几何联系。
Jun, 2012
本文研究了联合聚类和学习表示问题,提出了一种在 $k$-Means 聚类中基于目标函数连续重新参数化的方法,该方法在多个数据集上经过测试证明其在聚类对象的同时学习表示方面的有效性。
Jun, 2018
研究了在所有可计算标签函数中的学习,证明了这是可能的,但也表明了无法独立于分布地限制样本复杂度,这完全是由于学习算法可计算的要求,而不是统计问题的本性。
Jun, 2008
本文提出了一种使用一致性原则的无监督表示学习算法 ConCURL,通过综合考虑共识、示例和种群三种一致性来实现对图像的聚类,并在四个数据集上实现了比现有方法更好的聚类性能。
May, 2021
研究了分布式表示学习的问题,提出了信息瓶颈方法的分布式模型,并探究了离散记忆和向量高斯数据模型下的最优复杂性 - 相关性折衷。通过两种算法计算并优化编码映射,证明了该方法在真实数据集上的有效性。
Jul, 2018
设计高效的统计监督学习算法的一大挑战是找到不仅在可用训练样本上表现良好,也在未知数据上表现良好的表示方法。本文建立了一个压缩性框架,通过标签或潜在变量(表示)的 “最小描述长度”(MDL)来推导表示学习算法的泛化误差的上界。通过与固定先验的训练集和测试集的表示(或标签)分布之间的 “多字母” 相对熵,而不是通常认为反映算法泛化能力的编码器输入和表示之间的互信息,建立了新的界限。本文的压缩性方法是信息论的,基于 Blum-Langford 的 PAC-MDL 界限,并引入了两个关键因素:块编码和有损压缩。最后,本文通过引入新的数据依赖性先验,部分利用了理论结果。数值模拟展示了选择良好的先验与 IB 中使用的经典先验相比的优势。
该研究采用信息理论的视角来重新构造聚类问题,避免了许多现有聚类方法所依赖的非常规结构的假设,且捕捉了非线性关系。基于集体相似度而非传统的成对度量,该方法在不同领域内都表现出比现有算法更高的聚类一致性。
Nov, 2005
本篇论文讨论了如何用神经网络学习更好的特征表达,提出了两种新的损失函数,在循环神经网络和卷积神经网络上验证了该方法能够显著提升 KMeans 聚类效果(用 AMI 衡量)并且胜过之前的方法。
May, 2017
提出了一种半监督的短文本聚类方法,使用神经网络将文本表示为分布式向量,并使用少量标记数据来指定聚类目标,并通过设计新的目标将表示学习过程和 k 均值聚类过程结合在一起优化,最后迭代地用已标记和未标记的数据来优化整个目标,得到了比其他文本聚类方法更好的实验结果。
Feb, 2016