- VICatMix:离散生物医学数据的变分贝叶斯聚类与变量选择
在精准医学中,生物医学数据的有效聚类是至关重要的,它可以实现对患者或样本的准确分层。我们提出了 VICatMix,一种用于聚类分类数据的变分贝叶斯有限混合模型,其在训练中使用了变分推断(VI),从而在保持高准确性的同时优于竞争对手的效率。V - 等价集限制潜类模型 (ESRLCM)
我们提出了一种称为等价集限制潜在类别模型 (ESRLCM) 的新型贝叶斯模型,用于聚类多元分类数据,并且相对于传统的限制潜在属性模型具有更广泛的适用性。我们验证了 ESRLCM 的可识别性,并在模拟和实际应用中证明了其有效性。
- 表格式学习:实体和上下文嵌入的编码
通过检查不同的编码技术对实体和上下文嵌入的影响,本研究的目标是挑战常用的顺序编码在表格学习中的应用。通过应用不同的预处理方法和网络架构在几个数据集上,得出了编码器对网络学习结果的影响的基准。通过保持测试、验证和训练数据的一致性,结果表明顺序 - 基于正则化谱聚类的潜在类别分析
本文提出了两种基于新定义的正则化拉普拉斯矩阵的算法,用于估计分类数据的潜在类模型。我们在考虑稀疏性参数的基础上,通过理论收敛速度证明了我们的算法在温和条件下能稳定产生一致的潜在类分析结果,并提出了根据这一度量指标设计的若干程序来推断实际分类 - 基于测试的方法来评估分类数据的可聚类性
TestCat 是一种基于测试的方法,通过计算属性对的卡方值总和作为分析 $p$- 值,来评估分类数据的群聚性。在基准分类数据集上的测试表明,TestCat 优于现有针对数值数据的群聚性评估方法,最有效地识别分类数据的群聚性。
- 核度量学习用于混合类型数据聚类
本研究提出了一种使用混合内核的度量方法来衡量数据之间的差异,并利用交叉验证确定最佳的内核带宽,针对包含纯连续型、类别型、混合型数据的模拟和真实数据集,利用该方法对现有的基于距离的聚类算法进行聚类,提高了聚类的准确性。
- 可控制的破坏路径
这篇论文介绍了一种名为 PoD 的自监督学习方法,用于学习迭代生成器,特别适用于由分类数据组成的功能性工件,扩展后可以允许设计师控制生成物品的方方面面。
- 动态用户细分与使用行为建模
本文提出了一种利用二元值向量映射到低维连续特征空间所得到的隐含类别作为协变量类进行聚类的策略,实现了在分类大数据上有效地进行聚类,以提供个性化推荐系统和商业智能决策支持。
- Gumbel 噪声得分匹配进行的异常检测
本文提出了一种名为 GNSM 的新型无监督方法,采用得分匹配训练目标来检测分类数据中的异常点,并将其应用于图像数据的分割失败预测,通过对实验结果的分析证明了该方法的高效性。
- 类别数据的连续扩散
本文介绍了 CDCD 框架,该框架是一种对分类数据进行扩散建模的方法,同时保持了连续时间和输入空间的特性,并在多个语言建模任务中证明了其有效性。
- ICML通过独立二元逼近实现分类模型的易于变分推断
我们定义了一种新的分类数据 GLMs 类称为二进制转分类(CB)模型,该模型每个类别的似然性都受到二进制似然性乘积的约束,这种近似使得推理变得简单和快速。
- NECA: 针对分类数据的嵌入式深度表示学习
本研究提出了 NECA,一种针对分类数据的深度表示学习方法,它将网络嵌入和深度无监督表示学习基础上,深度嵌入属性值之间的内在关系,并显式地用数值向量表示数据对象。NECA 可支持如聚类等重要的下游数据挖掘任务,并通过广泛的实验分析证明了其有 - 基于生成对抗网络的分类型电子病历填补
本文提出了一种用于电子医疗记录中缺失数据生成和填补的新方法,该方法基于 GAN 技术,可以有效地提高数据预测精度。
- Argmax 流和多项式扩散:学习分类分布
本文介绍了生成流和扩散模型的扩展,用于类别数据,例如语言或图像分割:Argmax 流和多项式扩散,并证明了该方法在文本建模和图像分割映射建模上优于现有的量化去噪方法。
- 高维分类的贝叶斯条件张量分解
使用 Tucker 分解模型,配合贝叶斯方法与马尔可夫蒙特卡罗算法进行变量选择,取得高准确率的分类模型,使其适用于高维分类数据并解决标记互制问题。
- 离散链图模型
该论文研究了基于三种不同的马尔科夫属性的离散模型的结构特性,其中一等级类别的 LWF 模型可以产生平滑的分类数据的离散模型,并且还证明了这种模型的似然函数在图中的链组成是完全的情况下是单峰的。
- K-ANMI:一种基于互信息的分类数据聚类算法
本文介绍了一种新的用于聚类分类数据的高效算法 K-ANMI,其使用了基于互信息的标准进行聚类评估,实验结果表明,该算法相对于现有的分类数据聚类算法在聚类准确性方面具有竞争力。