- 基于模型的针对表数据的考虑特征空间属性的反事实解释
该研究提出了一种使用标准化流的高效反事实解释方法,该方法捕捉复杂数据分布,学习具有保持接近性的有意义的潜在空间,并改进预测,特别在处理分类变量时表现出色。
- CAVIAR: 精确和稳健推理的分类变量嵌入
通过嵌入方法 CAVIAR,将高维分类变量嵌入到较低维度的全局坐标系中,从而稳定可靠地估计减少维度后的数据,促进推断和分析。
- 分类和回归任务中分类变量编码器性能的比较研究
本研究对 14 种编码器以及八种常见机器学习模型在 28 个数据集上进行了全面的实验评估,发现了不同编码器在不同情境下的最佳选择,并为数据科学家在欺诈检测、疾病诊断等领域提供了选择合适编码器的指导。
- 基于均匀信道模型的分类数据因果区分
本文提出了一种用于区分具有意义排序的集合的分类变量中因果关系的统计学方法,它被命名为统一信道模型 (UCM),该方法基于对条件概率质量函数 (PMF) 的观察,使用统计检验来评估所提议的 UCM 是否适用,研究通过实验表明 UCM 与最近的 - 表格数据中的缺失值插值扩散模型
本文提出了一种用于 Tabular 数据的基于条件分数的扩散模型方法(TabCSDI),并研究了热点问题中的三种处理技术。实验结果表明与现有方法相比,TabCSDI 是有效的,同时也强调了分类嵌入技术的重要性。
- 具有类别背景变量的深度反事实估计
本文介绍了一种基于 CounterFactual Query Prediction(CFQP)方法的结构方程模型来推断因果关系以及深度学习的应用,使用这种方法能够可靠地预测反事实因果关系。
- 高维参数空间的可视化与优化技术
研究提出了一种结合黑盒优化和视觉分析的自动调优框架,用于储存系统性能优化,其中包括交互式配置浏览器 ICE,用于与类别变量上下文联合显示依赖数值变量的完整分布和统计信息。
- 基于 NLP 的分类时间序列异常检测
研究使用机器学习基于分类时间序列和自然语言处理的类比进行异常检测和根本原因分析。
- 基于类别变量的黑盒优化的傅里叶表示
该研究提出了一种基于代理模型和傅立叶展开的算法,用于优化纯分类型变量的黑盒函数,并在 RNA 序列优化和设计问题中取得了竞争性或优越性能,显著提高了计算成本和样本效率。
- 正则化目标编码在具有高基数特征的监督式机器学习中优于传统方法
本文基于机器学习算法对分类变量进行编码技术探究,通过对比不同编码策略和算法的实验结果,发现对训练数据中的特征进行正则化后的目标编码技术能够提供最好的结果,并且传统编码技术在部分情况下不如目标编码技术。
- Gryffin: 一种基于专家知识的分类变量贝叶斯优化算法
本研究介绍了 Gryffin,一种基于专家知识驱动的分类变量自主实验选择优化框架,它能够利用物理化学描述符,显著加速寻找有前途的分子和材料,并在化学和材料科学中的三个实例中展示了其性能和功能。
- ICMLARSM:用于梯度反向传播的增强 - 强化 - 交换 - 合并估计器,适用于分类变量
使用 ARSM 梯度估算器通过加强 - REINFORCE - 交换 - 合并技术解决了通过分类变量进行反向传播的挑战,具有无偏差和低方差的特点。该方法使用 Dirichlet 分布的期望来重新表达梯度,并使用变量交换和共享随机数来获得显著 - KDD在线广告精准受众规模预测
该研究通过修改经典的频繁项集挖掘算法 Eclat,并运用时序分析方法提供条件概率的预测,来应对在线广告投放中基于网站属性的受众规模预测难题,并通过广泛的模拟验证和真实数据集验证,证明了该算法在缩短计算时间和提升预测精度方面的优势。
- 使用高斯过程在贝叶斯优化中处理类别变量和整数值变量
该研究提出了更准确处理分类变量和整数值变量的方法,以改进使用高斯过程的贝叶斯优化方法在这些问题上的结果表现。
- Gumbel-Softmax 分类再参数化
本论文介绍了一种新的 Gumbel-Softmax 梯度估计器,用于处理类别离散型变量,能够有效地支持半监督学习以及结构化输出预测和无监督生成建模任务,并且可以通过渐进式的方式向分类型分布过渡。
- 分类变量的实体嵌入
本文介绍了如何将分类变量映射为欧氏空间中的实体嵌入,通过在标准监督训练过程中让神经网络进行学习。实体嵌入不仅可以减少内存使用和加速神经网络,更重要的是通过将相似的值映射到嵌入空间中靠近的位置,揭示了分类变量的内在属性,并帮助神经网络在稀疏且