- VERA: 通过区域注释生成二维嵌入的视觉解释
提出了一种自动嵌入注释方法,通过在二维嵌入空间中生成可视化解释,帮助用户一目了然地了解嵌入景观,与传统交互式工具相比,不仅使用起来方便,而且节省了用户的时间和精力。
- 应用机器学习于企业采购过程中的异常检测
在不断数字化的过程中,组织必须应对检测异常情况的挑战,以揭示日益增长的数据中的可疑活动。为了追求这个目标,定期进行审计,内部审计员和采购专家不断寻找自动化这些过程的新方法。本研究提出了一种方法来优先处理从真实数据中检测到的两个大型采购数据集 - 机器学习在股市预测中的应用:迪士尼股票案例研究
该研究使用一个包含 750 个实例和 16 个属性的数据集进行了股票市场分析,包括探索性数据分析、特征工程、数据准备、模型选择以及分析结果,其中使用了 Fama French 三因子模型,并发现线性回归是最佳表现的模型。
- 使用 GPT 对大型文档集进行抽象摘要
本研究提出了一种抽象化汇总方法,可用于文档集合而非个别文档。我们的方法应用语义聚类、主题聚类内的文档大小缩减、聚类文件的语义分块、基于 GPT 的汇总和连接以及每个主题的综合情感和文本可视化,支持探索性数据分析。通过使用 ROGUE 汇总分 - 层次聚类的数据聚合
使用 BETULA 数据聚合算法进行数据聚类,使得在资源受限的系统上使用层次凝聚聚类方法成为可能,仅在聚类质量上有轻微损失,并且允许对非常大的数据集进行探索性数据分析。
- DataAssist:一种机器学习方法用于数据清洗和准备
DataAssist 是一个自动化的数据准备和清洗平台,可通过 ML 方法增强数据集的质量,并提供一种管道用于探索性数据分析和数据清理,包括为用户选择的变量生成可视化,统一数据注释,建议异常值移除和预处理数据。
- 通过稳定平衡点实现高性能的探索性数据分析(EDA)
本文提出了基于稳定平衡点(SEP)的框架,通过利用 SEP 作为代表点,旨在为大规模数据集生成高质量的聚类和数据可视化。与先前的聚类和数据可视化方法相比,该方法的一个非常独特的属性是 SEP 将直接编码数据集的聚类特性,从而允许在大规模数据 - 尼日利亚新冠疫情可视化探索性数据分析:爆发两年后
本文旨在通过使用大数据分析技术(包括探索性数据分析、可视化等)对 2020 年 2 月至 2022 年 7 月尼日利亚的新冠肺炎疫情数据进行分析,为 Covid-19 相关研究做出贡献并展示数据分析工具及技术的能力。
- 由语言模型发展而来的数据科学:从文科到数科
研究表明,大型语言模型在将读写能力转化为计算能力方面存在翻译难题,但通过对所描述的四个复杂数据集的统计分析,结合不能通过简单规则编码或记忆的算术操作,可以推断大型语言模型具备对数据分组 / 枢轴分类求和、推导相关性、演绎特征权重以及使用线性 - XInsight: 因果推理视角下的可解释数据分析
本研究首次提出了一种透明且可解释的数据分析方法,称为 eXplainable Data Analysis (XDA),该方法通过提供定性和定量的因果和非因果语义解释,显著提高了人类对数据分析结果的理解和信心,并为精确数据解释和决策提供了帮助 - MM从数据集中提取主要趋势:Sequencer 算法
提出了一种名为 “Sequencer” 的算法,其通过构建描述观测对之间相似性的图表,使用一组度量标准和比例计算相似性,以确定数据中的主要趋势,进而用于优化任何降维技术的参数。该算法不依赖于训练或任何参数的调整,可用于探索性数据分析,具有潜 - 智能 EDA: 一个用于自动化探索性数据分析的 R 语言包
此篇论文介绍了 SmartEDA,它是一个用于执行探索性数据分析(EDA)的 R 包。EDA 是开发任何机器学习或统计模型前需要执行的第一步,其目的是通过描述性统计和可视化来帮助初始调查,总结和探索数据。
- 遗传程序设计能否实现流形学习?
本文提出了一种称为 GP-MaL 的演化流形学习方法,它使用可解释的树来将高维数据映射到低维空间,可以有效地降低数据特征维度,且模型具有可解释性,可以用于新数据。
- 眼光:通过指路明灯快速数据探索
本文介绍了一种名为 Foresight 的可视化建议系统,可通过 “guideposts” 帮助用户快速探索大规模、高维度数据,该系统提供全球可视化排名度量值,以帮助用户探索网络的指引桩,而非数据属性和可视化编码。
- 渐进式分析:一种探索数据分析的计算范式
介绍了一种名为 Progressive Computation for Data Analysis 的计算范式,通过以渐进的方式执行计算,将渐进计算带到编程语言层面,为探索性数据分析系统的程序员提供了一个低延迟的保证。
- KDD基于贝叶斯网络的有趣项集模型
通过 Bayesian 网络的生成模型和新颖的趣味度量,我们的方法能够从交易数据库中直接高效地推断出最有趣的项目集,并且在多个真实世界的数据集上取得与现有先进算法相当甚至更好的效果。
- EMNLP自然語言處理模型後驗校準與探索性分析
本文主要讲述了自然语言处理中,对于语言结构的概率分布应当被直接评估,NLP 不确定性不只是管道组件,还应被投影到探索性数据分析中,我们提出了一种分析校准的方法,并将其应用于比较了几个常用模型的误校准情况; 此外,我们还贡献了一种共参采样算法 - 主导相关度测量的实证研究
本文通过对多种独立性度量方法的经验评估,发现 MICe 在大多数设置下是最公平的方法,TICe 可以过滤掉相对无用的关系,并发现了一个关于独立性和公平性之间的权衡。
- 具有可证明保障的主题建模实用算法
本文介绍了一种既可证明有效,又实用的主题模型推断算法,可用于降维、探索性数据分析,速度较之前的 MCMC 算法快得多。