动态用户细分与使用行为建模

May, 2023

Dynamic User Segmentation and Usage Profiling

Animesh Mitra, Saswata Sahoo, Soumyabrata Dey

TL;DR本文提出了一种利用二元值向量映射到低维连续特征空间所得到的隐含类别作为协变量类进行聚类的策略，实现了在分类大数据上有效地进行聚类，以提供个性化推荐系统和商业智能决策支持。

Abstract

Usage data of a group of users distributed across a number of categories, such as songs, movies, webpages, links, regular household products, mobile apps, games, etc. can be ultra-high dimensional and massive in size. More often this kind of data is categorical and sparse in nature making it even more difficult to interpret any underlying hidden patterns suc

clustering categorical data covariate classes performance validation recommendation system

发现论文，激发创造

通过多维和高阶移动特征聚类挖掘生活方式简档的框架

通过交叉轨迹特征工程和聚类，该研究利用高阶特征从人类移动轨迹记录中挖掘用户的生活方式特征，并且通过深入提取包括旅行模式、离散傅里叶变换的节奏和 word2vec 词向量化地点语义等特征，在深圳超过 50 万用户的轨迹数据集上，得到了七个具有不同生活方式特征的用户类簇，这些结果通过常识解释得到了很好的验证。

Dec, 2023

在线广告精准受众规模预测

该研究通过修改经典的频繁项集挖掘算法 Eclat，并运用时序分析方法提供条件概率的预测，来应对在线广告投放中基于网站属性的受众规模预测难题，并通过广泛的模拟验证和真实数据集验证，证明了该算法在缩短计算时间和提升预测精度方面的优势。

Jan, 2019

探索手机用户的流动性

本文基于一份葡萄牙通讯数据集的 100,000 名匿名用户数据，探索了移动设备数据集中用户的社交网络、时间动态和移动通讯行为之间的联系，并通过聚类和主成分分析发现地理位置是影响人类行为的最重要因素之一。研究结果表明，通过聚类方法可以鲁棒地识别用户的家庭和办公室，并且其通勤距离可以通过引力模型进行合理地解释。

Nov, 2012

基于多场分类数据的深度学习：以用户响应预测为例研究

本文提出两种使用深度神经网络来预测用户响应的新模型，通过三种特征转换方法的借助，能够自动学习有效的分类特征交互模式，并对用户的广告点击进行预测。大规模的实验表明，我们的方法比现有主流模型更好。

Jan, 2016

融合多方面的交易数据进行用户建模和人口统计预测

该研究提出了一种基于嵌入的方法来综合多方面的交易数据序列和辅助关系表，以实现更好的用户建模和人口统计预测。

Dec, 2017

挖掘大规模人类移动数据进行长期犯罪预测

利用大规模人类流动数据来构建一种可以预测不同类型犯罪在各行政区划内发生年度数量的模型，并提高预测的准确性，并且对主要犯罪类别的预测特征进行了深入分析，为城市政策或执法部门提供了有价值的信息。

Jun, 2018

基于正则化谱聚类的潜在类别分析

本文提出了两种基于新定义的正则化拉普拉斯矩阵的算法，用于估计分类数据的潜在类模型。我们在考虑稀疏性参数的基础上，通过理论收敛速度证明了我们的算法在温和条件下能稳定产生一致的潜在类分析结果，并提出了根据这一度量指标设计的若干程序来推断实际分类数据中应使用的潜在类的数量。通过广泛的模拟实验证实了我们算法的效率和准确性，并进一步将它应用于实际分类数据，取得了令人满意的结果。

Oct, 2023

通过临床和数字数据的综合分析对患者进行聚类

本研究介绍了一种基于患者数据的新型患者聚类模型，利用约束低秩逼近的方法，结合患者的临床数据以及数字交互数据（包括浏览和搜索），构建患者个人资料。通过生成非负嵌入向量作为患者低维表示，我们的模型在真实世界的患者数据上进行了评估，综合考虑了聚类和推荐功能，与其他对照组相比，我们的方法在聚类一致性和推荐准确性方面表现出卓越性能。

Aug, 2023

学习社交媒体用户的不变表示

本文提出了一种从社交媒体用户活动的短时段中学习映射的方法，以产生用户固有特征相似度的向量空间，其中距离捕捉到相应用户的相似性，并通过 Reddit、Twitter 和 Wikipedia 的数据进行了全面评估。

Oct, 2019

基于机器学习的框架，用于聚类住宅电力负载曲线以提升需求响应计划

通过使用智能电表数据推导的负荷曲线，在实际案例研究中，我们提出了一种新颖的基于机器学习的框架，以实现通过适用于伦敦近 5000 个家庭的数据从而获得最佳负荷剖析。我们应用了四种广泛使用的聚类算法：K-means、K-medoids、层次凝聚聚类和基于密度的空间聚类。通过经验分析和多个评估指标来评估这些算法，并将问题重新定义为概率分类问题，并借助可解释的 AI（xAI）来提高解决方案的可解释性。根据聚类算法的分析，此案例的最佳聚类数为七个，但是我们的方法表明其中两个聚类，约占数据集的 10％，存在显着的内部差异，因此我们将其进一步划分为总共九个聚类。我们的解决方案具有可扩展性和多功能性，使其成为希望为用户细分以创建更有针对性的需求响应计划的电力公用事业公司的理想选择。

Oct, 2023