使用对抗验证的轻量级增强模型进行用户响应预测

Oct, 2023

使用对抗验证的轻量级增强模型进行用户响应预测

Lightweight Boosting Models for User Response Prediction Using Adversarial Validation

Hyeonwoo Kim, Wonsung Lee

TL;DR本文描述了 ACM RecSys Challenge 2023 的轻量级解决方案，将任务形式化为用户响应预测任务，并通过敌对验证、特征工程技术和梯度提升决策树等方法有效地解决了问题。实验证明单个 LightGBM 模型表现出色，无需额外集成。

Abstract

The acm recsys challenge 2023, organized by ShareChat, aims to predict the probability of the app being installed. This paper describes the lightweight solution to this challenge. We formulate the task as a user respons

acm recsys challenge user response prediction adversarial validation feature engineering techniques gradient boosted decision trees

发现论文，激发创造

RecSys Challenge 2023：从数据准备到预测的简单、高效、健壮和可扩展解决方案

RecSys Challenge 2023 年由 ShareChat 主办，旨在预测用户在在 ShareChat 和 Moj 应用程序中看到广告印象后是否会在智能手机上安装应用程序。'Team UMONS' 在该挑战中提出了准确的解决方案（最佳得分为 6.622686），采用了一个相对较小的模型，可以在不同的生产配置中轻松实施。我们的解决方案在增加数据集大小时具有良好的可扩展性，并且可以与包含缺失值的数据集一起使用。

Jan, 2024

应用广告点击率和安装预测的加权多层特征分解

该论文提供了 ISISTANITOS 团队在 ACM RecSys Challenge 2023 中所使用的方法概述。该竞赛由 ShareChat 组织，旨在预测用户点击应用广告和 / 或安装应用的概率，以改善深漏斗优化并特别关注用户隐私。我们提出的方法将点击和安装的概率视为两个不同但相关的任务。因此，模型为每个任务工程化了一组特定特征和一组共享特征。我们的模型称为加权多层特征因子分解，因为它考虑了不同阶特征的相互作用，其中阶数与神经网络深度相关。对于给定的任务，通过在不同层次上组合任务特定和共享特征来生成预测。我们的提交在竞赛学术类别中获得了第 11 名和 55 分的总体成绩。我们在此 https URL 上发布了我们的源代码。

Aug, 2023

基于梯度提升的轻量级连通性检测

一种轻量级语篇连接词检测系统，使用基于梯度提升训练的简单、低复杂度特征，避免了依赖深度神经网络的计算需求；考虑到其简洁性，该方法在 CPU 上即可取得竞争性结果，同时在两种不相关的语言之间表现稳定，这表明了该系统在多语言场景中的鲁棒性；此模型旨在支持语篇关系的标注，特别适用于资源有限的场景，同时尽量减少性能损失。

Apr, 2024

用梯度提升决策树方法预测阅读期间注视数据在 CMCL 2021 共享任务中的表现

通过加入目标词汇的词汇特征以及来自单词频率列表、心理测量数据和双字母联想措施的特性，优化了 LightGBM 模型，使其在 2021 年 CMCL 共享任务眼动追踪数据预测比赛中取得了最佳表现，并在两项五项眼动追踪指标中排名第一，超过了所有参加比赛的深度学习系统。

Apr, 2021

运用 LightGBM 算法进行运营商用户信用评估研究

通过使用通信运营商提供的大规模数据，本文基于融合 LightGBM 算法对运营商用户信用评估模型进行了研究，首先通过数据预处理和特征工程方法提取与用户评估相关的关键特征，构建具有统计学意义的多维特征集合；然后，使用线性回归、决策树、LightGBM 等机器学习算法构建多个基础模型，找出最佳基础模型；最后，整合平均、投票、混合、堆叠等集成算法，优化多个融合模型，最终建立适用于运营商用户评估的最佳融合模型。

Mar, 2024

评估足球比赛预测模型：深度学习方法与梯度提升树的特征优化

机器学习模型在足球比赛预测方面的性能评估和梯度提升树模型的最佳特征集的确定的研究。

Sep, 2023

面向物联网入侵检测和分类的对抗现实和强韧学习

本文使用机器学习模型应对物联网系统中的不断增长的网络攻击数量，但对抗性攻击的威胁加大了对可靠防御策略的需求，描述了逼真的对抗性网络攻击示例所需的约束类型，并提出了一种可靠的对抗性鲁棒性分析方法，该方法通过适应性扰动模式方法 (A2PM) 生成约束性对抗性示例，针对常规和对抗性训练生成的模型执行了逃避攻击，并评估了三种有监督算法 (Random Forest (RF)、Extreme Gradient Boosting (XGB)、Light Gradient Boosting 机器 (LGBM)) 和一种无监督算法 (Isolation Forest (IFOR))，证明了基于树的算法和集成对对抗性攻击的固有易感性，展示了在 IoT 网络入侵检测和网络攻击分类中采用安全设计和对抗性训练方法带来更强大鲁棒性的好处。

Jan, 2023

基于网格搜索方法的优化 Hist Gradient Boosting 分类器的恶意 URL 检测

为了检测恶意网站的风险，我们提出利用基于机器学习的技术，通过对数据输入、恶意网站、机器学习技术和网站检测等关键词进行分析，并优化算法，最终通过多种指标对模型进行评估，实验结果表明 Hist Gradient Boosting Classifier (HGBC) 在各项指标上表现最好。

Jun, 2024

预测一个积极健康老龄化应用程序的早期退出

我们提出了一种机器学习方法来预测活跃健康老龄化应用程序的早期退出，并通过处理给定的数据库、生成七个数据集并使用预处理技术构建分类模型来预测用户的依从性，提交 11 次正式运行并展示机器学习算法能够提供高质量的依从性预测。

Aug, 2023

基于机器学习的鲁棒预测模型在现实生活中的应用 —— 以移动电话数据为例

通过使用朴素贝叶斯和拉普拉斯估计，本文提出了一种稳健的预测模型来识别和消除真实生活中手机数据中的噪声实例，以提高模型的预测准确性。实验结果显示该模型在个人手机用户的通话日志等真实生活中的手机数据上具有很好的效果和精度。

Feb, 2019