- 评估机器学习模型在表格数据上的数据中心视角
通过从 Kaggle 竞赛中选择 10 个相关数据集,实现专家级预处理流程,并进行实验以量化模型选择、超参数优化、特征工程和测试时间适应的影响,我们的主要发现是:1. 数据集特定的特征工程后,模型排名发生了显著变化,性能差异减小,模型选择的 - 贝叶斯深度冰
深度独立分量估计(DICE)是一种现代机器学习中用于特征工程提取的方法,通过期望最大化(EM)和马尔可夫链蒙特卡罗(MCMC)算法,我们提供了独立分量分析的新型潜变量表示,该方法还适用于非线性特征提取的流体方法,并讨论了如何实现条件后验和基 - TIFG:大型语言模型中的基于文本的特征生成
通过利用文本信息进行特征生成,本论文介绍了一种基于语言模型的新型文本信息特征生成框架,通过使用检索增强生成(RAG)技术检索可能相关的特征并生成新的可解释特征,丰富特征空间并进一步挖掘特征关系。实验证明,该方法能够生成高质量且有意义的特征, - 通过 LLMs 与决策树推理进行优化的表格数据特征生成
提出了一种基于大型语言模型(LLMs)的新的表格学习框架,称为优化列特征生成器与决策树推理(OCTree)。使用 LLMs 的推理能力,通过不手动指定搜索空间并提供基于语言的推理信息,将过去的实验作为反馈来改进迭代的规则,从而找到好的特征生 - 自动特征工程的学习特征重要性评分
自动化的特征工程框架 AutoMAN 通过有效地探索候选转换空间并学习特征重要性掩码,将数据集的任务目标直接整合进特征工程,从而实现了与替代方法相比具有更高的准确性和更低的延迟。
- LLM 动态自适应特征生成
通过采用大型语言模型和特征生成提示的新方法,我们提出了一种动态自适应的特征生成方法,提高了特征生成过程的可解释性,并扩展了在各种数据类型和任务上的适用性,相比现有方法具有更高的策略灵活性。一系列实验证明我们的方法明显优于现有方法。
- 利用知识图谱进行可解释特征生成
KRAFT 是一个 AutoFE 框架,利用知识图谱来指导生成可解释特征,通过神经生成器和基于知识的推理器结合的混合 AI 方法来提高预测准确性和生成特征的可解释性。实验证明,KRAFT 在提高准确性的同时保证了较高的可解释性。
- ICML迭代特征增强用于可解释的语音情感识别
本论文提出了一种基于高效特征工程方法的监督情感识别方法,通过特征评估循环中的 Shapley 值来提高特征选择和整体框架性能,以平衡模型性能和透明度。该方法在 TESS 数据集上在情感识别方面优于人的水平和现有的机器学习方法。
- 层次中间预测的过渡不确定性
研究单次通过不确定性估计的特征工程,提出了一种名为 TULIP 的简单方法,通过在后续层折叠信息之前从中间表示中提取特征以实现特征保留,并在标准基准和实际环境中与当前的单次通过方法相匹配或优于其性能。
- 基于可穿戴设备的半监督人体活动识别行为插值
混合廣場:一種利用有標籤和無標籤活動的深度半監督人體活動識別方法,通過線性插值和混合校準機制來提高傳感器數據的特徵嵌入效果,展示了深度半監督技術在人體活動識別中的潛力。
- 基于 LSTM 的表情识别神经网络用于 sEMG 信号的手部运动识别
通过使 sEMG 信号的终止形式获得闭式时间特征学习,我们实现了一个轻量级的 LSTM-FIN 网络,以模仿四个标准的时间特征(熵、均方根、方差、简单平方积分),并探索了迁移学习的能力。我们的结果表明,LSTM 网络在特征重构方面可以达到 - 可解释的神经叠加模型自动评分
使用自动短答案评分(ASAG)模型可以减轻评分的时间负担,同时鼓励教育者经常在课程中引入开放性问题。然而,目前最先进的 ASAG 模型是大型神经网络(NN),常被描述为 “黑匣子”,对于生成的输出哪些特征是重要的没有解释。为了创建一个强大且 - LEMDA: 物联网系统入侵检测的新颖特征工程方法
提出了一种名为 LEMDA 的新型特征工程方法,通过选择和创建最有信息的特征,减少大规模物联网系统中的数据大小和维度,使得模型更简单且具有优异的性能、更小的数据存储以及更快的检测速度。
- TIMIT 说话人特征分析:多任务学习与单任务学习方法的比较
本研究采用深度学习技术在 TIMIT 数据集上探索了四个说话人特征分析任务,分别为性别分类、口音分类、年龄估计和说话人识别,突出了多任务学习与单任务模型之间的潜力和挑战。该研究旨在经验性地评估在说话人特征分析领域中,多任务学习相对于单任务模 - 关系抽取的二维特征工程方法
本论文提出了一种基于二维句子表示的二维特征工程方法,用于关系提取任务,经过在三个公共数据集上的评估,达到了最先进的性能,结果表明二维特征工程可以充分利用二维句子表示和传统特征工程中的先前知识。
- 情感分析与随机森林用于科技文本中的 LLM 与人工来源分类
提出了一种新的方法来对来自自动文本生成引擎或人类的文本进行分类,该方法基于情感分析作为特征工程的源,并以此训练随机森林分类算法。使用四个不同的情感词典,生成了一些新特征,并将其输入机器学习的随机森林方法进行训练,结果非常有说服力,这可能是一 - 深度学习和大数据应用的自动数据处理和特征工程:一项调研
现代人工智能(AI)的方法旨在设计可以直接从数据中学习的算法,本文综述了深度学习流程中自动化数据处理任务的方法,包括数据预处理、数据增强和特征工程,并讨论了自动机器学习方法和工具在整个机器学习流程中的优化应用。
- 在轮胎 X 射线图像中的缺陷检测:常规方法迎合深层结构
该研究介绍了一种强大的方法,通过利用传统的特征提取方法如局部二进制模式(LBP)和灰度共生矩阵(GLCM)特征,以及傅里叶和小波特征,结合先进的机器学习技术,在轮胎 X 射线图像中实现自动缺陷检测。实验证明,通过精细调整和结合机器学习模型, - 利用形状特征工程提高风速和风力预测的准确性和鲁棒性的新方法
通过改变卷积神经网络 - 长短期记忆(CNN-LSTM)和自回归模型的输入数据形状,这项研究探索了一种新的特征工程方法以提高对噪声的处理能力,并取得了显著的改善,使其能够以 83%的准确率预测长达 24 个时间步的未见数据,同时在短期、中期 - 机器学习在股市预测中的应用:迪士尼股票案例研究
该研究使用一个包含 750 个实例和 16 个属性的数据集进行了股票市场分析,包括探索性数据分析、特征工程、数据准备、模型选择以及分析结果,其中使用了 Fama French 三因子模型,并发现线性回归是最佳表现的模型。