- aeon:一款用于学习时间序列的 Python 工具包
aeon 是一个用于时间序列的机器学习任务的统一 Python 3 库,包括时间序列预测、分类、外部回归、聚类等模块,以及用于时间序列数据的各种实用工具、转换和距离度量。它还有一些用于异常检测、相似性搜索和分割等任务的实验模块,遵循尽可能与 - 公正中心技术简报:分布偏移的定义和检测
在机器学习任务中,分布偏移是一种常见情况,其表示训练模型使用的数据与实际应用模型的数据不同。本文旨在定义和检测教育环境中的分布偏移,关注标准预测问题,即学习一个以输入序列为输入(预测变量)X=(x_1,x_2,...,x_m) 并生成输出 - 广义的柯西 - 施瓦茨散度及其深度学习应用
该研究介绍了一种用于多个分布的新型差异度量方法,名为广义柯西 - 施瓦茨差异度量(GCSD),并提供了基于核密度估计的闭合样本估计方法,方便在各种机器学习应用中使用。实验结果展示了 GCSD 在深度学习聚类和多源域适应问题上的出色性能,突显 - M-DEW: 对缺失值进行动态集成加权的扩展
采用动态缺失感知集成加权 (Dynamic missingness-aware Ensemble Weighting, DEW) 方法处理缺失数据的机器学习任务,优化整个 pipeline 来提高模型性能和校准度。
- 透过现场反向传播训练全机械神经网络进行任务学习
我们介绍了一种高效的机械神经网络 (MNN) 训练方法,该方法通过机械模拟的现场反向传播实现了在 MNN 中获取准确梯度信息的能力,从而成功地训练了 MNN 并实现了高精度的回归和分类任务,同时展示了 MNN 的重训练性和鲁棒性。我们的研究 - 用广义的布雷格曼散度驯服非凸随机镜像下降
该论文重新审视了当今非凸优化设置中随机镜像下降(Stochastic Mirror Descent,SMD)的收敛性。通过支持一般距离生成函数(distance generating function,DGF)的新的非凸 SMD 收敛分析, - 检索、合并、预测:利用数据湖增强表格
数据湖中的数据发现在表增强中的应用进行了深入分析,研究了检索可连接表、信息合并和使用生成表进行预测的替代方法,并通过对 YADL 和 Open Data US 的系统性探索,总结了准确检索连接候选项的重要性和简单合并方法的效率。本研究报道了 - 图神经网络机器:用于表格数据学习的新模型
近年来,对不同领域数据进行图结构化映射的兴趣日益增长。本文展示了多层感知器(MLP)等神经网络模型可以用图表示,而图神经网络(GNN)是在图上执行机器学习任务的标准工具。我们提出了一种用于表格数据的新的机器学习模型,称为图神经机器(GNM) - 用于医学图像近似与重复检测的预训练视觉嵌入基准化
医学成像中的近似和重复图像检测是一个关键关注点。本文介绍了一种利用公开可用的 2D 计算机视觉嵌入来识别 3D 医学图像的方法。通过对比从两种先进的自监督预训练模型提取的嵌入和两种不同的向量索引结构来评估我们的方法。我们基于公开可用的 Me - 选择费马距离的参数:导航几何和噪声
研究了理论和模拟方法来选择 Fermat 距离的参数,该距离在机器学习任务中没有直接可用的自然距离时或通过扩展数据集的几何和统计特性来改善欧氏距离的结果时被证明是一个有用的工具。
- 自适应分数的传感式一致推断
条件推断是一种基本且多用途的工具,为许多机器学习任务提供无分布保证。我们考虑转导设置,在该设置中,根据 $m$ 个新点的测试样本做出决策,产生 $m$ 个整合 p 值。我们表明它们的联合分布遵循一个 Pólya 陶壶模型,并为它们的经验分布 - TurboGP:一个灵活而先进的基于 Python 的 GP 库
TurboGP 是一种完全采用 Python 编写且专为机器学习任务设计的遗传编程 (GP) 库,它实现了其他 GP 实现中不可用的现代功能,例如岛屿和细胞人口方案、不同类型的遗传操作 (迁移、保护杂交)、在线学习等等。TurboGP 最独 - 用于神经支持向量机训练的算法
通过引入域知识,使用 Pegasos 算法为 NSVMs 提供一组训练算法,并通过解决一组标准机器学习任务展示其概念验证。
- 支持使用 SysML 形式化机器学习的模型驱动工程方法
使用模型驱动工程的系统建模语言 SysML 对机器学习任务进行协同定义的方法能够整合不同数据源,定义语义连接、数据处理步骤,从而将机器学习的特性整合到系统工程技术中,促进了各个领域的知识整合,实现了将机器学习引入工业界的目标。
- MyDigitalFootprint: 广泛上下文数据集,适用于边缘计算应用
本文介绍了 MyDigitalFootprint 数据集,它包含了智能手机传感器数据、物理接近信息和在线社交网络互动的大规模数据,支持多模态上下文识别和社交关系建模,并通过三个基于机器学习任务的上下文感知应用程序展示了其有效性。
- ELM 神经元:一种高效、表现力强的皮层神经元模型可解决长时程任务
本文提出了一种仅需 8K 参数便可以匹配详细仿生神经元模型的输入输出关系的神经元 —— 表现力可透过式记忆 (ELM) 神经元进行多种复杂计算任务,并成功超过其他模型,这表明了生物学动机、高效的神经元模型在挑战性的机器学习任务中的潜在应用。
- LTC-SE:扩展液态时常神经网络的潜力,为可扩展的人工智能和嵌入式系统提供支持
LTC-SE 是 Liquid Time-Constant 算法的升级版,针对嵌入式系统的独特约束,通过增强灵活性、兼容性和代码组织等方面的优化,扩展了液态神经网络在机器学习任务中的适用性。
- 利用幂律缩放应对人工智能面临的关键挑战
使用幂律缩放在深度学习中有助于处理当前人工智能应用中的关键挑战,可用于测量训练复杂性和机器学习任务算法的量化层次,并建立数据集大小估计的基准以实现期望的测试准确性。
- 关于二次网络的表达能力和可训练性
本研究探讨了一种新型的神经元 —— 二次人工神经元,在深度学习模型中取代了传统神经元的内积运算,研究了其模型表达能力、训练稳定性等问题,提出了一种名为 ReLinear 的训练策略,发现二次人工神经元在机器学习任务中具有最优表现。
- 双曲深度神经网络:一份调查
本文介绍了超半径神经网络的模型以及各个组成部分,探究了其在超几何空间的深度学习方法、机器学习任务上的应用,提出了未来研究方向。