机器学习中的方向统计学：简述

May, 2016

Directional Statistics in Machine Learning: a Brief Review

Suvrit Sra

TL;DR本研究讨论了数据分析师需要应对各种形式的编码数据，并重点关注编码为标准化向量的数据，评估了常见的机器学习模型及技术方案，并概述了一些应用领域和数学挑战。

Abstract

The modern data analyst must cope with data encoded in various forms, vectors, matrices, strings, graphs, or more. Consequently, statistical and machine learning models tailored to different data encodings are im

data analyst statistical models machine learning normalized vectors open challenges

发现论文，激发创造

方向统计学的最新进展

该论文对于在黎曼流形中处理方向性数据的方法进行了综述，从探索性分析、分布模型、推断方法、假设检验、回归、非参数曲线估计、降维、分类和聚类等多个方面进行了介绍，并概述了目前可用的分析方向数据的软件及未来发展的潜力。

May, 2020

物理学家的高偏差、低方差的机器学习入门

本文介绍了机器学习的核心概念和工具，并强调了与统计物理之间的自然联系。此外，还介绍了监督和非监督学习中的先进主题，并使用 Python Jupyter 笔记本演示了这些概念，并以物理学为基础的数据集（Ising 模型和超对称质子 - 质子碰撞的蒙特卡罗模拟）作为案例，最后探讨了机器学习在进一步理解物理世界方面的潜在用途以及物理学家可能能够做出贡献的机器学习中存在的未解决问题。

Mar, 2018

非线性特征映射下的少样本学习的数学理解

我们研究了数据分类问题，探究了机器学习模型的特征空间几何形态、数据分布结构和泛化能力之间的关系，发现非线性特征转换对于将原始数据映射至高维甚至无限维空间对模型的泛化能力有重要影响。

Nov, 2022

高维度多媒体数据学习：现状

多媒体数据具有高维复杂性，需要研究新的机器学习算法以便处理。本文综述了三种处理高维数据的方法，即特征转换、特征选择和特征编码，并介绍了一些有效的学习算法的最新进展和未来趋势。

Jul, 2017

走向神经统计学家

本文提出了一种基于变分自编码器的神经统计学习方法，通过学习一组数据集的统计信息，实现了对新数据的高效学习和分类。

Jun, 2016

图表示学习：方法与应用

本文综述了在图表示学习领域中，基于深度学习和非线性降维等技术的自动编码图结构为低维向量方法，包括基于矩阵分解、随机游走、图神经网络等方法，并开发了一个统一框架描述这些最新的方法，并为未来的工作提出了一些重要应用和方向。

Sep, 2017

基于方向特征交互的黑盒模型解释

为了提高机器学习中黑盒模型的可解释性，本研究运用双变量解释的方法来分析特征的相互作用，并通过 Shapley 值解释验证了此方法的能力。实验结果表明，在 CIFAR10，IMDB，人口普查，离婚，药物和基因数据等方面，本方法优于现有解释方法。

Apr, 2023

特征向量和结构化数据的度量学习综述

本文系统地综述了度量学习的前沿研究进展，着重分析了 Mahalanobis 距离度量学习、非线性度量学习、局部度量学习等新近涌现的强大替代方法，讨论了对于结构化数据的度量学习中仍存在的挑战，旨在给出度量学习近年来的发展方向。

Jun, 2013

工程师的机器学习简介

本文旨在介绍机器学习的关键概念、算法及理论结果，聚焦于监督 / 无监督学习问题的概率模型并通过基础概念和算法入手，引导读者接触更深入的课题，并提供指向文献的引用；按照判别模型和生成模型、频率学派和贝叶斯学派、精确和近似推理以及有向和无向模型等明确定义分类。此篇论文旨在为在概率和线性代数方面具有背景的研究者提供进入该领域的入门资料。

Sep, 2017

非分布式词向量表示

该研究介绍了一种从手工构造的语言资源（如 WordNet、FrameNet 等）中构建解释性词向量的方法，这些向量是二进制的（即仅包含 0 和 1），且稀疏率达到 99.9%。该方法在词向量分布模型的最新评估方法上表现良好，竞争力强。

Jun, 2015