结构数据的距离和相似性函数概述

Feb, 2020

结构数据的距离和相似性函数概述

An Overview of Distance and Similarity Functions for Structured Data

Santiago Ontañón

TL;DR本文主要综述了结构化表示形式下的距离函数 (或相似度函数) 在机器学习和人工智能中的应用，旨在为不同领域的研究提供参考和指明未来方向。

Abstract

The notions of distance and similarity play a key role in many machine learning approaches, and artificial intelligence (AI) in general, since they can serve as an organizing principle by which individuals classify objects, form concepts and make generalizations. While →

distance functions structured representations machine learning artificial intelligence data

发现论文，激发创造

深度图相似性学习：综述

本文对深度图相似性学习的现有文献进行了综述和分类，讨论了方法和应用的挑战和未来方向。

Dec, 2019

比较苹果和橙子：学习来自不同分布产生的数据的相似度函数

该论文提出了一个采样框架，使用有限数量的专家反馈，学习跨群组相似性函数，以解决不同分布的元素之间相似度难以精确计算的问题，并通过大量实验进行了验证。

Aug, 2022

特征向量和结构化数据的度量学习综述

本文系统地综述了度量学习的前沿研究进展，着重分析了 Mahalanobis 距离度量学习、非线性度量学习、局部度量学习等新近涌现的强大替代方法，讨论了对于结构化数据的度量学习中仍存在的挑战，旨在给出度量学习近年来的发展方向。

Jun, 2013

分布式相似度评价

本文研究了分布相似度量的应用，以提高对未见共现情况的概率估计。我们的研究贡献有三个：通过广泛的比较实现了相似度量的分类，通过信息融合确定相似函数类型，介绍一种优秀的函数进行潜在代理分布的量化评估。

Jan, 2000

超越词汇的分布式语义学：类比和释义的监督学习

本篇论文介绍了一种将分布式语义学从单个单词扩展到词对、短语和句子等的方法，通过使用组件词中的成对相似性来比较两个元组，从而实现关系相似性（类比）和组成相似性（释义）之间的转换，并通过监督学习生成组合函数。在衡量单词对之间的关系相似性（SAT 类比和 SemEval 2012 任务 2）和名词修饰短语和单个词之间的组成相似性方面取得了最优结果。

Oct, 2013

分层最优输运用于文档表示

该论文介绍了基于分布和话题建模的层次最优输运方法作为文档之间的元距离，以量化文档之间的相似性。这种方法具有解释性和可扩展性，并在 k-NN 分类方面表现良好。

Jun, 2019

语义相似度度量方法的描述和评估

这篇论文介绍了基于结构、信息内容和特征的语义相似度测量方法，并针对两个标准基准进行了分类和评估，目的是为研究人员和从业者选择适合其要求的最佳度量提供有效的评估。

Oct, 2013

基于分布的阈值确定句子相似性

通过使用孪生架构的神经网络，找到相似和不相似句子之间的距离分布，以及区分相似和不相似句子的阈值，并结合距离函数和分布特征进行预测评分，将结果推广到更广泛的领域。

Nov, 2023

具有泛化保证的监督度量学习

本篇论文提出一种新的核函数以及一种新的编辑相似性模型，可以更好地优化距离和相似度函数，提高 k 近邻算法的性能，并在学习相似性时考虑到泛化能力与算法的稳定性，解决了当前度量学习方法的局限性，为特征向量和结构化对象（如字符串或树）的度量学习提供了新方法。

Jul, 2013

一种基于分布的轨迹相似度测量方法

本文介绍了一种使用分布式内核来表示轨迹和测量其相似度的简单而强大的方法，该方法解决了轨迹测量的两个主要不足之处，并在异常检测，子轨迹异常检测和轨迹模式挖掘等任务中表现出卓越的性能。

Jan, 2023