比较苹果和橙子:学习来自不同分布产生的数据的相似度函数
本文研究了分布相似度量的应用,以提高对未见共现情况的概率估计。我们的研究贡献有三个:通过广泛的比较实现了相似度量的分类,通过信息融合确定相似函数类型,介绍一种优秀的函数进行潜在代理分布的量化评估。
Jan, 2000
本文提出了一种技术,可以估计对象之间的相似度,如电影或食品,其适当的表达取决于人类的感知,这种相似度函数可以捕获一些难以自动提取的人类相似度的概念,当与用户模型相结合时,我们发现每个评估者的口味变化会影响他们对相似度的感知。
Feb, 2018
本文提出了一种基于条件概率分布的相似性量化方法,采用简单的神经网络参数化分布,并给出了一个采样的实现方法。实验证明,该方法与人类判断结果相关度显著高,并能有效地检测 Open IE 模型提取的冗余关系和分类中的错误,并可用于负采样和 softmax 分类以减轻错误。
Jul, 2019
本篇论文介绍了一种将分布式语义学从单个单词扩展到词对、短语和句子等的方法,通过使用组件词中的成对相似性来比较两个元组,从而实现关系相似性(类比)和组成相似性(释义)之间的转换,并通过监督学习生成组合函数。在衡量单词对之间的关系相似性(SAT 类比和 SemEval 2012 任务 2)和名词修饰短语和单个词之间的组成相似性方面取得了最优结果。
Oct, 2013
本文提出了一种利用监督对比学习的新型正则化方法,通过将余弦相似度扩展到更一般的相似度度量,建议在比较样本与正 / 负例子时使用不同的参数,并在此基础上提出了一种具有优势的方法,用于处理数据分布变化的问题,这种方法尤其适合使用高度代表性的模型,如神经网络。
Apr, 2023
本文介绍了一种使用分布式内核来表示轨迹和测量其相似度的简单而强大的方法,该方法解决了轨迹测量的两个主要不足之处,并在异常检测,子轨迹异常检测和轨迹模式挖掘等任务中表现出卓越的性能。
Jan, 2023
本文探讨了一些网络社区检测方法,比较它们的性能和系统偏差;评估了用于形式化网络社区概念的几种常见目标函数,并研究了几种旨在优化这些目标函数的近似算法。此外,本论文还考虑了问题的大小解决版本,从社区大小的角度来考虑社区质量,以更好地检验社区检测算法,因为目标函数和近似算法通常具有不明显的大小依赖行为。
Apr, 2010
该论文从交叉匹配角度分析了相似性学习,提出了一种基于 ROC 优化的点级优化标准,通过一种概率框架对此进行了深入研究,给出了基于 U - 统计的约束优化表达式,推导出相应的普适性学习速率以及在数据分布噪声假设下更快速的学习速率,同时考虑了采样近似近似的效果,同时通过量化实验得到了与理论相称的实验结果。
Jul, 2018