学习字符串序列

May, 2024

Learning from String Sequences

David Lindsay, Sian Lindsay

TL;DR采用通用相似度度量（USM）作为 K - 最近邻（K-NN）学习器中的替代距离度量，有效地识别可变长度序列数据，并与常用的字符串 - 词向量方法进行对比实验证明，USM 方法较字符串 - 词向量方法在垃圾邮件过滤和蛋白质亚细胞定位等领域的预测具有更高的准确性，并可生成可靠的概率预测。

Abstract

The universal similarity metric (USM) has been demonstrated to give practically useful measures of "similarity" between sequence data. Here we have used the USM as an alternative distance metric in a

发现论文，激发创造

基于字符串核的序列分类的高效近似算法

本文中，我们提出了一种新的技术，能够高效准确地估计序列之间的相似度得分，从而增加了序列分类方法在音频、图像和文本序列中的应用广度，并且取得了良好的理论和实验表现。

Dec, 2017

具有参数高效迁移学习的通用度量学习

我们引入了一种名为通用度量学习（UML）的新型度量学习范式，它能够学习到能够捕捉多个数据分布关系的统一距离度量。通过使用预训练模型和两个额外的模块，即随机适配器和提示池，我们提出了一种名为参数高效通用度量学习（PUMA）的方法来解决不平衡数据分布和对主导分布的偏见等新挑战。此外，我们还编译了一个包含 8 个不同数据集的新通用度量学习基准。相较于特定数据集模型，PUMA 在使用大约 69 倍较少的可训练参数的情况下表现更好。

Sep, 2023

相似度度量

提出了一种基于 Kolmogorov 复杂性的新的 “归一化信息距离” 度量方法，证明它是度量，称之为 “相似度量”，并演示了两个应用：比较整个线粒体基因组并推断它们的进化历史以及完全自动计算 52 种不同语言的语言树。

Nov, 2001

高效近似内核基于尖峰序列分类

利用敏化和信息增益的方式改善了近似核在分类冠状病毒 (SARS-CoV-2) 突刺蛋白序列变异的性能，与基线和现有的健康医疗领域方法相比，我们的方法在两个数据集上都表现出更好的性能。

Sep, 2022

具有泛化保证的监督度量学习

本篇论文提出一种新的核函数以及一种新的编辑相似性模型，可以更好地优化距离和相似度函数，提高 k 近邻算法的性能，并在学习相似性时考虑到泛化能力与算法的稳定性，解决了当前度量学习方法的局限性，为特征向量和结构化对象（如字符串或树）的度量学习提供了新方法。

Jul, 2013

特征向量和结构化数据的度量学习综述

本文系统地综述了度量学习的前沿研究进展，着重分析了 Mahalanobis 距离度量学习、非线性度量学习、局部度量学习等新近涌现的强大替代方法，讨论了对于结构化数据的度量学习中仍存在的挑战，旨在给出度量学习近年来的发展方向。

Jun, 2013

风格转移和改写：寻找合理的语义相似性度量

本文分析了超过十余种测量两个短文本的语义相似性的方法，并使用一个新的标记为语义相似性的 14,000 句子数据集证明文献中使用的这些度量标准都不能够足够接近人的判断。虽然有一些最近提出的度量标准提供了具有可比性的结果，但 Word Mover Distance 被证明是目前测量改写文本的语义相似性的最合理的解决方案。

Apr, 2020

学习数值模拟的相似性度量

该论文提出了一种基于神经网络的方法，通过学习与时间相关的二维数据集的相关性来计算数据的稳定泛化度量（LSiM），以用于数值模拟结果的比较。该方法应用连锁神经网络架构，通过对数值 PDE 解析器进行控制数据生成来提高数据多样性，其特殊损失函数允许对训练数据进行单个数据样本之间关联性的学习。同时，通过对多个测试数据进行实验，证明了该方法相较于其它现有的向量空间和图像度量方法有更好的效果。

Feb, 2020

两阶段度量学习

本文提出了一个新的两阶段度量学习算法，首先通过计算到一组固定锚点的相似度将每个学习实例映射到概率分布，然后在关联的统计流形上定义输入数据空间上的 Fisher 信息距离，这在输入数据空间中引入了一组具有独特特性的距离度量，不像核化度量学习，我们不需要要求相似度度量是半正定的，而且也可以被解释为具有良好定义的距离逼近的局部度量学习算法。我们在多个数据集上评估了其性能，它明显优于其他度量学习方法和支持向量机（SVM）。

May, 2014

弥合差距：有效映射 PubMed 查询与文档的语义相似度度量

提出了一种基于 Word Mover's Distance 计算单词间距离的查询 - 文档相似度测量方法，利用神经词嵌入在检索无直接匹配的情况下发现相关词，并将其与 BM25 相结合，结果在 TREC Genomics 数据上平均精度平均提高 12％，在来自 PubMed 搜索日志的真实数据集上，结合学习排序的方法，正确率提高了 25％，表明该方法与 BM25 的结合可以产生更出色的性能。

Aug, 2016