- BERT-LSH: 减少 Attention 的绝对计算量
本研究介绍了一种新颖的 BERT-LSH 模型,其中包含 Locality Sensitive Hashing(LSH),用于近似 BERT 架构中的 attention 机制。我们对该模型与标准基准 BERT 模型的计算效率和性能进行了检 - 通过张量化的随机投影来改进 LSH
提供了一种基于 CP 和 tensor train (TT) 分解技术的 LSH 方法,适用于欧几里得距离和余弦相似度的张量数据,具有空间高效性。
- ICML仅需采样(几乎)一次:通过伯努利采样实现线性代价自注意力
本文介绍了一种基于二项分布采样的局部敏感哈希(LSH)注意力机制,可以将自注意力的复杂度从二次降到线性。我们在 GLUE 和 LRA 基准测试中测试该算法并发现性能优于标准的预训练变压器模型和其他自注意力方法。
- EMNLP黑盒环境下查询效率攻击的强基准
该研究提出了一种查询效率高的攻击策略来生成文本分类和蕴含任务中的可信对抗性样例,并通过使用注意力机制和局部敏感哈希来减少查询次数。对三个不同的搜索空间使用四种基线进行比较,平均来说我们在所有数据集和目标模型中将查询次数降低了 75%。在受限 - 可解释性推荐的解释排名数据集
本文提供了三个基准数据集 (EXtra) 进行评估,使用排名导向的度量来衡量可解释性。 为了解决数据集构建中遇到的难题,提供了从用户评论中识别相似句子的解决方法和基于局部敏感哈希的子线性时间近似检测方法,可供社区的研究者共同研究。
- 自适应聚合变压器进行端到端物体检测
本文提出了一种名为自适应聚类变换器(ACT)的新型变换器,通过局部敏感哈希(LSH)自适应地聚类查询特征,使用样本 - 键交互来近似查询 - 键交互,将原本二次复杂度的 self-attention 减少到每层中的原型数量 K 的 O(NK - SMYRF:使用不对称聚类的高效注意力机制
我们提出了一种新型的平衡聚类算法 SMYRF,通过使用局部敏感哈希算法和一系列新异构变换,实现了由 O(N ^ 2)到 O(N log N)的注意力复杂度的有效减少,并在不需要重新训练的情况下拥有良好的性能表现。
- DeepER -- 深度实体分辨
本文介绍了一种名为 DeepER 的新型实体解析(ER)系统,该系统利用了先进的深度学习技术,通过使用递归神经网络(RNN)和分布式表示(即向量)等方法。提高了解析准确性、效率和易用性,相比传统机器学习方法无需人工标记数据和手工制定特征和相 - 基于 LSH 的新型无偏高效采样器和估计器用于对数线性模型中的分区函数计算
该研究提出了一种新的采样方案和无偏估计器,利用局部敏感哈希(LSH)在次线性时间内准确估算分配函数,实现了高效的样本生成和处理,进而提高了训练实际语言模型的速度和精度。
- NIPS利用稀疏性进行高效子模型数据汇总
本文研究了设施选址问题的子模优化算法,提出了一种基于稀疏化的最优算法,解决了计算所有数据项对益处的问题,以加速其在相似性的广泛问题家族中的使用。
- LSH 集合:互联网规模域名搜索
本研究主要解决域搜索问题,提出了适用于搜索开放数据和网络数据的 Jaccard 集合包含度量标准及其索引结构 Locality Sensitive Hashing Ensemble。通过实验验证,该索引结构在大规模数据情况下具有优异的查询准 - 逼近近邻最优数据相关哈希
本文提出了一种基于数据的哈希方案,用于解决近似最近邻问题,对于 $n$ 个 $d$ 维数据集,我们的数据结构实现了查询时间 $O (d n^{
ho+o (1)})$ 和空间复杂度 $O (n^{1+
ho+o (1)}+dn)$,其中 $ - 使用松弛度的随机嵌入和高维近似最近邻
本文提出了一种针对欧氏空间的新的 “低质量” 嵌入定义,并应用随机投影将问题降低到与目标空间中近似最近邻的 $k$ 个近似最近邻象限所对应的原像空间的维度成反比的空间中;通过 BBD 树等数据结构,可有效检索这 $k$ 个近似最近邻点。在计 - 一项相似性搜索的哈希调查
本文介绍了哈希方法作为解决最近邻搜索问题的一种主要方法的概述,其中对基于数据分布设计哈希函数和基于数据学习设计哈希函数的两种主要哈希算法进行了阐述和综述。
- MinHash 比 SimHash 更具优势的防御能力
本研究探讨了在大规模数据处理应用中,MinHash 和 SimHash 是两种广泛采用的局部敏感哈希算法。研究表明,当数据为二进制时,MinHash 几乎总是优于 SimHash;本研究还提供了基于相似性和余弦相似性的算法比较方法。
- 一种置换哈希方法的密集性改进
本文提出了一种新的稠密化策略,使 $(K,L)$ 参数的局部敏感哈希 (Locality Sensitive Hashing) 的 minwise 哈希算法在查询处理成本上从 $O (dKL)$ 降至仅 $O (d + KL)$,针对非常稀 - 用于亚线性时间最大内积搜索(MIPS)的非对称局部敏感哈希(ALSH)
本文提出了第一个可证明的次线性时间算法,用于近似最大内积搜索,该建议也是使用未归一化的内积作为底层相似度度量的第一个哈希算法。
- 高效的分布式局部敏感哈希
本文提出了基于熵局部敏感哈希的分布式分层哈希方案,能够显著减少网络流量,提高实际应用程序的运行效率。
- 密度敏感哈希
提出了一种名为密度敏感哈希(DSH)算法,它是局部敏感哈希(LSH)的扩展,利用数据的几何结构避免了纯随机投影的限制,并在大规模高维数据搜索中取得更好的性能。