通过投影实现对拼写错误鲁棒的设备端文本表达

ACLAug, 2019

通过投影实现对拼写错误鲁棒的设备端文本表达

On-Device Text Representations Robust To Misspellings via Projections

Chinnadhurai Sankar, Sujith Ravi, Zornitsa Kozareva

TL;DR这篇论文展示了一种基于投影的神经分类器对于输入文本的错拼和扰动具有内在的鲁棒性，并且比使用 BiLSTMs 和精调 BERT 的方法更加稳健。

Abstract

Recently, there has been a strong interest in developing natural language applications that live on personal devices such as mobile phones, watches and IoT with the objective to preserve user privacy and have low memory. Advances in locality-sensitive hashing (LSH)-based →

natural language applications locality-sensitive hashing projection networks neural classifiers misspellings

发现论文，激发创造

系统评估推理捷径的基准套件

强大的神经分类器的出现增加了对既需要学习又需要推理的问题的兴趣，该研究论文介绍了一个包含任务评估、概念质量评估和推理快捷方式验证的综合基准套件，旨在系统地评估推理快捷方式对模型的影响。

Jun, 2024

利用局部敏感哈希进行快速再描述挖掘

本文介绍了一种基于局部敏感哈希的算法，用于处理纯数值属性的再描述挖掘，以实现更快速的匹配和扩展过程。

Jun, 2024

OLoRA: 正交低秩对大型语言模型的适应

OLoRA 是对 LoRA 方法的增强，利用 QR 分解通过正交矩阵初始化来加速 LLM 训练的收敛速度，同时保留 LoRA 的高效特性，例如可训练参数数量和 GPU 内存占用，实证评估结果显示，OLoRA 不仅收敛更快，而且在各种语言建模任务上表现出更好的性能，为 LLM 的精细调整提供了更高效和可访问性的可能，从而促进自然语言应用的广泛采用和创新。

Jun, 2024

在对抗性攻击下实现不确定性校准的认证

神经分类器对扰动敏感，证书方法提供对其预测的扰动不敏感性的可证明保证，而模型的置信度在安全关键应用中尤为重要。我们证明了攻击可以严重影响置信度，并提出了对置信度的最坏情况下的证书校准作为对抗性扰动下的置信度的界限。最后，我们提出了新的校准攻击，并展示了通过对抗性校准训练如何改善模型的校准性能。

May, 2024

更好地了解自己：多样的判别特征学习改善开放式识别

我们通过对开放集识别方法进行分析，重点关注特征多样性方面，揭示了学习多样化辨别特征与提升开放集识别性能之间的显著相关性，并基于此洞见提出了一种利用特征多样性优势的新型开放集识别方法，通过在标准的开放集识别测试平台上进行严格评估，证明我们的方法大幅优于现有方法。

Apr, 2024

使用局部敏感哈希的符号回归表达式的非精确简化

本研究提出了一种新颖的符号回归（SR）简化和膨胀控制方法，采用高效的局部敏感哈希（LHS）进行快速记忆化，以在 SR 过程中显著降低模型复杂度并提高收敛性。

Apr, 2024

基于局部敏感哈希的高效点变换器在高能物理中的应用

这项研究介绍了一种专为大规模科学领域（如高能物理学和天体物理学）的点云处理优化的新型 Transformer 模型。通过解决图神经网络和标准 Transformer 的局限性，我们的模型整合了局部归纳偏置，并通过硬件友好的规则操作实现了近线性复杂度。本研究的一个贡献是对各种稀疏化技术的误差 - 复杂度权衡进行定量分析，其中发现使用局部敏感哈希（LSH），特别是 OR 和 AND 构造 LSH，在具有局部归纳偏置的大规模点云数据的内核逼近中具有优越性。基于这一发现，我们提出了基于 LSH 的高效点云 Transformer（HEPT），该模型将 E^2LSH 与 OR 和 AND 构造相结合，并基于规则计算进行构建。HEPT 在两个关键但耗时的高能物理任务中表现出色，显著优于现有的 GNN 和 Transformer 模型，在准确性和计算速度上都取得了重大进展，标志着几何深度学习和大规模科学数据处理的重要进步。我们的代码可在 https://github.com/Graph-COM/HEPT 获取。

Feb, 2024

k-SemStamp：基于聚类的语义水印用于检测机器生成文本

通过使用 k-means 聚类作为局部敏感哈希的替代方法，k-SemStamp 显著提高了鲁棒性和抽样效率，同时保持了生成质量，是对机器生成文本检测的一种更有效的工具。

Feb, 2024

网络流量指纹识别的局部敏感哈希算法

本研究提出了利用局部敏感哈希技术进行网络流量指纹识别的解决方案，并通过与基于机器学习的流量指纹识别方法的比较，得出了相对于现有方法准确率提高了 12% 的结论，达到了 94% 的网络设备识别准确率。

Feb, 2024

DeepLSH：深度局部敏感哈希学习用于快速高效的近似崩溃报告检测

本文研究了如何利用局部敏感哈希（LSH）来解决软件开发过程中自动故障分组的问题，并介绍了 DeepLSH，一种 Siamese DNN 架构和原始损失函数，以逼近 Jaccard 和 Cosine 度量的局部敏感性特性，并通过一系列实验验证了这一方法。

Oct, 2023