通过优化最近邻匹配来改进文本规范化

Dec, 2017

通过优化最近邻匹配来改进文本规范化

Improving Text Normalization by Optimizing Nearest Neighbor Matching

Salman Ahmad Ansari, Usman Zafar, Asim Karim

TL;DR本文提出了一种基于自动优化的最近邻匹配方法来进行文本规范化的方法，它可用于构建具备实践意义的领域特定规范化词典。

Abstract

text normalization is an essential task in the processing and analysis of social media that is dominated with informal writing. It aims to map informal words to their intended standard forms. Previously proposed text no

text normalization nearest neighbor matching optimization similarity function domain-specific normalization lexicons

发现论文，激发创造

将序列对序列模型用于社交媒体文本规范化

介绍了一个基于混合词 - 字符注意力编码 - 解码模型的社交媒体文本标准化系统，以预处理噪音文本并适应社交媒体上的 NLP 应用。

Apr, 2019

利用字符串和语音相似性的神经文本标准化

本研究提出了神经模型，利用单词字符串和音相似性来进行文本规范化。结论表明，将单词字符串的相似性与声音相似性综合考虑，能成功应对缩写、拼写错误和语音替代等问题，并达到了比基础模型更高的 F1 得分。

Nov, 2020

记忆化泛化：最近邻语言模型

引入了 $k$NN-LMs，该模型将预训练的神经语言模型与 $k$ 最近邻居模型线性插值。使用此方法在一个强大的 Wikitext-103 LM 中，我们实现了一个新的最先进的困惑度为 15.79，这是一个 2.9 点的提高而无需额外的训练。此外，作者还展示了这种方法在有效地扩展到更大的训练数据和实现领域自适应方面的作用，并认为最近邻搜索是在长尾系统的语言建模中一种有效的方法。

Nov, 2019

文本匹配作为图像识别

本研究提出了一种将文本匹配建模为图像识别问题的方法，即通过构造匹配矩阵并利用卷积神经网络捕捉匹配模式，以此提高匹配准确度，并通过实验证明了该方法的优越性。

Feb, 2016

微文本规范化中音标算法的性能

通过实验一系列语音算法，研究在候选生成过程中对微文本规范化的最佳语音算法，以提高规范化系统的整体性能。

Feb, 2024

探索图像描述中的最近邻方法

本文研究基于最近邻算法的图像字幕生成方法，利用自动评估指标在 MS COCO 评估服务器上进行评估，结果表明该方法与最近的一些新颖生成方法相同，但人类研究表明生成新颖字幕的方法仍优于最近邻方法。

May, 2015

非参数最近邻辅助微调神经机器翻译

研究探究了在微调阶段引入 kNN 预测的统计数据来提高基线翻译模型，发现通过引入 gating 机制，kNN 的真实概率和强化学习三种方法，相比于传统的微调，可以在四个标准机器翻译数据集上实现一致的改进，尤其于翻译语法关系或功能词时表现出更大的提升。

May, 2023

基于超参数优化的邻居图相似性搜索与自动帕累托最优性能和最小期望质量设置

本文介绍一种使用邻居图和优化元启发式算法进行最近邻搜索的自动调谐算法，以自动产生品质和搜索速度的帕累托最优搜索；同时，也使用相同策略产生实现最小品质的索引。我们的方法被描述并与其他最先进的相似度搜索方法进行了基准测试，展示了便利性和竞争力。

Jan, 2022

一种改进的 k 最近邻算法用于文本分类

本文提出了一种改进的 kNN 算法，针对文本分类中常见的类别样本分布不均衡问题，使用不同的邻居数来分类。在文本分类实验中，相比传统方法，该方法对参数 k 的敏感度更低，能够更好地识别属于小类的文档。

Jun, 2003

电子商务文本属性标准化的可扩展方法（SANTA）

SANTA 是一个自动归一化电子商务属性值的可扩展框架，提高属性标准化的准确性，与已有的基于模糊字符串匹配和语义嵌入算法相比，使用深度学习算法的词嵌入可提高基于商品属性数据的标准化性能。

Jun, 2021