介绍了一个基于混合词 - 字符注意力编码 - 解码模型的社交媒体文本标准化系统,以预处理噪音文本并适应社交媒体上的 NLP 应用。
Apr, 2019
本研究提出了神经模型,利用单词字符串和音相似性来进行文本规范化。结论表明,将单词字符串的相似性与声音相似性综合考虑,能成功应对缩写、拼写错误和语音替代等问题,并达到了比基础模型更高的 F1 得分。
Nov, 2020
引入了 $k$NN-LMs,该模型将预训练的神经语言模型与 $k$ 最近邻居模型线性插值。使用此方法在一个强大的 Wikitext-103 LM 中,我们实现了一个新的最先进的困惑度为 15.79,这是一个 2.9 点的提高而无需额外的训练。此外,作者还展示了这种方法在有效地扩展到更大的训练数据和实现领域自适应方面的作用,并认为最近邻搜索是在长尾系统的语言建模中一种有效的方法。
Nov, 2019
本研究提出了一种将文本匹配建模为图像识别问题的方法,即通过构造匹配矩阵并利用卷积神经网络捕捉匹配模式,以此提高匹配准确度,并通过实验证明了该方法的优越性。
Feb, 2016
通过实验一系列语音算法,研究在候选生成过程中对微文本规范化的最佳语音算法,以提高规范化系统的整体性能。
Feb, 2024
本文研究基于最近邻算法的图像字幕生成方法,利用自动评估指标在 MS COCO 评估服务器上进行评估,结果表明该方法与最近的一些新颖生成方法相同,但人类研究表明生成新颖字幕的方法仍优于最近邻方法。
May, 2015
研究探究了在微调阶段引入 kNN 预测的统计数据来提高基线翻译模型,发现通过引入 gating 机制,kNN 的真实概率和强化学习三种方法,相比于传统的微调,可以在四个标准机器翻译数据集上实现一致的改进,尤其于翻译语法关系或功能词时表现出更大的提升。
May, 2023
本文介绍一种使用邻居图和优化元启发式算法进行最近邻搜索的自动调谐算法,以自动产生品质和搜索速度的帕累托最优搜索;同时,也使用相同策略产生实现最小品质的索引。我们的方法被描述并与其他最先进的相似度搜索方法进行了基准测试,展示了便利性和竞争力。
Jan, 2022
本文提出了一种改进的 kNN 算法,针对文本分类中常见的类别样本分布不均衡问题,使用不同的邻居数来分类。在文本分类实验中,相比传统方法,该方法对参数 k 的敏感度更低,能够更好地识别属于小类的文档。
Jun, 2003
SANTA 是一个自动归一化电子商务属性值的可扩展框架,提高属性标准化的准确性,与已有的基于模糊字符串匹配和语义嵌入算法相比,使用深度学习算法的词嵌入可提高基于商品属性数据的标准化性能。
Jun, 2021