只有 400 个样本！重新审视自动生成拼音规则对菲律宾语拼写规范化的有效性

EMNLPOct, 2022

只有 400 个样本！重新审视自动生成拼音规则对菲律宾语拼写规范化的有效性

Look Ma, Only 400 Samples! Revisiting the Effectiveness of Automatic N-Gram Rule Generation for Spelling Normalization in Filipino

PDF

Lorenzo Jaime Yu Flores, Dragomir Radev

TL;DR本研究提出了一种基于 N-Gram 与 Damerau Levenshtein 距离模型的自动规则抽取方法，这种模型利用少量的数据进行训练，实现了良好的性能，并且在没有足够数据时，传统的方法胜过复杂的深度学习模型。

Abstract

With 84.75 million Filipinos online, the ability for models to process online text is crucial for developing filipino nlp applications. To this end, spelling correction is a crucial preprocessing step for downstream processing. However, the lack of data prevents the use of language mod

filipino nlp applications spelling correction n-gram damerau levenshtein distance limited training data

发现论文，激发创造

自动文本规范化用于仇恨言论检测

社交媒体数据是研究的宝贵资源，非标准词汇是对 NLP 工具运行的一种障碍。我们采用了一种简单的序列到序列模型，通过文本规范化的实验结果显示准确率接近 70%，同时也提升了 2% 左右的仇恨言论检测任务的准确性，展示了提高复杂 NLP 任务性能的潜力。

Nov, 2023

神经机器翻译模型在历史拼写规范化上的评估

本文应用不同的 NMT 模型来解决五种语言的历史拼写规范化问题，结果显示 NMT 模型比 SMT 模型在字符错误率方面表现更好，其中 RNN 模型的性能与 GRU/LSTM 类似，Transformer 模型只有在提供更多的训练数据后才有更好的效果，而子词级别的模型在低资源语言中比字符级别的模型表现更好，并提出了一种混合方法进一步提高历史拼写规范化的性能。

Jun, 2018

重温 N-Gram 模型：对手写文本识别现代神经网络的影响

该研究探讨了在手写识别领域中，深度神经网络结构集成显式 n-gram 语言模型是否能提高性能，结果表明，结合字符或子词的 n-gram 模型能显著改善自动文本识别系统在多个数据集上的性能，挑战了仅仅使用深度学习模型就能够达到最优性能的观点，特别是 DAN 结合字符语言模型的组合超过了目前的基准，确认了混合方法在现代文档分析系统中的价值。

Apr, 2024

SpellMapper：基于 n-gram 映射的 ASR 自定义非自回归神经拼写检查器

使用新颖的基于拼写错误 n-gram 映射的候选检索算法和 BERT 架构的非自回归神经模型，相较于基线 ASR 系统，在口语化维基百科上的实验显示，字错误率提高了 21.4％。

Jun, 2023

关于预训练语言模型 N-gram 逼近的研究

本研究调查了预先训练的语言模型在自动语音识别中的潜在用途，对比了大规模文本抽样和概率转换的应用。在八个特定领域的语料库中，发现采样的近似方法支持使用，插值与大规模文本语料库一起使用对比基线三元组能使测试困惑度提高 15％，我们引入了一种有限制的词汇解码方法，这将进一步提高 5％的改进。

Jun, 2023

双向 LSTM 和多任务学习优化历史拼写规范化

使用深度神经网络技术对历史文献进行自然语言处理，尤其是对字符进行深度双向 LSTM 网络归一化处理。在对早期新高地德文文本的评估中，我们的模型表现优异，且使用多任务学习结合额外的标准化数据可以进一步提高模型的性能。

Oct, 2016

一个用于训练神经概率语言模型的快速简单算法

本文提出了一种快速而简单的基于噪声对比估计算法的 NPLM 训练方法，用此方法训练了几个神经语言模型并在 Microsoft Research 句子完成挑战数据集上取得了最先进的结果，有效地降低了训练时间。

Jun, 2012

矫正真实世界的拼写错误：一种新的混合方法

本文提出了一种新的混合方法，该方法结合了统计和句法知识来检测和纠正现实世界中的单词拼写错误，并使用 Constraint Grammar（CG）区分搜索空间中一组校正候选项。

Feb, 2023

标记化、标注和依存分析任务中的零样本学习和少样本学习方法在塔加洛语文本上的评估

该研究探讨在没有足够标记数据的情况下，使用替代语言资源来建立任务特定模型的方法，以及利用词嵌入和数据增强来改善性能，针对在语法分析方面表现不好的 Tagalog 语言进行了实验，并展示了这些零点和几点方法相比于基于监督学习的最先进方法，在领域内外的 Tagalog 文本的语法分析方面具有显著的改进。

Aug, 2022

N-Grammer: 使用潜在 n-gram 扩充 Transformer

本研究提出了一种新的改进 Transformer 模型的方法，使用了文本序列中的离散潜在表示构造 n-gram，并应用于语言建模和文本分类中，经实验证明性能优于传统的 Transformer 模型和 Primer，该模型已在 Jax 中开源以便复现。

Jul, 2022