微文本规范化中音标算法的性能

Feb, 2024

On the performance of phonetic algorithms in microtext normalization

Yerai Doval, Manuel Vilares, Jesús Vilares

TL;DR通过实验一系列语音算法，研究在候选生成过程中对微文本规范化的最佳语音算法，以提高规范化系统的整体性能。

Abstract

User-generated content published on microblogging social networks constitutes a priceless source of information. However, microtexts usually deviate from the standard lexical and grammatical rules of the language, thus making its processing by traditional intelligent systems very difficult. As an answer, →

microtext normalization phonetic algorithm fuzzy matching twitter texting

发现论文，激发创造

将序列对序列模型用于社交媒体文本规范化

介绍了一个基于混合词 - 字符注意力编码 - 解码模型的社交媒体文本标准化系统，以预处理噪音文本并适应社交媒体上的 NLP 应用。

Apr, 2019

通过优化最近邻匹配来改进文本规范化

本文提出了一种基于自动优化的最近邻匹配方法来进行文本规范化的方法，它可用于构建具备实践意义的领域特定规范化词典。

Dec, 2017

利用字符串和语音相似性的神经文本标准化

本研究提出了神经模型，利用单词字符串和音相似性来进行文本规范化。结论表明，将单词字符串的相似性与声音相似性综合考虑，能成功应对缩写、拼写错误和语音替代等问题，并达到了比基础模型更高的 F1 得分。

Nov, 2020

基于多语言 Transformer 的序列 - 序列词汇规范化

本论文通过使用基于 mBART 的句子级序列到序列模型，将自然语言处理中的标准化问题归结为机器翻译问题，利用多语言预训练技术进行 fine-tuned，优于操作原始社交媒体文本的模型，在下游任务中实现性能提升。

Oct, 2021

克罗地亚文本中的非标准词归一化

本文介绍了文本归一化的方法，包括使用基于规则和查找字典的方法，以及提出用于分类克罗地亚语非标准单词的整个分类法。效果显示，针对克罗地亚语的文本归一化的标记率为 95％，其中 80％的扩展单词以正确的形态呈现。

Mar, 2015

波兰文本历时规范化的两种方法

该论文讨论了波兰文本的两种历时归一化方法：基于手工模式和基于文本到文本转换转换器架构的神经归一化模型。论文详细讨论了为任务准备的训练和评估数据，以及用来比较所提出的归一化解决方案的实验。进行了定量和定性分析，结果显示，在当前阶段的问题研究中，基于规则的解决方案在准备的数据集的 4 个变体中有 3 个表现更好，尽管在实践中，这两种方法都有各自的优势和劣势。

Feb, 2024

自动规范混合语言社交媒体文本中的单词变体

本文研究了如何通过利用词的上下文特性和分布式表征来处理混合代码数据中单词的不同变体，并表明这种预处理方式可以提高最先进的词性标注和情感分析任务的性能。

Apr, 2018

双语社区中基础语言规范化对不充分资源语言的非常规书写的影响

本文研究在社交媒体上，通过使用建模技术，对不同语言，特别是那些主要使用波斯 - 阿拉伯语脚本书写的语言的脚本归一化的问题进行了处理，而这有助于提高机器翻译和语言识别等下游任务的性能。

May, 2023

文本转语音中的非标准越南语词语检测和规范化

本文提出了一种新的两阶段文本标准化方法解决语音合成中的 NSWs（数字，日期，范围，分数，缩写，URL，电子邮件，哈希标签和联系人名字）语义歧义和发音问题。第一个阶段使用基于模型的标注器检测 NSWs，第二个阶段使用基于正向词典的最大匹配算法将哈希标签，电子邮件地址和联系人名字等 NSWs 拆分为发音形式。实验结果表明，该方法的错误率较低，达到 6.67％。

Sep, 2022

自动文本规范化用于仇恨言论检测

社交媒体数据是研究的宝贵资源，非标准词汇是对 NLP 工具运行的一种障碍。我们采用了一种简单的序列到序列模型，通过文本规范化的实验结果显示准确率接近 70%，同时也提升了 2% 左右的仇恨言论检测任务的准确性，展示了提高复杂 NLP 任务性能的潜力。

Nov, 2023