微文本规范化中音标算法的性能
本研究提出了神经模型,利用单词字符串和音相似性来进行文本规范化。结论表明,将单词字符串的相似性与声音相似性综合考虑,能成功应对缩写、拼写错误和语音替代等问题,并达到了比基础模型更高的 F1 得分。
Nov, 2020
本论文通过使用基于 mBART 的句子级序列到序列模型,将自然语言处理中的标准化问题归结为机器翻译问题,利用多语言预训练技术进行 fine-tuned,优于操作原始社交媒体文本的模型,在下游任务中实现性能提升。
Oct, 2021
本文介绍了文本归一化的方法,包括使用基于规则和查找字典的方法,以及提出用于分类克罗地亚语非标准单词的整个分类法。效果显示,针对克罗地亚语的文本归一化的标记率为 95%,其中 80%的扩展单词以正确的形态呈现。
Mar, 2015
该论文讨论了波兰文本的两种历时归一化方法:基于手工模式和基于文本到文本转换转换器架构的神经归一化模型。论文详细讨论了为任务准备的训练和评估数据,以及用来比较所提出的归一化解决方案的实验。进行了定量和定性分析,结果显示,在当前阶段的问题研究中,基于规则的解决方案在准备的数据集的 4 个变体中有 3 个表现更好,尽管在实践中,这两种方法都有各自的优势和劣势。
Feb, 2024
本文研究了如何通过利用词的上下文特性和分布式表征来处理混合代码数据中单词的不同变体,并表明这种预处理方式可以提高最先进的词性标注和情感分析任务的性能。
Apr, 2018
本文研究在社交媒体上,通过使用建模技术,对不同语言,特别是那些主要使用波斯 - 阿拉伯语脚本书写的语言的脚本归一化的问题进行了处理,而这有助于提高机器翻译和语言识别等下游任务的性能。
May, 2023
本文提出了一种新的两阶段文本标准化方法解决语音合成中的 NSWs(数字,日期,范围,分数,缩写,URL,电子邮件,哈希标签和联系人名字)语义歧义和发音问题。第一个阶段使用基于模型的标注器检测 NSWs,第二个阶段使用基于正向词典的最大匹配算法将哈希标签,电子邮件地址和联系人名字等 NSWs 拆分为发音形式。实验结果表明,该方法的错误率较低,达到 6.67%。
Sep, 2022
社交媒体数据是研究的宝贵资源,非标准词汇是对 NLP 工具运行的一种障碍。我们采用了一种简单的序列到序列模型,通过文本规范化的实验结果显示准确率接近 70%,同时也提升了 2% 左右的仇恨言论检测任务的准确性,展示了提高复杂 NLP 任务性能的潜力。
Nov, 2023