利用正则表达式规范化立陶宛文本
本文介绍了文本归一化的方法,包括使用基于规则和查找字典的方法,以及提出用于分类克罗地亚语非标准单词的整个分类法。效果显示,针对克罗地亚语的文本归一化的标记率为 95%,其中 80%的扩展单词以正确的形态呈现。
Mar, 2015
本文提出了一种新的两阶段文本标准化方法解决语音合成中的 NSWs(数字,日期,范围,分数,缩写,URL,电子邮件,哈希标签和联系人名字)语义歧义和发音问题。第一个阶段使用基于模型的标注器检测 NSWs,第二个阶段使用基于正向词典的最大匹配算法将哈希标签,电子邮件地址和联系人名字等 NSWs 拆分为发音形式。实验结果表明,该方法的错误率较低,达到 6.67%。
Sep, 2022
该论文讨论了波兰文本的两种历时归一化方法:基于手工模式和基于文本到文本转换转换器架构的神经归一化模型。论文详细讨论了为任务准备的训练和评估数据,以及用来比较所提出的归一化解决方案的实验。进行了定量和定性分析,结果显示,在当前阶段的问题研究中,基于规则的解决方案在准备的数据集的 4 个变体中有 3 个表现更好,尽管在实践中,这两种方法都有各自的优势和劣势。
Feb, 2024
社交媒体数据是研究的宝贵资源,非标准词汇是对 NLP 工具运行的一种障碍。我们采用了一种简单的序列到序列模型,通过文本规范化的实验结果显示准确率接近 70%,同时也提升了 2% 左右的仇恨言论检测任务的准确性,展示了提高复杂 NLP 任务性能的潜力。
Nov, 2023
本文介绍了使用非标准单词 (非标准单词包括数字、日期、缩写、货币等)作为特征来进行分析克罗地亚语文本的分类。实验结果表明,使用非标准单词频率作为特征的分类准确率最高为 87%。此外,作者认为在高度变形的语言中,应该考虑使用基于非标准单词的功能来降低特征空间的维度,而无需使用标准分类过程。
Aug, 2014
本文提出一种有效的 Ligurian 文本标准化方法,利用基于变压器的模型实现了较低的错误率,并在公共数据集上公开发布了 Ligurian 语言的首个单语语料库。
Jun, 2022
使用少于 3% 英文数据的量,我们提出了一种新颖的体系结构来促进多种语言的 TTS 文本归一化系统,将 TN 视为一个序列分类问题,并提出了一种细粒度的分词机制,该机制使系统能够从训练数据本身学习大部分类及其归一化,同时结合最少的预先编码的语言知识来处理其他类别,我们发表了 TN 在西班牙语和泰米尔语 TTS 中的首个结果,并证明了该方法的性能与英文上的以前工作相当。
Apr, 2021
本文介绍了用于扩展语言资源的分类方法,比较了 WALS 的六个句法规则在 325 种语言中的分类效果。我们发现在使用 propagating 大多数标签的方法中,结合形态学和语言特征的逻辑回归模型的分类效果最好。
Mar, 2016
本论文通过使用基于 mBART 的句子级序列到序列模型,将自然语言处理中的标准化问题归结为机器翻译问题,利用多语言预训练技术进行 fine-tuned,优于操作原始社交媒体文本的模型,在下游任务中实现性能提升。
Oct, 2021
首次引入越南词汇规范化任务的越南词汇规范化 (ViLexNorm) 语料库包括超过 10,000 对句子,经过人工注释,来自越南最流行社交媒体平台的公开评论,并验证了其在 NLP 任务中的积极影响。
Jan, 2024