利用正则表达式规范化立陶宛文本

Dec, 2023

利用正则表达式规范化立陶宛文本

Normalization of Lithuanian Text Using Regular Expressions

Pijus Kasparaitis

TL;DR文本归一化是文本到语音合成系统的一个重要组成部分，需要识别并扩展非标准词以及应用适合立陶宛语的符号类别，基于正则表达式创建规则集并通过实验评估准确性，解释错误的原因并提供文本归一化规则发展的建议。

Abstract

text normalization is an integral part of any text-to-speech synthesis system. In a natural language text, there are elements such as numbers, dates, abbreviations, etc. that belong to other →

text normalization text-to-speech synthesis non-standard words semiotic classes lithuanian language

发现论文，激发创造

克罗地亚文本中的非标准词归一化

本文介绍了文本归一化的方法，包括使用基于规则和查找字典的方法，以及提出用于分类克罗地亚语非标准单词的整个分类法。效果显示，针对克罗地亚语的文本归一化的标记率为 95％，其中 80％的扩展单词以正确的形态呈现。

Mar, 2015

文本转语音中的非标准越南语词语检测和规范化

本文提出了一种新的两阶段文本标准化方法解决语音合成中的 NSWs（数字，日期，范围，分数，缩写，URL，电子邮件，哈希标签和联系人名字）语义歧义和发音问题。第一个阶段使用基于模型的标注器检测 NSWs，第二个阶段使用基于正向词典的最大匹配算法将哈希标签，电子邮件地址和联系人名字等 NSWs 拆分为发音形式。实验结果表明，该方法的错误率较低，达到 6.67％。

Sep, 2022

波兰文本历时规范化的两种方法

该论文讨论了波兰文本的两种历时归一化方法：基于手工模式和基于文本到文本转换转换器架构的神经归一化模型。论文详细讨论了为任务准备的训练和评估数据，以及用来比较所提出的归一化解决方案的实验。进行了定量和定性分析，结果显示，在当前阶段的问题研究中，基于规则的解决方案在准备的数据集的 4 个变体中有 3 个表现更好，尽管在实践中，这两种方法都有各自的优势和劣势。

Feb, 2024

自动文本规范化用于仇恨言论检测

社交媒体数据是研究的宝贵资源，非标准词汇是对 NLP 工具运行的一种障碍。我们采用了一种简单的序列到序列模型，通过文本规范化的实验结果显示准确率接近 70%，同时也提升了 2% 左右的仇恨言论检测任务的准确性，展示了提高复杂 NLP 任务性能的潜力。

Nov, 2023

基于非标准词的文本分类特征

本文介绍了使用非标准单词（非标准单词包括数字、日期、缩写、货币等）作为特征来进行分析克罗地亚语文本的分类。实验结果表明，使用非标准单词频率作为特征的分类准确率最高为 87％。此外，作者认为在高度变形的语言中，应该考虑使用基于非标准单词的功能来降低特征空间的维度，而无需使用标准分类过程。

Aug, 2014

濒危语言的文本规范化：以利古里亚语为例

本文提出一种有效的 Ligurian 文本标准化方法，利用基于变压器的模型实现了较低的错误率，并在公共数据集上公开发布了 Ligurian 语言的首个单语语料库。

Jun, 2022

Proteno：基于少量数据的文本归一化技术，用于快速部署文本转语音系统

使用少于 3% 英文数据的量，我们提出了一种新颖的体系结构来促进多种语言的 TTS 文本归一化系统，将 TN 视为一个序列分类问题，并提出了一种细粒度的分词机制，该机制使系统能够从训练数据本身学习大部分类及其归一化，同时结合最少的预先编码的语言知识来处理其他类别，我们发表了 TN 在西班牙语和泰米尔语 TTS 中的首个结果，并证明了该方法的性能与英文上的以前工作相当。

Apr, 2021

对数百种语言进行句法规律分类

本文介绍了用于扩展语言资源的分类方法，比较了 WALS 的六个句法规则在 325 种语言中的分类效果。我们发现在使用 propagating 大多数标签的方法中，结合形态学和语言特征的逻辑回归模型的分类效果最好。

Mar, 2016

基于多语言 Transformer 的序列 - 序列词汇规范化

本论文通过使用基于 mBART 的句子级序列到序列模型，将自然语言处理中的标准化问题归结为机器翻译问题，利用多语言预训练技术进行 fine-tuned，优于操作原始社交媒体文本的模型，在下游任务中实现性能提升。

Oct, 2021

ViLexNorm：越南社交媒体文本的词汇规范化语料库

首次引入越南词汇规范化任务的越南词汇规范化 (ViLexNorm) 语料库包括超过 10,000 对句子，经过人工注释，来自越南最流行社交媒体平台的公开评论，并验证了其在 NLP 任务中的积极影响。

Jan, 2024