Sep, 2024
历史德语文本规范化:基于类型和标记的语言建模
Historical German Text Normalization Using Type- and Token-Based
Language Modeling
TL;DR本研究解决了历史拼写变体给历史数字化文本的全文搜索和自然语言处理带来的挑战。论文提出了一种基于Transformer语言模型的德语文学文本自动规范化系统,使用平行语料库进行训练,结果显示该系统在准确性方面表现出色,接近更大型的全端到端句子规范化系统,但仍面临历史文本规范化中的模型泛化困难和高质量平行数据不足的挑战。