Mar, 2022

indic-punct:用于印度语言的自动标点还原和逆文本规范化框架

TL;DR本研究提出了一种使用预训练的IndicBERT模型进行自动文本标点的方法,并通过手写加权有限状态转换器(WFST)语法进行反文本归一化。我们已经为11种Indic语言开发了此工具,可公开获取所有代码和数据。