Feb, 2024

使用合成数据进行语音转文本中地址提取的命名实体识别

TL;DR本文介绍了一种建立在双向编码器变换器(BERT)架构上的命名实体识别(NER)模型的方法,具体使用了 SlovakBERT 模型。该 NER 模型从语音转文本转录获取的数据中提取地址部分。由于真实数据的稀缺性,使用 GPT API 生成了一个合成数据集。强调了在这种人工数据中模仿口语变异的重要性。我们的 NER 模型仅使用合成数据进行训练,并使用小型真实测试数据集进行评估。