Jun, 2018

一种无监督且可定制的拼写错误生成器,用于挖掘嘈杂的与健康相关的文本来源

TL;DR本研究提出了一种可定制化的数据中心系统,能够自动生成复杂健康相关词汇的常见拼写错误,其拼写变量生成器依赖于从大规模未标记的文本中学习的密集向量模型,能够在过滤词汇时递归执行,生成的变体可用于在噪声环境下进行健康文本挖掘。