Nov, 2015
基于CRF与模式匹配的文言方志挖掘方法研究——以中国历史人物传记信息为例
Mining Local Gazetteers of Literary Chinese with CRF and Pattern based
Methods for Biographical Information in Chinese History
TL;DR本文首次开展了基于语言模型和条件随机场的算法识别文言文历史文本中命名实体的研究,并将其扩展至历史文献的文档结构挖掘。通过对220余本地志文献的实际评估,该方法表现出很好的效果,成功识别出数千个名称和地址,其中许多与中国传记数据库中记录的个人信息相匹配,成为该数据库中的新近记录。