KDDJul, 2018

Pangloss 在嘈杂文本环境中的快速实体链接

TL;DR该论文介绍了 Pangloss,一种用于嘈杂的文本上实体消歧的生产系统。Pangloss 使用一种基于上下文文档嵌入的语义相似度引擎结合概率线性时间关键短语识别算法,以比其它研究或商业系统更好的效果(F1 值 > 5%)解决了实体消歧问题。此外,Pangloss 利用具有分层结构的本地嵌入式数据库来存储其统计数据和元数据,以允许在串流环境和低内存环境(例如移动电话)中进行快速的消歧。