Sep, 2013

JRC-Names: 一份免费可获取的高度多语种实体命名资源

TL;DR本研究描述了一种新的,免费提供的、高度多语种的名义实体资源,包含了经过七年大规模多语言新闻分析和维基百科挖掘编制的 20 多种语言、20 万个人名和组织名及同样数量的拼写变体。该资源可以用于改进数据库或互联网上的名称搜索,为机器学习系统提供学习命名实体识别规则,改善机器翻译等。我们在此描述了该资源的创建方式、当前规模的统计数据、形态学屈折问题的解决方案以及其功能的详细信息。该资源的更新将每日提供。