Author name ambiguity decreases the quality and reliability of information
retrieved from digital libraries. Existing methods have tried to solve this
problem by predefining a feature set based on expert's knowle
该研究提出了一种基于 Siamese LSTM 网络、有监督学习的方法来从相对较低的维度向量空间中提取公司名称字符串的嵌入,同时使用 Active Learning 来优化样本标注的过程,以获得更高的效率和更好的性能。研究显示在足够有标注数据的情况下,该模型表现优于基于标准字符串匹配算法的基准模型,同时使用 Active Learning 能够在有限的数据标记资源下达到相同的性能,从而将模型训练的成本降至最少。