本论文提出在数字图书馆中解决作者名称歧义(ANA)的问题。我们使用的数据集包含来自 DBLP 仓库的超过 500 万条记录,由大约 260 万位共同作者撰写。我们的方法首先将具有相同姓和同名首字母的作者分组。每组中的作者通过与他 / 她的共同作者和研究领域的关系来确定,我们采用了神经网络模型来学习共同作者和标题的表示。针对大型数据集进行了广泛的实验,并验证了我们方法的有效性。
Jul, 2022
提出一种新的姓名消歧方法,使用基于图嵌入的低维向量将文档聚类,避免了隐私侵犯和昂贵的生物特征提取。通过实验表明,该方法在相似情境下比现有的姓名消歧方法显著更好。
Feb, 2017
本研究比较了一系列无监督消歧方法,应用于一个包含 ResearcherID 的作者提及集合进行了性能评估,结果显示所有方法均优于仅使用作者名称的方法,而 Caron 和 van Eck(2014)提出的方法表现最佳。
Apr, 2019
本研究提出了一种基于深度神经网络自动学习特征的作者姓名消歧方法,并在包含越南作者姓名的数据集上验证,结果表明该方法在准确率方面表现显著优于使用预定义特征集的其他方法。
Feb, 2015
研究使用关联网络和 BERT 来进行实体链接和共指消解,发现在领域内语言建模预训练和出版物信息可以显著提高任务性能,提出一种新的监督聚类推断模型并在两个数据集上进行了实验证 显示其具有竞争性能。
Aug, 2022
本研究针对计算机科学文献数据库 DBLP 中同名作者的问题,通过利用共同作者网络和社区检测等方法对同名作者出版物进行聚类,以提高同名作者辨识率。结果表明,该方法对于大部分作者的同名问题有良好的效果,但对于一些常见的同名作者需要进行优化。最终通过社区检测,该方法得到了改进。
Jun, 2016
通过利用合作者关系和研究领域,提出了一种新的方法,使用受监督的深度学习模型对图书馆作者名称歧义问题进行消歧,其能够在数字图书馆中有效地区分共享相同名称的作者和具有不同名称变体的作者。
Jul, 2021
本研究提出了一种基于多模态知识图谱嵌入和层次凝聚聚类的新框架,Literally Author Name Disambiguation (LAND),用于解决学术知识图谱中作者名称消歧的问题,并在两个知识图谱数据集上展示了比基线方法高 8-14% 的性能。
Jan, 2022
该研究提出了一种基于 Siamese LSTM 网络、有监督学习的方法来从相对较低的维度向量空间中提取公司名称字符串的嵌入,同时使用 Active Learning 来优化样本标注的过程,以获得更高的效率和更好的性能。研究显示在足够有标注数据的情况下,该模型表现优于基于标准字符串匹配算法的基准模型,同时使用 Active Learning 能够在有限的数据标记资源下达到相同的性能,从而将模型训练的成本降至最少。
Mar, 2023
提出了一种新的神经网络拓扑结构用于类似社交媒体这类挑战性数据集上,有效地提高了作者验证任务的性能。
Aug, 2019