俄语网络搜索结果的语义聚类:可能性和问题
这篇研究论文描述了第一个关于俄语词义归纳(WSI)的共享任务的结果,使用 sense embeddings 方法,创新性的从维基百科、学术语料库和俄罗斯解释词典中开发三个新的评估数据集,为具有许多斯拉夫语言特征的斯拉夫语言探索词义归纳和消歧方法等主题。
Mar, 2018
该论文介绍了我们参与俄语单词词义感知和消除方面的 RUSSE'2018(Panchenko 等人,2018)的首个共享任务。我们通过使用词嵌入的重量平均值和神经机器翻译系统,在该任务中表现出了优异的结果并超越了先前年份基于语义嵌入的竞争性基线。
May, 2018
本研究提出了一种基于图的方法,利用同义词词典和词嵌入诱导同义词集。首先,我们建立了一个从常见资源(例如 Wiktionary)中提取同义词的加权图。其次,我们应用词义归纳来处理有歧义的单词。最后,我们将有歧义输入图的已消除歧义版本聚类到同义词集中。虽然方法简单,但在三个由人工构建的大规模词汇资源衍生的英语和俄语的黄金标准 数据集上,在 F-score 方面表现出优秀的结果,超越了五种有竞争力的最新方法。
Apr, 2017
该研究总结了俄语语义相似性评估 (RUSSE) 共享任务的概述,提出了一种基于四个新颖基准数据集的俄语语义相似性评估方法,并通过对 19 个团队的 105 个提交信息的分析,证明英语中成功的方法也可以直接适用于俄语。
Mar, 2018
本文提出了一种基于主观注释的新型监督学习方法来学习统计句子相关性模型,该模型由大规模背景知识语料库中的文本单位关联的参数化共现统计信息组成,并提出了一种高效的算法来从相关性偏好的训练样本中学习语义模型,方法独立于语料库、适用于任何足够大的(非结构化)文本集合,并且可以为特定用户或用户组拟合语义模型。通过广泛的小到大规模实验结果表明,这种方法是有效的,竞争力强。
Nov, 2013
通过本文,我们引入了概念归纳这个非监督任务,从数据中学习一组定义概念的词语软聚类,该任务概括了词义归纳的任务。我们提出了一种双层方法来进行概念归纳,充分利用了本地词元为中心和全局跨词库视角来引导概念的生成。我们在 SemCor 的注释数据上评估所得到的聚类,并获得了良好的性能(BCubed F1 大于 0.60)。我们发现在我们的设置中,本地和全局层次相互有益于概念和词义的生成。最后,我们创建了表示我们引入的概念的静态嵌入,并在上下文任务中使用它们,取得了与现有技术相媲美的性能。
Jun, 2024
本文提出 RuDSI 作为俄语词义归纳的新基准,通过手工注释和半自动聚类生成了数据集,具有完全数据驱动、不施加外部词语含义的特点,实验表明了数种基线词义归纳方法在 RuDSI 上的表现和改进空间。
Sep, 2022
该研究提出了一种基于图的聚类方法,旨在捕捉各种高频和低频单词感知的微妙变化,包括这些感知随时间的获得和丧失。实验结果表明,该方法在四种语言的 SemEval2020 二元分类任务中显著超过了以前的方法。此外,我们展示了该方法作为一种多功能可视化工具,在语言内部和语言之间设置中检测语义变化的能力。我们已公开提供代码和数据。
Feb, 2024
本文介绍了为俄语语义相关性提供 5 种不同规模和目的的语言资源,其中四个旨在评估计算语义相关性的系统,另一个旨在生成第一个俄语开放的分布式词库,其中包含了大规模的众包研究表明其高准确性。
Aug, 2017