俄语网络搜索结果的语义聚类：可能性和问题

MMSep, 2014

俄语网络搜索结果的语义聚类：可能性和问题

Semantic clustering of Russian web search results: possibilities and problems

Andrey Kutuzov

TL;DR本研究为了解决搜索引擎语义检索问题，探讨了从俄语大规模语料库中构建词汇共现图，运用分布式语义模型对于词义归纳和聚类的方法。

Abstract

The paper deals with word sense induction from lexical co-occurrence graphs. We construct such graphs on large Russian corpora and then apply this data to cluster Mail.ru Search results according to meanings of t

word sense induction lexical co-occurrence graphs clustering distributional semantics linguistic data

发现论文，激发创造

RUSSE'2018：俄语词义归纳共享任务

这篇研究论文描述了第一个关于俄语词义归纳（WSI）的共享任务的结果，使用 sense embeddings 方法，创新性的从维基百科、学术语料库和俄罗斯解释词典中开发三个新的评估数据集，为具有许多斯拉夫语言特征的斯拉夫语言探索词义归纳和消歧方法等主题。

Mar, 2018

一个词有多重？为单词语义感知调整词嵌入重量

该论文介绍了我们参与俄语单词词义感知和消除方面的 RUSSE'2018（Panchenko 等人，2018）的首个共享任务。我们通过使用词嵌入的重量平均值和神经机器翻译系统，在该任务中表现出了优异的结果并超越了先前年份基于语义嵌入的竞争性基线。

May, 2018

Watset: 从同义词图中自动归纳同义词集

本研究提出了一种基于图的方法，利用同义词词典和词嵌入诱导同义词集。首先，我们建立了一个从常见资源（例如 Wiktionary）中提取同义词的加权图。其次，我们应用词义归纳来处理有歧义的单词。最后，我们将有歧义输入图的已消除歧义版本聚类到同义词集中。虽然方法简单，但在三个由人工构建的大规模词汇资源衍生的英语和俄语的黄金标准数据集上，在 F-score 方面表现出优秀的结果，超越了五种有竞争力的最新方法。

Apr, 2017

神经语言模型在俄语语义相似性任务中的应用

该研究论文探讨如何通过神经网络语言模型来计算俄语的语义相似度，并介绍了应用的工具、语料库、实验结果以及学习这种语义向量的潜在用途。

Apr, 2015

RUSSE: 俄语语义相似性首个研讨会

该研究总结了俄语语义相似性评估 (RUSSE) 共享任务的概述，提出了一种基于四个新颖基准数据集的俄语语义相似性评估方法，并通过对 19 个团队的 105 个提交信息的分析，证明英语中成功的方法也可以直接适用于俄语。

Mar, 2018

语义排序：个性化语义相关性的监督学习方法

本文提出了一种基于主观注释的新型监督学习方法来学习统计句子相关性模型，该模型由大规模背景知识语料库中的文本单位关联的参数化共现统计信息组成，并提出了一种高效的算法来从相关性偏好的训练样本中学习语义模型，方法独立于语料库、适用于任何足够大的（非结构化）文本集合，并且可以为特定用户或用户组拟合语义模型。通过广泛的小到大规模实验结果表明，这种方法是有效的，竞争力强。

Nov, 2013

通过语境化语言模型诱导概念：从词义到更多

通过本文，我们引入了概念归纳这个非监督任务，从数据中学习一组定义概念的词语软聚类，该任务概括了词义归纳的任务。我们提出了一种双层方法来进行概念归纳，充分利用了本地词元为中心和全局跨词库视角来引导概念的生成。我们在 SemCor 的注释数据上评估所得到的聚类，并获得了良好的性能（BCubed F1 大于 0.60）。我们发现在我们的设置中，本地和全局层次相互有益于概念和词义的生成。最后，我们创建了表示我们引入的概念的静态嵌入，并在上下文任务中使用它们，取得了与现有技术相媲美的性能。

Jun, 2024

RuDSI：基于图形的俄语词义感知数据集

本文提出 RuDSI 作为俄语词义归纳的新基准，通过手工注释和半自动聚类生成了数据集，具有完全数据驱动、不施加外部词语含义的特点，实验表明了数种基线词义归纳方法在 RuDSI 上的表现和改进空间。

Sep, 2022

基于图的聚类方法用于检测跨时间和语言的语义变化

该研究提出了一种基于图的聚类方法，旨在捕捉各种高频和低频单词感知的微妙变化，包括这些感知随时间的获得和丧失。实验结果表明，该方法在四种语言的 SemEval2020 二元分类任务中显著超过了以前的方法。此外，我们展示了该方法作为一种多功能可视化工具，在语言内部和语言之间设置中检测语义变化的能力。我们已公开提供代码和数据。

Feb, 2024

俄语语义相关性的人工和机器判断

本文介绍了为俄语语义相关性提供 5 种不同规模和目的的语言资源，其中四个旨在评估计算语义相关性的系统，另一个旨在生成第一个俄语开放的分布式词库，其中包含了大规模的众包研究表明其高准确性。

Aug, 2017