神经语言模型在俄语语义相似性任务中的应用

Apr, 2015

神经语言模型在俄语语义相似性任务中的应用

Texts in, meaning out: neural language models in semantic similarity task for Russian

Andrey Kutuzov, Igor Andreev

TL;DR该研究论文探讨如何通过神经网络语言模型来计算俄语的语义相似度，并介绍了应用的工具、语料库、实验结果以及学习这种语义向量的潜在用途。

Abstract

distributed vector representations for natural language vocabulary get a lot of attention in contemporary computational linguistics. This paper summarizes the experience of applying neural network language models

distributed vector representations neural network language models semantic similarity russian language russian national corpus

发现论文，激发创造

RUSSE: 俄语语义相似性首个研讨会

该研究总结了俄语语义相似性评估 (RUSSE) 共享任务的概述，提出了一种基于四个新颖基准数据集的俄语语义相似性评估方法，并通过对 19 个团队的 105 个提交信息的分析，证明英语中成功的方法也可以直接适用于俄语。

Mar, 2018

俄语网络搜索结果的语义聚类：可能性和问题

本研究为了解决搜索引擎语义检索问题，探讨了从俄语大规模语料库中构建词汇共现图，运用分布式语义模型对于词义归纳和聚类的方法。

Sep, 2014

生物医学领域语义相似度评估的神经句子嵌入模型

本研究以 PubMed 开放获取数据集中的 1.7 百万文章为依据，研究了目前最先进的神经句子嵌入模型在生物医学文献中语义相似性估计方面的有效性；结果表明，我们提出的受监督模型在生物医学基准数据集上的表现优于以往的方法，并呼吁进一步对生物医学句子中的矛盾和否定进行研究。

Oct, 2021

利用词向量追踪俄语文化历时语义变化：测试集和基准

介绍了手动注释的测试集，用于跟踪俄语中的历时语义转变，并通过分布式词嵌入模型来自动检测具有强烈或微妙社会和文化变化的名词和形容词词义，提供了实体间语义演变检测的算法和比分。

May, 2019

评估语义变化的句子嵌入模型的比较研究

分析语义变化的模式在长篇实际文本（如书籍或记录）中是有趣的，从文体、认知和语言的角度来看。这项研究也对应用领域，如文本分段、文档摘要和语义新颖性检测是有用的。本文通过时间序列的语义相似性以及多本文学作品的两两句子相似性矩阵比较了几种最近的句子嵌入方法。与以前使用目标任务和精心策划的数据集比较句子嵌入方法的研究不同，我们的方法提供了对方法在现实情境的评估。我们发现，大部分句子嵌入方法确实能够在给定文档中推断出高度相关的语义相似性模式，但也存在有趣的差异。

Aug, 2023

高风险学习：从微小数据中获取新单词向量

本论文研究了分布式语义模型与小样本数据的问题，并展示了如何使用神经语言模型 Word2Vec，通过以前学习语义空间的背景知识，仅对其标准体系结构进行微小修改，以从微小数据中学习新术语，并在单词定义任务和少量上下文的例子任务中，相较于最先进的模型，呈现出大幅增长的性能。

Jul, 2017

基于摘要描述的文本检索

本文提出了新的检索模型，结合了指令模型和基于检索模型，使用大型语言模型的正负对进行训练，以改进当前文本嵌入技术性能。

May, 2023

用于复述识别、语义文本相似性、自然语言推理和问答的神经网络模型

本文分析了几种神经网络设计（及其变体），对八个数据集进行了广泛的比较，包括释义识别、语义文本相似性、自然语言推断和问题回答等任务。我们提供了一个系统的研究，表明编码上下文信息的 LSTM 和句间交互至关重要，而 Tree-LSTM 并不能像先前宣传的那样有所帮助，但却出人意料地提高了 Twitter 数据集的性能；增强顺序推理模型是迄今为止较大数据集的最佳选择，而基于词对交互的模型在较少数据可用时实现最佳性能。我们将我们的实现作为开源工具包发布。

Jun, 2018

几近白板：针对未经分词的文本训练的基于字符级神经语言模型的语言学知识探究

我们进行了一项多语言研究，探讨了在去除单词边界的输入数据上，以字符级语言模型为训练对象的循环神经网络通过基于输入统计量发现有用的语言单位这一更加困难和认知真实的任务的语言学知识编码。结果表明，我们的 “近乎于白板” 的循环神经网络主要能够解决形态、语法和语义任务，这些任务根据直观上的想象需要单词级别的知识，并且它们在某种程度上学会了追踪单词边界。我们的研究为关于语言学习和使用中明确、严格的单词词典必要性的猜测打开了大门。

Jun, 2019

俄语语义相关性的人工和机器判断

本文介绍了为俄语语义相关性提供 5 种不同规模和目的的语言资源，其中四个旨在评估计算语义相关性的系统，另一个旨在生成第一个俄语开放的分布式词库，其中包含了大规模的众包研究表明其高准确性。

Aug, 2017