通用语义的数学模型

MMJul, 2019

A mathematical model for universal semantics

Weinan E, Yajun Zhou

TL;DR该论文提出一种利用马尔可夫过程进行文本话题、同义词和语义领域提取的语义模型，通过数学分析文本中的重复模式的方法，实现了语言无关的数字指纹。这种语言无关的语义表达方式可以让机器阅读器能够自动识别不同语言的中短文本和进行自动单词翻译。

Abstract

We characterize the meaning of words with language-independent numerical fingerprints, through a mathematical analysis of recurring patterns in texts. Approximating texts by markov processes on a long-range time

markov processes semantic model language-independent numerical fingerprints automated word translation

发现论文，激发创造

通往普适语义标注的道路

本研究提出了通用语义标注的任务，为广泛覆盖的多语言文本提供了更好的语义分析，使用具有语言中立性和信息丰富的标签对词汇进行标注，为跨语言语义分析提供了支持。语义标注在平行意义银行中的应用支持这些论点，并促进形式词汇语义学和跨语言投影，这个研究在一份小的语料库上注释了它的语义标注，并提出了通用性语义标注的新的基线结果。

Sep, 2017

基于信息空间的科技文本语义分析

本文介绍了用于语义分析和量化科学短文本的计算方法，以及如何将它们标准化为代表科学专业类别的向量，并使用统计分析确定最适当的 “含义” 的尺寸，从而建立了文本含义的几何表示。

May, 2022

关于量化书面语言所编码的语义信息的探索

本文研究书面语的信息编码和语义特征，利用信息论的方法分析书面语中词汇的分布和使用，探求了主题 - 词汇频率关系。研究结果表明，在每个文本中，频率高的词汇与主题的相关性更大，这种现象可以用特征大小和分布模型来解释。

Jul, 2009

文本表示学习的语义希尔伯特空间

通过在单个语义希尔伯特空间中对语义单元进行建模，本文提出了一种新框架，用于文本分类任务，并在六个基准文本分类数据集上展示了该模型的有效性、鲁棒性和自我解释能力。

Feb, 2019

从频率到意义：向量空间语义模型

该论文总结并分类了向量空间模型在语义文本处理中的应用，分为三类主要矩阵结构：项 - 文档、词 - 上下文和对模式矩阵，主要介绍了这三个类别中的广泛应用及其在开源项目中的详细研究，并旨在为熟悉或不熟悉该领域的人提供一些新的研究视角。

Mar, 2010

Sememe Prediction: 从非结构化文本 Wiki 描述学习语义知识

该研究探索如何通过使用维基百科网站上的词语描述自动预测词汇语义单位（sememes），提出一种标签分布式序列到序列模型（LD-seq2seq）和一种新型软损失函数来解决这个弱序多标签任务，实验表明，相比于基线和人类标注者，该方法在测试集上取得了更好的表现。

Aug, 2018

模仿人类过程：通过潜在语义聚类进行文本表示的分类

通过聚类单词并组合成文本向量的新文本表示方案，在 5 个分类基准测试中得到了有效的评估结果，并通过可视化分析验证了其有效性。

Jun, 2019

数学语言处理项目

本研究旨在支持科学家们在研究数学公式中理解标识符的含义，通过对两种方法进行对比，我们发现使用基于词性标注的距离以及句子位置来计算标识符 - 定义概率的 Mathematical Language Processing 方法可以大大提高用户体验，工具提示提供了显示定义的悬停显示，显示出来的定义与实际标识符的含义大致匹配。

Jul, 2014

依赖项：为信息检索形式化语义链

本论文在语义处理方面做出重大贡献，提出了多种数学模型以及解决研究范式中存在问题的建议，从而大大提升了机器自动进行语义推理的复杂性和粒度。

Sep, 2017

连续向量空间中的数学表达式的语义表示

本文介绍了一种在连续向量空间中表示数学表达式的方法，使用序列到序列架构的编码器生成向量表示，并比较了这种方法与自编码器的差异。最后，为了加快未来的项目，我们发布了一组等价的超越和代数表达式对的语料库。

Oct, 2022