本研究提出了通用语义标注的任务,为广泛覆盖的多语言文本提供了更好的语义分析,使用具有语言中立性和信息丰富的标签对词汇进行标注,为跨语言语义分析提供了支持。语义标注在平行意义银行中的应用支持这些论点,并促进形式词汇语义学和跨语言投影,这个研究在一份小的语料库上注释了它的语义标注,并提出了通用性语义标注的新的基线结果。
Sep, 2017
本文介绍了用于语义分析和量化科学短文本的计算方法,以及如何将它们标准化为代表科学专业类别的向量,并使用统计分析确定最适当的 “含义” 的尺寸,从而建立了文本含义的几何表示。
May, 2022
本文研究书面语的信息编码和语义特征,利用信息论的方法分析书面语中词汇的分布和使用,探求了主题 - 词汇频率关系。研究结果表明,在每个文本中,频率高的词汇与主题的相关性更大,这种现象可以用特征大小和分布模型来解释。
Jul, 2009
通过在单个语义希尔伯特空间中对语义单元进行建模,本文提出了一种新框架,用于文本分类任务,并在六个基准文本分类数据集上展示了该模型的有效性、鲁棒性和自我解释能力。
Feb, 2019
该论文总结并分类了向量空间模型在语义文本处理中的应用,分为三类主要矩阵结构:项 - 文档、词 - 上下文和对模式矩阵,主要介绍了这三个类别中的广泛应用及其在开源项目中的详细研究,并旨在为熟悉或不熟悉该领域的人提供一些新的研究视角。
Mar, 2010
该研究探索如何通过使用维基百科网站上的词语描述自动预测词汇语义单位(sememes),提出一种标签分布式序列到序列模型(LD-seq2seq)和一种新型软损失函数来解决这个弱序多标签任务,实验表明,相比于基线和人类标注者,该方法在测试集上取得了更好的表现。
Aug, 2018
通过聚类单词并组合成文本向量的新文本表示方案,在 5 个分类基准测试中得到了有效的评估结果,并通过可视化分析验证了其有效性。
Jun, 2019
本研究旨在支持科学家们在研究数学公式中理解标识符的含义,通过对两种方法进行对比,我们发现使用基于词性标注的距离以及句子位置来计算标识符 - 定义概率的 Mathematical Language Processing 方法可以大大提高用户体验,工具提示提供了显示定义的悬停显示,显示出来的定义与实际标识符的含义大致匹配。
Jul, 2014
本论文在语义处理方面做出重大贡献,提出了多种数学模型以及解决研究范式中存在问题的建议,从而大大提升了机器自动进行语义推理的复杂性和粒度。
本文介绍了一种在连续向量空间中表示数学表达式的方法,使用序列到序列架构的编码器生成向量表示,并比较了这种方法与自编码器的差异。最后,为了加快未来的项目,我们发布了一组等价的超越和代数表达式对的语料库。
Oct, 2022