分布语义的实用限制约束

Nov, 2022

Pragmatic Constraint on Distributional Semantics

Elizaveta Zhemchuzhina, Nikolai Filippov, Ivan P. Yamshchikov

TL;DR本文研究了语言模型在 Zipf 定律背景下的统计学习限制，表明无论什么标记都会出现 Zipf 的标记分布，标记分布由两个不同频率和语义的标记组成，这些特性干扰了由分布语义驱动的统计学习过程。

Abstract

This paper studies the limits of language models' statistical learning in the context of zipf's law. First, we demonstrate that Zipf-law <

发现论文，激发创造

本文通过随机动力学模型研究了文字 Zipf 定律的起源，并且阐述了该定律在人类语言中的语言学关联性。我们提出的模型结合了与语言结构相关的特征和长时间连续性文本生成过程中内在的记忆效应。研究结果表明，我们的模型的乘性动力学产生的等级 - 频率分布量化结果与实验数据定量一致。

Dec, 2002

文章回顾并批评性讨论了用于描述语言统计规律的通用定律，证明了它们所包含的同时性和独立性等简化统计假设不一定总是成立，阐述了语言定律只有与文本的生成模型结合使用才具有意义和可证伪性，并使用大型数据库的文本生成检验了这些假设的效果并测得大于预期的波动量。

Feb, 2015

该综述文章阐述了分布语义学在理论语言学领域的影响有限，但其成功地捕捉了自然语言诸多意义方面，并回顾了该领域在语义变化、一词多义及组合，以及语法 - 语义接口等领域的研究成果，旨在在理论和计算语言学之间进行更大规模的交叉授粉，以推进我们集体的语言知识。

May, 2019

通过此研究，我们探讨了通过深度学习所学习的语音符号是否遵循自然语言符号所遵循的齐夫定律，以此为基础发展了口语处理的统计分析方法。

Sep, 2023

本文研究了上下文语言模型的语义相似性属性，并利用 SemCor 和 WordNet 方式进行探索。然后，将该方法应用于更开放的环境，以表征静态和上下文语言模型之间的差异。

Nov, 2021

本文提出一种新的基于概率框架、结合形式语义和机器学习的方法，通过将谓词与其所指实体分开，利用贝叶斯推断来对逻辑形式进行推理，在使用受限玻尔兹曼机和前馈神经网络的组合实现这一框架之后，最终证明了该方法的可行性。

Jun, 2016

通过优化编码方法，本文提出了一种新的针对语言词频的 Zipf 定律推导方式，该推导结构类似于曼德布洛特的随机打字模型，但具有多个优点，可以启发对语言其他统计定律的研究，从而进一步解释其产生动机，如简单易懂和快速交流等。

May, 2016

通过研究三种版本的 Zipf 定律并将它们拟合到 Project Gutenberg 数据库中所有可用的英文文本中，我们发现其中一种版本的 Zipf 定律在整个频率域内（从 1 到最大值）仅用一个自由参数就能拟合数据库中超过 40％的文本。

Sep, 2015

采用基于概率逻辑推理的混合方法将基于逻辑和分布式语义组合起来，提高了在文本推理任务上的表现。

May, 2015

分布式语义模型已经广泛应用于自然语言处理系统中，但在语言和认知的更广泛理论范围内，分布式语义模型的理论地位仍不清楚。然而，我们认为传统答案本质上是一个误解，分布式语义模型本身是表达含义的适当模型。

May, 2019