本研究旨在对传统计数模型、预测模型与现代上下文向量模型(由 Transformer 神经语言模型生成)进行遵循语境学习的分布式语义模型(DSM)评估,结果显示在大多数上下文之外的语义任务和数据集中,静态 DSM 优于上下文化代表性,并揭示了 DSM 之间的不同之处,这些不同涉及词汇项的频率和词性,为调查分布式模型生成的语义空间提供了方法。
May, 2021
本文提出了一个关于词对中同义词语义演变的权衡法则的评价框架,利用分布语义模型提供了证据并探讨了挑战,结果支持了不同化法则的主导作用。
May, 2023
分布式语义模型已经广泛应用于自然语言处理系统中,但在语言和认知的更广泛理论范围内,分布式语义模型的理论地位仍不清楚。 然而,我们认为传统答案本质上是一个误解,分布式语义模型本身是表达含义的适当模型。
May, 2019
本文基于大规模比较研究了常用的大规模神经语言和蒙面语言模型(LM 和 MLM),比如 Context2vec,ELMo,BERT,XLNet,在词汇替换任务中的应用。研究表明,如果目标词语的信息被适当地注入,则可以进一步提高 SOTA LM / MLM 已经具有的竞争结果,并比较几种目标注入方法。此外,提供不同模型生成的目标及其替代词之间语义关系类型的分析,从而深入探究生成或由注释员提供的替代词的种类。
May, 2020
本文研究了向量空间模型在自然语言处理领域的一些应用,通过比较不同模型在 TOEFL 同义词检测中的效果,发现在计算分布相似度时,句法依赖可以更好地解释词汇语义,同时将人工语义知识注入到神经嵌入中可以显著提高同义词检测的效果。
Sep, 2022
该综述文章阐述了分布语义学在理论语言学领域的影响有限,但其成功地捕捉了自然语言诸多意义方面,并回顾了该领域在语义变化、一词多义及组合,以及语法 - 语义接口等领域的研究成果,旨在在理论和计算语言学之间进行更大规模的交叉授粉,以推进我们集体的语言知识。
本文研究使用基于上下文嵌入方法进行检测历时语义变化的可能存在的输出错误。通过引入单一方法并进行深入的分析,作者发现这种方法可能会将词汇的词典含义变化与上下文语境的变化混淆,同时将词汇实体的句法和语义方面合并在一起。本文提出了一些解决这些问题的未来可能方案。
Aug, 2022
本文研究了语义距离的分布式度量方法,比较了这种方法和基于 WordNet 的方法的优缺点,并讨论了混合方法的最新工作。
Mar, 2012
采用基于概率逻辑推理的混合方法将基于逻辑和分布式语义组合起来,提高了在文本推理任务上的表现。
May, 2015
本文研究了语言模型在 Zipf 定律背景下的统计学习限制,表明无论什么标记都会出现 Zipf 的标记分布,标记分布由两个不同频率和语义的标记组成,这些特性干扰了由分布语义驱动的统计学习过程。
Nov, 2022