通过对多词表达式的深入调查,我们发现 Transformer 模型在捕捉多词表达式的语义上存在不一致性,主要依赖表面模式和记忆信息,并且其表示在架构的早期层中主要存在。另外,我们强调了更直接可比较的评估设置的需求。
Jan, 2024
本研究提出了一种多阶段深度神经网络架构,利用注意力机制和上下文信息对句子中的习语表达进行定位,通过评估表明该模型能够在各类习语表达的数据集上实现新的最优结果,并具有对未见过的习语表达的识别能力。
Oct, 2021
本文探讨了现代语言模型是否能够学会表示复合短语中的复合性和非复合性,通过预测长语的内部表示来证明了现代语言模型可以预测一个父短语的表示。同时,通过多种分析,揭示了不同类型的语言模型何时产生了复合表示,并探讨了未来建模工作的可能性。
Oct, 2022
论文介绍了一种利用多层次信息和分布式信息的新技术,以检测名词短语的组合度,同时采用有监督的方法,并且使用了 Poincaré 嵌入,可以获得显著的效果提升。
Jun, 2019
提出了一种通用的方法来组合词语的正半定矩阵,该方法通过压缩规则(Compr)将动词、形容词和其他功能词的 psd 矩阵提升到与它们的语法类型相匹配的完全正(CP)映射中。
May, 2020
本文提出了一种数学框架,为自然语言处理中向量空间模型的分布式理论和语法类型的组合理论提供统一的基础,它能够计算词汇的组合成分从而推导出句子的语义信息,具有很高的实用价值。
Mar, 2010
介绍了一种扩展基于范畴的表示意义的方法,将其应用于概念空间模型,提出了凸关系范畴,构建了名词、形容词和动词类型的概念空间,通过例子说明了复合短语的构成方式,建立了一种新的认知复合方法。
Mar, 2017
本文提出了一种基于 contextual word embedding 以及外部知识库的方法,用于实现多词组的非固定组合性自动检测,该方法在数据集测评中表现良好。
Mar, 2019
对于平面结构的多词表达式(flat-structure MWEs),识别标记比解析更准确。使用提出的联合解码算法,结合解析和标记策略,可以获得更高的准确性,其提高来自解析器和标记器之间的特征共享。
本文提出了一种新的概率框架,用于评估概念组合的语义是否是组合性的,并提供了将概念组合的语义分类为 “组合性” 或 “非组合性” 的正式方法。
May, 2013