信息检索的非组合式术语依赖

Jul, 2015

Non-Compositional Term Dependence for Information Retrieval

Christina Lioma, Jakob Grue Simonsen, Birger Larsen, Niels Dalum Hansen

TL;DR该研究探讨信息检索中词项的依赖关系及其影响，提出了用词的词频和语义证据相结合的方法处理查询中的依赖词项，并将其应用于非组成性短语，通过马尔科夫随机场的排名提高了检索效率。

Abstract

modelling term dependence in ir aims to identify co-occurring terms that are too heavily dependent on each other to be treated as a bag of

发现论文，激发创造

本论文在语义处理方面做出重大贡献，提出了多种数学模型以及解决研究范式中存在问题的建议，从而大大提升了机器自动进行语义推理的复杂性和粒度。

Sep, 2017

本文提出了一种基于 contextual word embedding 以及外部知识库的方法，用于实现多词组的非固定组合性自动检测，该方法在数据集测评中表现良好。

Mar, 2019

本文利用大型预训练语言模型计算单词之间的基于上下文的互信息（CPMI）来探究单词之间的语言依存关系，发现 CPMI 依存关系的匹配分数较高，但相对于黄金标准语言依存关系仍相对较简单，分析了 CPMI 依存关系对于语言依存关系的捕捉优势及大型预训练语言模型训练方案对 CPMI 依存关系类型的影响。

Apr, 2021

本文研究了基于推理问题的相关性，探讨了语法和语义两种基本独立性形式，并讨论了它们的特点和缺陷，同时考虑了遗忘问题，提出了一种基于简化推理的知识库提取方法。

Jun, 2011

论文介绍了一种利用多层次信息和分布式信息的新技术，以检测名词短语的组合度，同时采用有监督的方法，并且使用了 Poincaré 嵌入，可以获得显著的效果提升。

Jun, 2019

本文探索了一种替代方案，该方案涉及使用分布邻域明确推断未观察到的共现词，结果表明，分布推断在几个单词相似性基准测试中提高了稀疏的单词表示，并且我们的模型在可解释性的同时，在形容词 - 名词，名词 - 名词和动词 - 对象组合方面与最新技术保持竞争力。

Aug, 2016

本文提出了一种新的概率框架，用于评估概念组合的语义是否是组合性的，并提供了将概念组合的语义分类为 “组合性” 或 “非组合性” 的正式方法。

May, 2013

本文介绍了基于矢量表示的分布语义模型，扩展到短语和句子，提出了分类组合分布语义学理论框架，实现了短语和句子层面的言外推理，并通过实验论证了基于密度矩阵的熵距离在词语和短语、句子层面的言外推理可行性和优越性。

Dec, 2015

通过提取语料库中词汇的共现模式来实现无监督学习，学习不仅代表个体单词的表示，还明确捕捉代表单词间语义关联的词向量表示，并通过联合权重和二元分类器来描述单词间的语义关系，取得了普遍类比检测三个基准数据集中的显著性优势。

May, 2015

该研究介绍了两种形式化方法，将相对频率明确地纳入统计关系人工智能中，并提供了两种形式主义在不断扩大的域上诱导的渐近概率分布的表示，这有助于更好地对训练和测试域大小不同的学习问题进行建模和估算参数。

Feb, 2022